首页> 中国专利> 多语言的文字转语音合成系统与方法

多语言的文字转语音合成系统与方法

摘要

一种多语言的文字转语音合成系统与方法,将欲合成的文本,通过一语音模型挑选模块及一语音模型合并模块处理,利用一离线阶段得到的一语音单元转换表,于一在线阶段时,此语音模型挑选模块,依据输入文本及对应文本的语音单元序列,利用设定的至少一可调控的口音权重参数,选择要采用的一转换组合,找出一第二语音模型及一第一语音模型,此语音模型合并模块依照设定的至少一可调控的口音权重参数,将找出的两语音模型合并成一合并语音模型,处理该转换组合中所有的转换后,产生一对应输入之语音单元序列的合并语音模型序列,然后利用一语音合成器以及此合并语音模型序列将文本合成带有第一语言口音的第二语言语音。

著录项

  • 公开/公告号CN102543069A

    专利类型发明专利

  • 公开/公告日2012-07-04

    原文格式PDF

  • 申请/专利权人 财团法人工业技术研究院;

    申请/专利号CN201110034695.1

  • 发明设计人 李振宇;涂家章;郭志忠;

    申请日2011-01-30

  • 分类号G10L13/08(20060101);G10L13/06(20060101);

  • 代理机构11006 北京律诚同业知识产权代理有限公司;

  • 代理人梁挥;张燕华

  • 地址 中国台湾新竹县

  • 入库时间 2023-12-18 05:55:46

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2013-10-16

    授权

    授权

  • 2012-09-05

    实质审查的生效 IPC(主分类):G10L13/08 申请日:20110130

    实质审查的生效

  • 2012-07-04

    公开

    公开

说明书

技术领域

本揭露涉及一种多语言(multi-lingual)的文字转语音(Text-To-Speech,TTS)合成(synthesis)系统与方法。 

背景技术

在文章或句子中出现多种语言的交错使用是很常见的,例如中文与英文夹杂使用。当人们需要将这些文字以语音合成技术转为声音时,依据使用的情境来决定如何处理非母语的文字是最佳的。例如有的情境以标准的英文读出英文单字就已经是最好的,有的情境则略带母语腔调的方式反而较为自然,例如小说电子书中出现的中英夹杂文句,写给朋友的电子邮件等。目前多语言的文字转语音合成系统普遍以多套语言的合成器进行切换,所以合成的语音在不同语言区块交错时,常会出现由不同语者发音,或是语句韵律中断而不顺畅等情形。 

多语言语音合成的现有文献有很多。相关的文献例如美国专利号US6,141,642揭示的处理多种语言的文字转语音装置与方法(TTS Apparatus andMethod for Processing Multiple Languages),此技术直接以多套语言的合成器来进行切换。 

有些专利文献揭示的技术是直接将非母语音标完全对应成母语音标,没有将不同语言的语音模型之间的差异纳入考虑。有些专利文献揭示的技术则合并不同语言的语音模型中相似的部分,保留相异的部分,而没有考虑口音权重的问题。有些论文如关于基于HMM的混合语言(Mixed-language),如中文-英文,的语音合成所揭示的技术也是没有将口音权重纳入考虑。 

有一篇论文″Foreign Accents in Synthetic Speech:Development andEvaluation″是以不同的音标对应的方式来处理口音问题。另两篇论文″Polyglotspeech prosody control″及″Prosody modification on mixed-language speechsynthesis″则处理韵律方面的问题,也没有处理语音模型的部分。而论文″Newapproach to the polyglot speech generation by means of an HMM-based spe aker adaptable synthesizer″是以语者模型调适的方式来建立非母语(non-nativelanguage)的语音模型,但没有揭示可控制口音的轻重。 

发明内容

本发明揭露一种多语言的文字转语音合成系统与方法,所要解决的技术问题在于使第二语言词汇的发音与韵律,可以在完全维持其原标准发音,到完全以第一语言方式发音的两种极端范围中作调整。 

在一实施例中,所揭露的是关于一种多语言的文字转语音合成系统。此系统包含一语音模型挑选模块(speech model selection module)、一语音模型合并模块(speech model combination module)及一语音合成器(speech synthesizer)。此语音模型挑选模块对欲合成的含有第二语言的输入文本(text)及对应此输入文本第二语言的部分的一第二语言语音单元序列(phonetic unit sequence),在一第二语言语音模型库中,依序找出该第二语言语音单元序列中各语音单元所对应的一第二语音模型,再查询一第二语言转第一语言的语音单元转换表,并利用设定的至少一可调控的口音权重参数,决定要采用一转换组合,选择出一相对应的第一语言语音单元序列,并在一第一语言语音模型库中,依序找出该第一语言语音单元序列中各语音单元所对应的一第一语音模型。此语音模型合并模块将找出的第二与第一语音模型,依照设定的至少一可调控的口音权重参数,合并成一合并语音模型,依序处理该转换组合中所有的转换后,将各合并语音模型依序排列产生一合并语音模型序列。此合并语音模型序列再套用至此语音合成器,以将输入的文本合成为带有第一语言口音的第二语言语音(L1-accent L2 speech)。 

在另一实施例中,所揭露的是关于一种多语言的文字转语音合成系统,此多语言的文字转语音合成系统是执行于一计算机系统中,此计算机系统备有一记忆体装置,用来储存多种语言语音模型库,至少包括一第一与一第二语言语音模型库。此多语言的文字转语音合成系统可包含一处理器,此处理器备有一语音模型挑选模块、一语音模型合并模块、及一语音合成器。其中,于一离线阶段时,建立一语音单元转换表,以提供给此处理器使用。此语音模型挑选模块对欲合成的含有第二语言的输入文本及对应此输入文本第二语言的部分的一第二语言语音单元序列,在该第二语言语音模型库中,依序找出该第二语言 语音单元序列中各语音单元所对应的一第二语音模型,再查询该第二语言转第一语言的语音单元转换表,并依照设定的至少一可调控的口音权重参数,决定要采用的一转换组合,选择出一相对应的第一语言语音单元序列,并在该第一语言语音模型库中,依序找出该第一语言语音单元序列中各语音单元所对应的一第一语音模型。此语音模型合并模块将找出的第二与第一语音模型,依照设定的至少一可调控的口音权重参数,合并成一合并语音模型,依序处理该转换组合中所有的转换后,将各合并语音模型依序排列产生一合并语音模型序列。此合并语音模型序列再套用至此语音合成器,以将输入的文本合成为带有第一语言口音的第二语言语音。 

在又一实施例中,所揭露的是关于一种多语言的文字转语音合成方法。此方法是执行于一计算机系统中,此计算机系统备有一记忆体装置,用来储存多种语言语音模型库,至少包括一第一与一第二语言语音模型库。此方法包含:对欲合成的含有第二语言的输入文本及对应此输入文本第二语言的部分的一第二语言语音单元序列,在该第二语言语音模型库中,依序找出该第二语言语音单元序列中各语音单元所对应的一第二语音模型后,再查询一第二语言转第一语言的语音单元转换表,并依照设定的至少一可调控的口音权重参数,决定要采用的一转换组合,选择一相对应的第一语言语音单元序列,并在该第一语言语音模型库中,依序找出该第一语言语音单元序列中各语音单元所对应的一第一语音模型;依照设定的至少一可调控的口音权重参数,将找出的第二与第一语音模型,合并成一合并语音模型,依序处理该转换组合中所有的转换后,将各合并语音模型依序排列产生一合并语音模型序列;以及将此合并语音模型序列套用至一语音合成器,并将欲合成的输入文本以此语音合成器合成为带有第一语言口音的一第二语言语音。 

以下结合附图和具体实施例对本发明进行详细描述,但不作为对本发明的限定。 

附图说明

图1是一种多语言的文字转语音合成系统的一个范例示意图,与所揭露的实施范例一致; 

图2是一范例示意图,说明语音单元转换表建立模块如何产生语音单元转 换表,与所揭露的实施范例一致; 

图3说明动态编程的细节,与所揭露的实施范例一致; 

图4是一范例示意图,说明在线阶段时,各模块的运作,与所揭露的实施范例一致; 

图5是一范例流程图,说明一种多语言的文字转语音合成方法的运作,与所揭露的实施范例一致; 

图6是多语言的文字转语音合成系统执行于一计算机系统中的一范例示意图,与所揭露的实施范例一致。 

其中,附图标记 

100 多语言的文字转语音合成系统 

101 离线阶段 

102 在线阶段 

L1 第一语言 

L2 第二语言 

110 语音单元转换表建立模块 

112 带有L1口音的L2语料库 

114 L1语音模型库 

116 L2转L1的语音单元转换表 

120 语音模型挑选模块 

122 输入文本及对应文本的语音单元序列 

126 L2语音模型库 

128 L1语音模型库 

130 语音模型合并模块 

132 合并语音模型序列 

140 语音合成器 

142 带有L1口音的L2语音 

150 可调控的口音权重参数 

202 声音文件 

204 语音单元序列 

212 自由音节式语音识别 

214 音节识别结果 

216 音节转成语音单元 

218 动态编程 

300 L2转L1的语音单元转换表的例子 

511-513 3条路径 

614 第一语言模型 

616 第二语言模型 

622 合并语音模型 

步骤710准备带有第一语言口音的一第二语言语料库及一第一语言语音模型库,来建构一第二语言转第一语言的语音单元转换表 

步骤720对欲合成的一含有第二语言的输入文本,及对应输入文本第二语言的部分的一第二语言语音单元序列,在一第二语言语音模型库中,依序找出该第二语言语音单元序列中各语音单元所对应的一第二语音模型后,再查询一语音单元转换表,并依照设定的一可调控的口音权重参数,决定要采用的一转换组合,决定出一相对应的第一语言语音单元序列,并在一第一语言语音模型库中,依序找出该第一语言语音单元序列中各语音单元所对应的第一语音模型 

步骤730依照设定的至少一可调控的口音权重参数,将找出的两语音模型,合并成一合并语音模型,依序处理该转换组合中所有的转换后,将各合并语音模型依序排列产生一合并语音模型序列 

步骤740将此合并语音模型序列套用至一语音合成器,将欲合成的输入文本以此语音合成器合成为带有第一语言口音的一第二语言语音 

800多语言的文字转语音合成系统 

810处理器 

890记忆体装置 

具体实施方式

下面结合附图对本揭露的结构原理和工作原理作具体的描述: 

本揭露实施例欲提供一种音韵模型统合的多语言文字转语音合成技术,并且建立一种调整机制来调整非母语语句所带的母语口音的权重,让合成的语音 在跨不同语言区块时,能因应使用的情境来决定如何处理非母语的文字。让合成的语音在跨不同语言区块时韵律更加自然,发音腔调也更符合多数人所习惯的方式。换言之,本揭露实施例将非母语,即第二语言(second language,L2),的文字转换成带有母语口音,即第一语言(first language1,L1)口音,的L2语音。 

本揭露实施例是可用参数调整语音单元序列的对应以及语音模型的合并,来使非母语文字的发音(pronunciation)与韵律(prosody)可以在两种极端范围中作调整。换句话说,在完全维持其原标准发音至完全改成以母语方式发音之间作调整。以解决目前合成多语言文字时,韵律或发音不自然的问题,并且可依照喜好的程度进行最佳的调整。 

图1是一种多语言的文字转语音合成系统的一个范例示意图,与所揭露的某些实施范例一致。图1的范例中,多语言的文字转语音合成系统100包含一语音模型挑选模块120、一语音模型合并模块130及一语音合成器140。于一在线(on-line)阶段102时,语音模型挑选模块120对输入文本及对应文本的语音单元序列122,在L2语音模型库126中,依序找出第二语言语音单元序列中各语音单元所对应的第二语音模型,再查询一L2转L1的语音单元转换表116,并依照设定的一可调控的口音权重参数150,决定要采用的一转换组合,选择一相对应的第一语言语音单元序列,并在L1语音模型库128中,依序找出第一语言语音单元序列中各语音单元所对应的第一语音模型。 

语音模型合并模块130,依照设定的可调控的口音权重参数150,在L2语音模型库126中找出的各语音单元所对应的模型(即第二语音模型),及L1语音模型库128中找出的各语音单元所对应的模型(即第一语音模型),依据采用一转换组合,合并成一合并语音模型,依序处理该转换组合中所有的转换后,将各合并语音模型依序排列产生合并语音模型序列132。此合并语音模型序列132再套用至语音合成器140,合成为L1语音及带有L1口音的一L2语音142。 

多语言的文字转语音合成系统100可再包括一语音单元转换表建立模块110,于一离线(off-line)阶段101时,语音单元转换表建立模块110根据带有L1口音的一L2语料库112及一L1语音模型库114,产生L2转L1的语音单元转换表116。 

在上述中,L1语音模型库114是供语音单元转换表建立模块110所使用, 而L1语音模型库128则供语音模型合并模块130所使用,两语音模型库114及128可以采用相同的特征参数,也可以采用不同的特征参数,但L2语音模型库126采用的参数与L1语音模型库128是采用相同的特征参数。 

欲合成的输入文本122可以是同时包含L1以及L2的文本,例如中英夹杂的句子:他今天感觉很high、Cindy昨天mail给我、这件衣服是M号的。此时L1为中文语言,L2为英语,而合成语音在L1的部分维持正常发音不变,L2的部分则合成带有L1口音的L2语音。输入文本122也可以是只包含L2的文本,例如合成带有台语口音的中文语言,此时L1为台语,L2为中文语言。也就是说,欲合成的输入文本122至少含有L2的文本,对应文本的语音单元序列至少含有L2的语音单元序列。 

图2是一范例示意图,说明语音单元转换表建立模块110如何产生语音单元转换表,与所揭露的某些实施范例一致。在离线阶段时,如图2的范例所示,建构L2转L1的语音单元转换表的流程可包含如下:(1)准备带有L1口音的L2语料库112,此L2语料库112包含有多个声音文件202以及与声音文件相对应的多个语音单元序列204。(2)从L2语料库112中挑选出一个声音文件以及与此声音文件的内容相对应的一L2语音单元序列,将此声音文件以L1语音模型库114来进行自由音节(free syllable)式语音识别212,产生音节识别结果214;关于音调(pitch)方面也可采取类似的方式以自由声调识别(free tonerecognition)的结果作对应,也就是说,也可再包括进行一自由声调式识别来产生识别结果214,此时结果为具声调的音节(tonal syllable)。(3)将L1语音模型库114产生的音节识别结果214,通过音节转成语音单元216处理,转成一L1语音单元序列,(4)将步骤(2)的L2语音单元序列及步骤(3)转成的L1语音单元序列利用动态编程(Dynamic Programming,DP)218来进行语音单元校准(alignment),完成动态编程后,即可得到一笔转换组合。也就是说,利用该动态编程来找出该L2语音单元序列与该L1语音单元序列的语音单元对应与转换类型。 

重复上述步骤(2)、(3)、(4)便可得到众多的转换组合,统计所得到的众多转换组合就可完成L2转L1的语音单元转换表116。此语音单元转换表可包含三种类型的转换,分别为代换(substitution)、插入(insertion)及删除(deletion),其中代换是一对一的转换,插入是一对多的转换,删除是多对一的转换。 

举例说明,假设从带有L1(中文)口音的L2(英文)语料库112中一个声音文件为SARS,其L2语音单元序列为sa:rs(国际音标表示法,语音单元为音素)。而此声音文件由L1语音模型库114进行自由音节式语音识别212后,产生其音节识别结果214,经音节转成语音单元216处理后,L1(中文)语音单元序列例如为“sa s i(汉语拼音表示法,语音单元为声母/韵母)”。将L2语音单元序列“sa:rs”及L1语音单元序列“sa s i”利用动态编程218进行语音单元校准后,例如找到s→s的代换、a:r→a的删除及s→s i的插入等转换,此即为得到一笔转换组合。 

利用动态编程218进行语音单元校准的方法举例说明如下。例如使用五个状态(5-state)的隐马可夫模型(HMM)来描述一个语音模型,每个状态的特征参数假设为梅尔倒频谱(mel-cepstrum),维度(dimension)假设为25维,特征参数各维度的数值分布为高斯分布(Gaussian distribution),以高斯密度函数g(μ,∑)来表示,其中μ为平均值向量(维度为25×1),∑为共变异矩阵(维度为25×25),属于L1的第一语音模型表示为g11,∑1),属于L2的第二语音模型表示为g22,∑2)。在动态编程过程中,可利用一种统计学上计算两离散概率分布之间的距离的巴特查里亚距离(Bhattacharyya distance)来计算两语音模型之间的本地距离,作为动态编程中的本地距离。巴特查里亚距离b如公式(1)所示, 

b=18(μ2-μ1)T[Σ1+Σ22]-1(μ2-μ1)+12ln|(Σ1+Σ2)/2||Σ1|1/2|Σ2|1/2---(1)

依照此公式可以计算出第一语音模型的第i状态(1≤i≤5)和第二语音模型第i状态的距离,如上述使用五个状态的HMM,则把五个状态的巴特查里亚距离加总后,即可得到本地距离。以上述SARS的例子,图3进一步说明动态编程218的细节,其中X轴为L1语音单元序列,Y轴为L2语音单元序列。 

图3中,利用动态编程可以找出由起点(0,0)走到终点(5,5)的最短路径,也就找到了L1语音单元序列与L2语音单元序列的转换组合的语音单元对应与转换类型。找最短路径的方法就是要找有最小累加距离的路径。累加距离D(i,j)的意义为,由起点(0,0)走到(i,j)这个点的所累积的总距离,i是X轴坐标,j是Y轴坐标。累加距离D(i,j)的算法如下列公式所示: 

D(i,j)=b(i,j)+ 

minω1·D(i-2,j-1)ω2·D(i-1,j-1)ω3·D(i-1,j-2)

其中,b(i,j)为点(i,j)的两个语音模型的本地距离,在出发点的D(0,0)=b(0,0)。本揭露实施例中以巴特查里亚距离来当成本地距离,而ω1、ω2及ω3分别为插入、删除、及代换的权重,可以利用修改权重来调整插入、删除、及代换发生时,对于累加距离影响的多少,ω越大影响越大。 

图3中,线条511-513说明点(i,j)只能由这3条路径过来,其它的路径都不可以走,也就是限制由某点只能有3条路径可以移动到下一点,其意义是只容许代换(路径512)、删除1个语音单元(路径511)、插入1个语音单元(路径513),共三种可容许的转换类型。因为有了这项限制,在动态编程过程中,就有四条虚线范围成为全域限制(global constraint),因为超过虚线范围的路径都无法由起点走到终点,因此只要计算四条虚线范围内所有的点,就可以找到一条最短路径。首先,在此全域限制的范围内,先计算各点的本地距离,接着再计算由(0,0)走到(5,5)各种可能路径的累加距离,再找出最小值即可。在此例中假设找到的最短路径是由箭头实线所连接的路径。 

接着说明语音单元转换表,L2转L1的语音单元转换表的例子如表一所示。 

表一 

假设承上述带有L1(中文)口音的L2(英文)语料库112内总共有10笔内容为SARS的声音文件,重复上述语音识别、音节转成语音单元、动态编程步骤后,有8笔转换组合如同前述结果(s→s、a:r→a、s→s i),而有2笔声音文件的音节识别结果经音节转成语音单元处理后为“sa er si”,转换组合为s→s、a:→a、r→er、s→s i,则统计所有的转换组合后就可完成L2转L1的语音单元转换表的例子(如表一)。在表一中,L2(英文)转L1(中文)的语音单元转换表的例子有两种转换组合,出现概率分别为0.8及0.2。 

接下来进一步说明在线阶段102时,语音模型挑选模块、语音模型合并模块、及语音合成器的运作。语音模型挑选模块,依照设定的可调控的口音权重参数150,可从语音单元转换表中挑选所使用的转换组合,以控制L2受到L1影响的程度。例如当设定的口音权重参数的值越小时,代表口音比较轻,就选择出现概率越高的转换组合,代表这种口音比较容易出现,易为大众认知。反之,口音权重参数的值越大时,选择出现概率越低的转换组合,代表这种口音较少见、奇怪,也就代表口音比较重。例如表二及表三,说明依设定的权重值来选择L2转L1的语音单元转换表中的转换组合,假设以0.5当作分界,当设定口音权重值w=0.4时(w<0.5),选择L2转L1的语音单元转换表的例子300中出现概率0.8的转换组合;当设定口音权重值w=0.6(w>0.5),选择出现概率0.2的转换组合。 

表二 

表三 

参考图4的运作范例,语音模型挑选模块120利用L2转L1的语音单元转换表116以及设定的可调控的口音权重参数150,根据至少含有L2的输入文本及对应文本的L2语音单元序列122,进行模型挑选(model selection),在L2语音模型库126中,依序找出各语音单元的语音模型,再查询L2转L1的语音单元转换表116,并依照设定的一可调控的口音权重参数150,决定要采用的转换组合,选择一相对应的第一语言语音单元序列,并在L1语音模型库128中,依序找出各语音单元的语音模型。假设各语音模型如前述以五个状态(5-state)的隐马可夫模型(HMM),例如为第一语音模型614,其第i状态(1≤i≤5)的梅尔倒频谱各维度的数值分布为g11,∑1),及第二语音模型616,其第i状态的梅尔倒频谱各维度的数值分布为g22,∑2)。语音模型合并模块130例如可使用下列公式(2)进行模型合并,将第一语音模型614及第二语音模型 616合并为合并语音模型622,此合并语音模型其第i状态的梅尔倒频谱各维度的数值分布表示为gnewnew,∑new)。 

μnew=w*μ1+(1-w)*μ2

new=w*(∑1+(μ1new)2)+(1-w)*(∑2+(μ2new)2)(2) 

其中,w为设定的一可调控的口音权重参数150,合理的数值范围为0≤w≤1,其意义是将两高斯密度函数以线性权重方式合并。 

如上述使用五个状态的HMM,则把五个状态的gnewnew,∑new)都分别计算出来后,即可得到合并语音模型622。例如s→s的代换转换,将第一语音模型(s)与第二语音模型(s),以公式(2)计算得到合并语音模型(带有中文口音的s)。而例如a:r→a的删除转换,则分别以a:→a和r→静音(silence)方式来完成。同理,s→s i的插入转换分别以s→s和静音→i的方式来完成。也就是说,当转换是代换的类型时,可使用与第二语音模型对应的第一语音模型;当转换是插入或删除的类型时,使用静音模型(silence model)当作对应模型。处理该转换组合中所有的转换后,可得到各合并语音模型622依序排列的一合并语音模型序列132。此合并语音模型序列132再提供给语音合成器140,合成为带有L1口音的一L2语音142。 

上述例子说明HMM的声学参数合并方式,在韵律参数方面,即音长(duration)和音调(pitch),同样也可利用公式(2)来得到合并语音模型的韵律参数。对于音长参数的合并,可依照L1与L2的语音模型,找出各HMM的音长参数后,再利用公式(2)按照口音权重参数计算出合并语音模型的音长参数(插入/删除转换所对应的静音模型音长为0)。对于音调参数的合并,代换转换同样也可利用公式(2)按照口音权重参数计算出合并语音模型的音调参数,删除转换直接采用原语音单元的音调参数不变,例如a:r→a的删除转换,原r的音调参数不变。插入转换则以插入的语音单元音调模型与最接近的有声(voiced)语音单元的音调参数,利用公式(2)进行合并,例如s→s i的插入转换,以i的音调参数与有声语音单元a:的音调参数进行合并(因为s为无声语音单元,无声调数值可供合并)。 

也就是说,语音模型合并模块130将找出的第二语言语音单元序列中各第二语言语音单元所对应的语音模型,与第一语言语音模型库中找出第一语言语音单元序列中各第一语言语音单元所对应的语音模型,依照转换组合的对应关 系,根据设定的口音权重参数合并成各合并语音模型,以及将各合并语音模型依序排列得到一合并语音模型序列。 

承上述,图5是一范例流程图,说明一种多语言的文字转语音合成方法的运作,与所揭露的某些实施范例一致。此多语言的文字转语音合成方法是执行于一计算机系统上。此计算机系统备有一记忆体装置,用来储存多种语言语音模型库,至少包括前述所找出的第一与第二语言语音模型库。图5的范例中,首先,准备带有第一语言口音的一第二语言语料库及一第一语言语音模型库,来建构一第二语言转第一语言的语音单元转换表,如步骤710所示。然后,对欲合成的输入文本,及对应输入文本的一第二语言语音单元序列,在一第二语言语音模型库中找出第二语言语音单元序列中各语音单元所对应的第二语音模型后,再查询此语音单元转换表,并依照设定的一可调控的口音权重参数,决定要采用的一转换组合,决定出一相对应的第一语言语音单元序列,并在第一语言语音模型库中找出该第一语言语音单元序列中各语音单元所对应的第一语音模型,如步骤720所示。依照设定的至少一可调控的口音权重参数,将找出的两语音模型,合并成一合并语音模型,处理该转换组合中所有的转换后,产生合并语音模型序列,如步骤730所示。最后,将此合并语音模型序列套用至一语音合成器,将欲合成的输入文本以此语音合成器合成为带有第一语言口音的一第二语言语音,如步骤740所示。 

上述多语言的文字转语音合成方法的运作可简化为步骤720~步骤740。而第二语言转第一语言的语音单元转换表可在一离线阶段时建构,也可以有其它多种建构方式。本揭露的文字转语音合成方法的实施范例可于在线阶段时,再查询一已建构好的第二语言转第一语言的语音单元转换表即可。 

各步骤的实施细节,例如步骤710中建构一第二语言转第一语言的语音单元转换表、步骤720中依照设定的一可调控的口音权重参数,决定要采用的转换组合及找出两语音模型、步骤730中依照设定的至少一可调控的口音权重参数,将找出的两语音模型,合并成合并语音模型等,如同上述所载,不再重述。 

本揭露实施的多语言的文字转语音合成系统也可执行于一计算机系统上,如图6的实施例所示。此计算机系统(未示于图标)备有一记忆体装置(memorydevice)890,用来储存多种语言语音模型库,至少包括前述所采用的L1语音模型库128与L2语音模型库126,多语言的文字转语音合成系统800可包含前 述的第二语言转第一语言的语音单元转换表、及一处理器810。处理器810里可备有语音模型挑选模块120、语音模型合并模块130及语音合成器140,来执行这些模块的上述功能。可于一离线阶段时,建立此语音单元转换表及设定至少一可调控的口音权重参数150,以提供给语音模型挑选模块120、语音模型合并模块130使用。如何建立此语音单元转换表,如同上述所载,不再重述。处理器810可以是计算机系统中的处理器。此语音单元转换表可在离线阶段时,由此计算机系统或其它计算机系统建立。 

承上述,本揭露实施例可提供一种可调控式的多语言文字转语音合成系统与方法,可用参数调整语音单元的对应以及语音模型的合并,可使得合成的语音在跨不同语言区块时,使得第二语言词汇的发音与韵律,可以在完全维持其原标准发音,到完全以第一语言方式发音的两种极端范围中作调整。可应用的情境例如有声电子书、家用机器人、数字教学等,能使电子书里多语言夹杂的对白呈现多角色语者特色、能使机器人增加娱乐效果、能使数字教学提供可程序化的语言教学等。 

当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。 

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号