首页> 中文学位 >汉语嵌入式TTS系统中的韵律建模和语音合成方法
【6h】

汉语嵌入式TTS系统中的韵律建模和语音合成方法

代理获取

目录

文摘

英文文摘

原创性声明及关于学位论文使用授权的声明

第一章绪论

第二章嵌入式音库的设计

第三章韵律模板的研究

第四章波形拼接算法研究

第五章结束语

附录

参考文献

致谢

攻读学位期间发表和已接收的学术论文目录

展开▼

摘要

随着计算机技术和信息技术的飞速发展,如何使人机界面更加自然和友好成为相关机构的研究热点,其中,语音交互方式备受人们关注。语音交互中非常重要的一项技术就是语音合成,本文着重研究语音合成技术中的音库设计,韵律建模和合成算法。 语音合成在高配置机器(如大型机,工作站等)上的应用已经非常广泛,但是由于嵌入式系统的资源限制,基于大语料库的语音合成方法难以在嵌入式系统上实现。因此,如何平衡音库容量和合成音质之间的矛盾便成了问题的核心所在。本文根据汉语音节的特点,提出了一种嵌入式音库的设计算法。在对样本之间失真度的测量上采用了符合人耳感知特性的MFCC参数,测量最小失真度使用了动态规划(DP)技术来优化匹配过程。根据对汉语中有调音节的出现频率的分析,确定了音库的最终结构。选取音节作为基元,采用改进的k均值聚类算法(MKM算法)。同时考虑到基元的后续处理,增加了候选基元,从而优化了基元库质量。 在人们的交流过程中,韵律隐含着文字所不能表达的信息,因此在汉语语音合成系统中,韵律建模的作用相当重要。相对于概率模型和决策树模型来说,神经网络有着强大的非线性映射能力和自学习能力,因此,这里选用神经网络来训练韵律模型。网络的输入参数主要从文本中获得,同时为了表达不同含义的需要加入了重音及其相关信息。根据汉语音节的特点可以归纳出l7个有用的参数,重音参数不能直接从文本中获得,因此参考相关资料,提出了调域系数(TRR)和音节时长组合的方法来检测,实验表明能降低漏检率和提高召回率。根据参数的重要性不同将参数划分为两组矢量,对重要性较高的矢量采用增加加权层来提高网络输出的精度,从而构成了三组输入矢量。神经网络的中间层采用了高斯径向基函数对输入矢量进行映射,高斯函数的中心为该子空间的质心,径向宽度参数为该子空间中所有样本与质心的平均均方误差,该方法较大改善了网络的输出精度。网络的第三部分为RBF网络。训练目标值为简化的声调模型参数,为了使网络更加鲁棒,采用了将目标值离散化的方法,将目标值分解为若干个神经元,用这些神经元替代目标值进行训练,实际工作时最终的输出为这些神经元的质心。实验表明可以减少因为输入和输出参数的随机特性而导致的输出误差。 对于语音合成方法,我们提出了一种语音片断基音平滑技术。在基于波形拼接的语音合成中,一般使用TD-PSOLA算法进行基频和时长的修改,但是用传统的TD-PSOLA算法进行的基频修改是针对片断整体而言,所以仍然不能很好的解决语音合成中的拼接单元之间的基频不连续问题,特别是在片断接合处。由于基元片断取自不同语境的语料,合成语音听起来明显感觉到音高的不自然。本文对传统的TD—PSOLA算法进行了改进,以基音周期为间隔对语音片断信号进行分帧,通过指数加权相应帧的方法来进行平滑处理。由于浊音的准周期性,常常导致窗中心的漂移问题。如果固定窗中心,那么当前帧就会和其前后的语音帧混淆起来,为此采用了补零的方法来避免混淆,同时稳定了窗中心。为了解决基元边界处出现的残缺帧的问题,这里采用了平均叠加的方法。经听音测试,较好的解决了拼接片断间的不连续现象。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号