基于神经网络的语音合成与可视语音合成研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

语音合成（speech synthesis）是指将文字转化为语音的一类技术，是实现人机语音交互系统的核心技术之一。而可视语音合成（visual speech synthesis）是指将输入特征（文本或者语音）转化为人脸动画以实现多模态人机语音交互的技术。隐马尔可夫模型（hidden Markov model,HMM）在语音合成和可视语音合成中有着广泛的应用，但由于HMM假设特征是可以聚类的，导致其不能精准地表征特征空间，生成的特征参数过于平滑，为了解决这些问题，本文选用神经网络作为统计模型并将其成功地应用于语音合成与可视语音合成中。
　　首先，本文详细介绍了基于神经网络的语音合成系统。通过对神经网络基本原理的研究，本文实现了基于深度神经网络（deep neural network,DNN）以及递归神经网络（recurrent neural network,RNN）的语音合成系统，基线系统为基于HMM的语音合成系统。主客观实验结果说明和基线系统相比，基于神经网络的语音合成系统效果更好，尤其是RNN，由于其本质就是一个序列学习器，因此在三个系统中效果最好。
　　其次，本文提出了一种高质量的语音合成框架。传统的统计参数语音合成（sta-tistical parametric speech synthesis,SPSS）一般会通过一个声码器来从时域的语音信号中提取语音特征，提取出的特征也可以通过声码器重构语音信号。绝大多数声码器都使用最小相位的假设，由于最小相位是真实相位的简化，因此会导致语音音质的很大失真。为了得到高音质的语音合成效果，本文提出了一种考虑相位的波形表示框架，该框架需要统计模型对幅度谱和相位谱进行联合建模，合成的语音音质有明显的提高，实验分析也证明了所提出方法的有效性。
　　最后，本文提出一种基于神经网络的可视语音合成系统。我们使用主动表观模型（active appearance model,AAM）来对人脸图像进行建模，解决了难以直接对人脸图像进行建模的问题。通过统计模型可以学习输入特征（文本、语音或两者的结合）与AAM参数之间的关系，统计模型选用HMM以及RNN并对两者的效果进行了实验对比分析。统计模型使得预测得到的视觉参数过于平滑，合成的人脸动画存在模糊的问题，因此我们使用轨迹指导单元选择拼接的方法来从真实的图像数据库中选取最优的序列，解决了这一问题。主客观实验也证明了所提方法的有效性。

著录项

作者
樊博;
展开▼
作者单位

西北工业大学;

展开▼
授予单位西北工业大学;
学科计算机技术
授予学位硕士
导师姓名谢磊;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类语音合成;
关键词
语音合成; 可视语音合成; 人脸图像建模; 隐马尔可夫; 神经网络; 主动表观模型;

相似文献

中文文献
外文文献
专利

1. 具有情感表现力的可视语音合成研究综述 [J] . 曹亮 ,赵晖 . 计算机工程与科学 . 2015,第004期
2. 基于语音合成技术的可视语音教学系统 [J] . 张岩 ,吴仙仙 . 福建电脑 . 2010,第010期
3. 基于统计机器学习的端到端的语音合成研究 [J] . 徐晨煜 . 电子世界 . 2020,第006期
4. 基于Python的英文语音合成研究 [J] . 唐诗洋 . 电子测试 . 2019,第007期
5. 基于图片的语音合成研究 [J] . 晁丽雯 . 电子制作 . 2018,第014期
6. 基于古音系统的汉语方言语音合成研究 [C] . Xiaoming Huang ,黄小明 ,Ziyu Xiong . 第十二届全国人机语言通讯学术会议（NCMMSC`2013） . 2013
7. 基于深度学习的蒙古语语音合成研究 [A] . 刘瑞 . 2020

基于神经网络的语音合成与可视语音合成研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅