声明
摘要
第一章 绪论
1.1 课题背景
1.2 本文研究内容
1.3 全文安排
第二章 国内外研究现状
2.1 生理模型
2.2 基于统计的映射模型
2.2.1 基于隐马尔可夫的映射模型(HMM)
2.2.2 基于人工神经网络的映射模型(ANN)
2.2.3 基于高斯混合的映射模型GMM
2.3 电磁发音仪EMA
2.4 超声采集系统
2.5 本章小结
第三章 基于深度学习框架的映射模型
3.1 映射框架的介绍
3.2 数据采集
3.2.1 超声采集系统
3.2.2 唇部视频采集系统
3.3 超声图像特征提取
3.3.1 主成分分析PCA
3.3.2 深度自编码网络Deep Autoencoder
3.4 语音信号特征提取
3.4.1 Mel倒谱系数MFCC
3.4.2 线性预测系数LPC
3.4.3 基于深度学习框架的语音特征提取
3.5 映射方法介绍
3.5.1 Stacked Denosing Autoencoder
3.6 本章小结
第四章 发音器官运动合成语音信号
第五章 语音驱动发音器官运动可视化
第六章 网络参数对映射效果的影响
6.1 不同隐含层数
6.2 不同隐含层结点数
6.3 初始化中RBM迭代次数
6.4 监督训练的迭代次数
6.5 本章小结
第七章 基于中文连续语音的映射关系研究
7.1 语料的选取
7.2 语音驱动发音器官运动可视化
7.3 本章小结
第八章 论文总结展望
8.1 论文总结
8.2 展望
参考文献
发表论文和参加科研情况说明
致谢