首页> 中文学位 >发音器官的运动与声学信号之间映射关系的研究
【6h】

发音器官的运动与声学信号之间映射关系的研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 课题背景

1.2 本文研究内容

1.3 全文安排

第二章 国内外研究现状

2.1 生理模型

2.2 基于统计的映射模型

2.2.1 基于隐马尔可夫的映射模型(HMM)

2.2.2 基于人工神经网络的映射模型(ANN)

2.2.3 基于高斯混合的映射模型GMM

2.3 电磁发音仪EMA

2.4 超声采集系统

2.5 本章小结

第三章 基于深度学习框架的映射模型

3.1 映射框架的介绍

3.2 数据采集

3.2.1 超声采集系统

3.2.2 唇部视频采集系统

3.3 超声图像特征提取

3.3.1 主成分分析PCA

3.3.2 深度自编码网络Deep Autoencoder

3.4 语音信号特征提取

3.4.1 Mel倒谱系数MFCC

3.4.2 线性预测系数LPC

3.4.3 基于深度学习框架的语音特征提取

3.5 映射方法介绍

3.5.1 Stacked Denosing Autoencoder

3.6 本章小结

第四章 发音器官运动合成语音信号

第五章 语音驱动发音器官运动可视化

第六章 网络参数对映射效果的影响

6.1 不同隐含层数

6.2 不同隐含层结点数

6.3 初始化中RBM迭代次数

6.4 监督训练的迭代次数

6.5 本章小结

第七章 基于中文连续语音的映射关系研究

7.1 语料的选取

7.2 语音驱动发音器官运动可视化

7.3 本章小结

第八章 论文总结展望

8.1 论文总结

8.2 展望

参考文献

发表论文和参加科研情况说明

致谢

展开▼

摘要

建立发音器官运动与语音信号间的映射关系对于发音训练以及言语矫正有着很重要的作用。
  本文通过语音记录仪记录中文六个元音(a,o,e,i,u,ü)发音时的语音信号,利用超声仪记录发音时舌头运动的信息,使用高速摄像头记录发音运动时唇部正面和侧面的信息,从而形成了一个中文元音多模态语音数据库。
  本文提出了一个基于深度学习框架的发音器官运动与声学信号间的双向映射方法。利用基于受限玻尔兹曼机的深度自编码网络方法对发音器官运动信息与声学信号进行了特征提取与重构。重构结果发现,对于超声图像,基于深度学习的特征提取的方法比主成分分析的方法要好;音频信号也能够利用深度自编码网络的方法来表征。然后,我们提出了一个基于深度学习的框架实现两者间的映射关系,该框架是通过深度降噪自编码网络进行改进而来。可以在中文元音数据库上实现语音信号来驱动发音器官的运动,以及发音器官的运动来合成语音信号。并且用传统的基于混合高斯模型的方法与之对比,发现我们提出的方法有更好的效果。最后,我们将该映射框架应用在中文连续语音上,并取得了一定的效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号