基于深层神经网络的声学特征提取及其在LVCSR系统中的应用

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

近年来，深层神经网络（Deep Neural Network，DNN）的崛起在诸多研究领域都引起了强烈的反响，并越来越受到关注。在语音识别领域，DNN相关技术能够使声学模型的识别性能得到显著性提升，已然成为新的研究热点。DNN通常以两种方式被有效地应用到声学建模当中:1）与隐马尔科夫模型(Hidden Markov Model，HMM)组成混合架构模型DNN-HMM，代替高斯混合模型(Gaussian Mixture Model，GMM)进行状态输出概率的计算;2）作为前端的声学特征提取器，为传统的GMM-HMM声学建模架构提供更有效的声学特征。本文将主要围绕基于DNN的声学特征提取及其在LVCSR系统中的应用展开研究，包括Tandem特征（或叫作概率特征）提取和瓶颈(bottleneck)特征提取两方面。
　　首先，本文针对中文LVCSR系统提出了一种构建音素建模单元集的方法。这里，音素建模单元集的构建包括将传统声韵母建模单元集中的韵母细化到拼音音素级别、以一些先验知识为指导对这些单元进行调整并构造相对应的词典，以及首次基于扩展元音三角图设计问题集。音素建模单元集的单元数目相对较少，显得更为精简，冗余度和重合性降低，音素单元之间的区分性增强，在提取Tandem特征时可以有效的减少神经网络的输出层节点数目，这样既可以降低神经网络的复杂度，也更有利于Tandem特征的提取。实验表明，相比于声韵母建模单元集，新的音素建模单元集在基线系统和Tandem特征提取两方面都取得了较优的识别性能。
　　其次，本文搭建了基于DNN提取bottleneck特征的基线系统，并结合一些启发式的技术进行了相应的优化。为了提取bottleneck特征，我们通常是将DNN中间隐层的节点数设置成一个较小的数值（往往与基础MFCC或PLP特征维度一致），这个隐层就被形象地称作为bottleneck层，而这种具有特殊结构的DNN被称作为bottleneck DNN，bottleneck层的输出就是所期望得到的基线bottleneck特征。实验表明，通过引入一些启发式的技术，比如利用线性变换技术PCA去相关、一阶差分和二阶差分系数、在解码过程中使用声学规整因子重新调整声学模型得分和语言模型得分之间的相对重要性等，bottleneck特征取得了较为显著的性能提升，甚至能与DNN-HMM混合架构模型的性能相比拟。其中，引入声学规整因子尤为重要。
　　第三，本文提出了两种DNN非相干训练(Incoherent Training)算法，即最小化bottleneck层权重矩阵的相干性和最小化每个mini-batch中数据的相关系数。算法通过在DNN训练的原始目标函数上增添归整项，使得bottleneck特征各维之间的相关性能够在DNN的训练过程中较为显式地被直接控制并被自动去除，以便于更好地用于后续对角化GMM-HMM的建模。实验结果表明，两种非相干训练算法都取得了一定的效果，使得基于bottleneck特征的GMM-HMM模型在识别性能上超越了DNN-HMM。
　　最后，本文引入序贯区分性训练(Sequential Discriminative Training，SDT)算法对bottleneck DNN进行优化，从而得到性能更好的bottleneck特征。SDT算法在GMM-HMM建模架构中已经取得了卓越的效果，其目标函数中包含的语音帧之间的序贯信息对于语音识别问题至关重要，而这恰恰是传统的DNN训练算法（主要是基于帧分类的交叉熵算法）所缺少的，因此，我们借助SDT算法来对DNN参数进一步优化，并且采用了两种新的bottleneckDNN结构。两种结构都是将bottleneck层后移至最后一个隐层，但是，第一种结构的其他隐层节点数目相同，另一种则采取“宽”、“窄”隐层交织的结构。从实验结果中可以看到，SDT算法有助于得到更好的bottleneck特征，并且在后移结构上能够取得更优的性能，而使用交织结构能够减少提取bottleneck特征的计算量，同时保证识别性能基本没有损失。

著录项

作者
包叶波;
展开▼
作者单位

中国科学技术大学;

展开▼
授予单位中国科学技术大学;
学科信号与信息处理
授予学位博士
导师姓名刘庆峰,戴礼荣;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类语音识别与设备;人工神经网络与计算;
关键词
深层神经网络; 大词汇量; 连续语音识别; 声学特征提取; 非相干训练; 音素建模单元集;

相似文献

中文文献
外文文献
专利

1. LVCSR 系统中一种基于区分性和自适应瓶颈深度置信网络的特征提取方法 [J] . 陈雷 ,杨俊安 ,王一 . 信号处理 . 2015,第003期
2. 基于深层神经网络的多特征关联声学建模方法 [J] . 范正光 ,屈丹 ,闫红刚 . 计算机研究与发展 . 2017,第005期
3. 基于区分性准则的Bottleneck特征及其在LVCSR中的应用 [J] . 刘迪源 ,郭武 . 数据采集与处理 . 2016,第002期
4. 基于形态学特征提取的人工神经网络在口腔鳞状细胞癌诊断中的应用 [J] . 马开宇 ,马开阳 ,黎明 . 昆明医科大学学报 . 2012,第001期
5. 基于神经网络的信息融合在直线状特征提取中的应用 [J] . 李敏 ,平西建 . 信息工程大学学报 . 2003,第002期
6. 基于相邻段的随机分段模型解码算法及其在LVCSR中的应用 [C] . 彭守业 ,刘文举 ,张华 . 2008年全国模式识别学术会议 . 2008
7. 声学模型区分性训练及其在LVCSR系统的应用 [A] . 刘聪 . 2010

基于深层神经网络的声学特征提取及其在LVCSR系统中的应用

摘要

著录项

相似文献

相关主题

期刊订阅