首页> 中文学位 >基于汉语元音映射的说话人识别技术研究
【6h】

基于汉语元音映射的说话人识别技术研究

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1引言

1.2说话人识别技术的应用

1.3说话人识别技术的特点和难点

1.3.1说话人发音的不稳定性

1.3.2声音的掩饰和模仿

1.3.3采集设备与环境影响

1.4国内外研究现状和发展方向

1.5.研究思路和创新点

1.5.1研究思路

1.5.2主要创新点

1.6论文结构

第二章说话人识别相关技术

2.1引言

2.2说话人识别原理

2.2.1说话人识别的分类

2.2.2说话人识别系统结构

2.2.3说话人识别系统性能的评价

2.3语音的产生和感知

2.3.1语音的产生

2.3.2语音的感知

2.4语音特征参数的提取

2.4.1基音周期

2.4.2线性预测倒谱系数

2.4.3美尔频率标度倒谱系数

2.5说话人识别模型

2.5.1 K-最近邻方法

2.5.2矢量量化

2.5.3高斯混合模型

2.5.4人工神经网络

2.6本章小结

第三章汉语元音映射技术

3.1引言

3.2汉语音节结构和韵母声学特征

3.2.1汉语语音基本特征

3.2.2韵母分析

3.3.汉语元音特征映射技术

3.4基于汉语元音映射的说话人识别框架

3.5本章小结

第四章基于元音映射说话人识别中的预处理技术

4.1引言

4.2基于频域能量分布分析的元音帧提取算法

4.2.1理论和算法

4.2.2实验结果与数据分析

4.3.基于线性预测残差倒谱的基音检测算法

4.3.1算法描述

4.3.2实验和分析

4.4算法小结

第五章基于汉语元音映射的说话人识别模型

5.1引言

5.2基于分类特征的矢量量化说话人识别研究

5.2.1矢量量化说话人识别原理

5.2.2实验结果与数据分析

5.3基于仿生模式识别的说话人识别方法

5.3.1基于仿生模式识别的识别算法

5.3.2实验数据与分析

5.4基于神经网络集成的说话人识别算法

5.4.1基于单元音分类的神经网络集成

5.4.2仿真实验与数据分析

5.5本章小结

第六章说话人识别系统中的噪声处理技术

6.1引言

6.2基于加权特征补偿变换的鲁棒性说话人识别方法

6.2.1加权特征补偿变换分析

6.2.2鲁棒说话人识别仿真系统

6.2.3.仿真实验与结果分析

6.3基于背景噪声模型估计的自适应说话人识别技术

6.3.1.语音帧/非语音帧的提取

6.3.2.背景噪声模型估计和说话人特征提取

6.3.3.说话人识别系统

6.3.4.仿真实验与结果分析

6.4本章小结

结束语

参考文献

致谢

附录

展开▼

摘要

语音是人类获取信息的主要来源之一,也是最方便、最有效、最自然的交流工具。说话人识别技术在近三十多年的时间里取得了很大的进步,这种技术的应用为人类的日常生活带来很大的便利。但是,随着说话人识别的实用化,不同应用领域对其要求也越来越高。一方面,发音的多变性使说话人识别系统的适应性还有待提高;另一方面,噪声、训练时间以及通信信道失真等问题也会产生很大的影响。对于说话人识别来说,最主要的两个问题是如何从语音中提取单纯反映说话人身份信息的鲁棒特征,以及如何建立有效的识别模型达到实际应用中对速度、数据量、使用条件等方面的要求。本文针对汉语语音的特点,从分离身份信息和提高系统鲁棒性两个方面出发对汉语说话人识别展开研究,提出了新的说话人识别框架、模型和算法,主要取得了以下创新性成果。 本文的核心是提出了一种新的基于汉语元音映射的说话人识别框架。该框架的基础是将汉语韵母中的元音部分以单元音音素为单位进行分解,对此我们使用频谱对比、特征对比、单元音滑动统计分布、分类器识别率等方式证实了从短时帧角度出发,汉语韵母可以分解为单元音音素的组合,并通过大量的实验建立了汉语韵母到单元音的映射表。相对于传统的说话人识别模型,新框架增加了汉语单元音音素分类模块进行韵母分解,并将多个针对单元音的说话人识别器组织起来代替传统的匹配或统计模块对帧特征进行处理。根据这个框架,每个针对单元音的说话人识别器进行说话人识别时避免了语义信息的干扰,增强了分类的针对性;同时,整个系统以短时帧作为基本识别单位,更易于达到实时处理的目标。 根据基于汉语元音映射的说话人识别框架,提出了基于汉语元音分类的矢量量化说话人识别方法。由于每个矢量量化分类器在训练和识别过程中避免了语义信息的影响,该方法利用较小的码本就可以获得较高的识别率。然而,为了保证码本质量,需要大量的训练数据和识别数据。针对说话人识别方法需要大量数据参与训练和识别的缺点,结合新框架,本文又提出了基于仿生模式识别的汉语说话人识别方法。该方法在训练过程中为每个说话人的每个单元音音素帧特征在特征空间中建立一个包络;识别时通过分析测试帧特征与包络的关系进行判决,大大缩减了对训练和识别数据量的需求。在研究过程中,我们发现基于汉语元音映射的说话人识别框架由于增加了单元音分类模块,会带来分类误差并导致识别速度下降。对此,结合集成学习理论,我们提出了基于汉语元音映射的神经网络集成说话人识别方法。该方法在识别过程中不需要预先对测试语音帧进行元音分类,省略了元音分类模块,从而避免引入元音分类误差,加快了识别速度。此外,针对新的说话人识别框架的特点,本文在预处理和抗噪方面也进行了研究和改进,主要包括:提出了基于频谱特征的自适应元音帧提取算法,在损失端点检测准确性的前提下提高元音帧提取的速度和正确率;结合谐波积谱思想改进了基音提取算法:提出了基于背景估计的自适应抗噪方法,实现GMM模型下数据噪声背景不同时特征的提取、修正和识别;针对测试数据与训练数据背景不同的情况,从特征值处理和模型补偿两方面考虑,提出了基于高斯混合模型的加权特征补偿变换的抗噪方法,进一步改善了系统的性能。 从本文一系列仿真实验的结果分析可得,基于本文新框架、模型和算法实现的说话人识别系统在识别率、识别速度和抗噪能力上都有所提高。特别是基于汉语元音分类的思想为分离语音特征中的语义信息和话者身份信息,将文本无关的说话人识别转变为文本有关的说话人识别提供了新的思路。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号