首页> 中文学位 >基于近邻传播聚类与集成学习的说话人识别
【6h】

基于近邻传播聚类与集成学习的说话人识别

代理获取

目录

声明

1 绪 论

1.1 研究背景及研究意义

1.2 说话人识别的国内外研究现状

1.2.1 特征提取的国内外研究现状

1.2.2 模型建立的国内外研究现状

1.3 论文主要研究内容及结构安排

1.3.1 论文的主要研究内容

1.3.2 论文研究的关键点

1.3.3 论文结构

2 说话人识别机理浅析

2.1 人的发声和听觉机理

2.1.1 发声系统

2.1.2 听觉系统

2.1.3 声学特征

2.2 说话人识别的基本原理和系统框架

2.2.1 语音信号的预处理

2.2.2 说话人识别的特征提取

2.2.3 说话人识别的常见模型

2.3 本章小结

3 说话人识别系统的特征提取与样本筛选

3.1 语音信号的预处理

3.1.1 语音增强

3.1.2 端点检测

3.2 语音信号特征提取研究

3.2.1 噪声环境分析

3.2.2 强噪声环境下的特征提取

3.2.3 弱噪声环境下的特征提取

3.3 基于近邻传播聚类的样本筛选

3.4 实验结果与分析

3.5 本章小结

4 基于集成学习的说话人识别

4.1 基于BP神经网络的单模型说话人识别

4.2 基于集成学习的说话人识别

4.3 实验结果与分析

4.4 本章小结

5 系统实验与分析

5.1 开发环境

5.1.1 硬件环境

5.1.2 软件环境

5.2 实验数据

5.2.1 数据录制环境及设备

5.2.2 数据录制方法

5.2.3 系统识别率计算

5.3 基于近邻传播聚类的说话人识别

5.4 基于集成学习的说话人识别

5.5 本章小结

6 总结与展望

6.1 总结

6.2 展望

致谢

参考文献

攻读学位期间的研究成果

展开▼

摘要

说话人识别技术相较于其他生物识别技术更加自然,但从技术成熟度来讲,说话人识别技术仍然是在发展中的生物识别技术。目前说话人识别技术中存在两方面的技术难题,从特征提取角度来看,由于人体发声系统的易变性,需要从大量的语音样本中提取说话人的声纹特征,大量冗余样本的存在为训练分类模型带来了极大困难。从识别方法角度来看,采用单分类器的说话人识别系统的泛化能力较弱,分类器的分类精度较低。针对上述问题,本文做了如下研究:  (1)针对不同应用环境的语音信号特征提取方法。在现实环境中说话人发声过程中存在不同程度的噪声干扰,针对不同噪声环境采用正确的语音特征才能实现对说话人特征的有效表征。通过真实场景的实验对比研究,针对强噪声环境,提取梅尔频率倒谱系数及其差分系数作为单帧信号的特征能够有效地去除噪声影响,对语音信号的表征能力较好;针对弱噪声环境,幂率归一化倒谱系数及其差分系数作为单帧信号的特征可以在相同计算复杂度下更好的表征语音信号。  (2)基于近邻传播(AP)聚类的声纹特征样本筛选方法。针对说话人声纹样本数量过大导致分类器训练成本较高问题,利用 AP聚类对单帧信号特征样本集进行聚类,原型样本在其簇内具有典型代表性,利用聚类原型样本表征与其相似的样本,删除冗余样本,实现语音信号特征样本筛选。在实际数据集上的对比实验表明,本文提出的样本筛选方法在保证识别准确率的基础上,能够有效压缩训练样本集合,压缩率能够达到85.19%-92.95%,从而大幅降低分类器训练成本。  (3)基于集成学习的说话人识别系统构建方法。针对单分类器说话人识别模型泛化能力较弱的问题,通过多次随机抽样抽取训练样本子集,采用随机 BP神经网络算法参数扰动策略建立多个BP神经网络分类模型,并利用投票法确定最终的分类结果。实验结果表明,该方法有效克服了基于单分类器说话人识别系统泛化能力不足的问题,使得系统识别率得到了有效提升。  无论是高保真的AISHELL中文数据库的实验结果还是针对不同噪声环境下采集的自采集数据库的实验结果,都表明了本文所提方法的有效性。本文所提出的近邻传播聚类方法能在保证表征说话人本征特征的同时降低网络训练成本,提出的基于多BP神经网络的集成学习框架提高了说话人识别系统的泛化能力与准确性,丰富了说话人识别技术的相关理论和实践。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号