您现在的位置: 首页> 研究主题> 说话人识别

说话人识别

说话人识别的相关文献在1990年到2022年内共计850篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、语言学 等领域,其中期刊论文724篇、会议论文67篇、专利文献500669篇;相关期刊270种,包括科学技术与工程、电声技术、电子与信息学报等; 相关会议52种,包括第十二届全国人机语言通讯学术会议(NCMMSC`2013)、第十六届全国图象图形学学术会议 暨第六届立体图象技术学术研讨会、第十一届全国人机语音通讯学术会议等;说话人识别的相关文献由1500位作者贡献,包括景新幸、赵力、刘加等。

说话人识别—发文量

期刊论文>

论文:724 占比:0.14%

会议论文>

论文:67 占比:0.01%

专利文献>

论文:500669 占比:99.84%

总计:501460篇

说话人识别—发文趋势图

说话人识别

-研究学者

  • 景新幸
  • 赵力
  • 刘加
  • 唐振民
  • 周萍
  • 张玲华
  • 李弼程
  • 李战明
  • 杨震
  • 王波
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

    • 汤爽; 张二华; 唐振民
    • 摘要: 以便携式回放设备的语音为代表的假冒语音攻击,给说话人识别系统带来了严峻的挑战。针对这种回放语音攻击问题,论文提出一种基于小波包的多频带回放语音鉴别算法。首先,通过小波包分解及重构后的信号进行傅里叶变换,取每一帧频谱的最大值;然后,利用对数运算以及离散余弦变换(DCT)来得到鉴别特征;最后,使用高斯混合模型(GMM)作为分类器进行假冒语音判别。实验表明,该检测算法能有效地鉴别回放语音。
    • 楚宪腾; 王华朋; 杨海涛; 林暖辉
    • 摘要: 为进一步提高说话人识别的准确率,提出一种新的基于卷积神经网络的说话人识别方法。利用卷积神经网络强大的处理图像能力可有效提高说话人识别的准确率。卷积神经网络相对于其他网络结构简单,训练时间较短且准确率较高。该方法首先对语音信号进行了预处理,包括重采样、分帧、加窗等操作,然后提取梅尔频率倒谱系数,之后送入卷积神经网络进行训练。通过LibriSpeech标准库和中文数据库测试表明,本算法识别率达到95%,可有效进行说话人识别
    • 郭星辰; 俞一彪
    • 摘要: 仿冒攻击严重影响说话人识别系统的安全应用。文中提出了一种具有录音回放仿冒攻击检测能力的说话人识别系统,该系统采用前端攻击检测与后端说话人确认的串联结构,并通过信道频响分析和说话人个性特征分析提出了一种信道频响差强化倒谱系数(Channel frequency response Difference Enhancement Cepstral Coefficient,CDECC),该特征参数通过三阶多项式非线性频率尺度变换同时强化语音信号低频段和高频段的频谱分量,能够有效反映不同输入信道频率响应和不同说话人语音频谱的差异。基于ASVspoof 20172.0数据库的非特定说话人文本无关录音回放攻击检测的实验表明,采用CDECC的录音回放攻击检测等错率(EER)为25.03%,相比基线系统下降了10%。通过在说话人确认的前端嵌入录音回放攻击检测模块,说话人识别系统的错误接受率(FAR)明显下降,系统EER从3.32%下降为1.01%,鲁棒性得到有效提升。
    • 张新; 付中华
    • 摘要: 特定人语音分离算法是指从包含多种说话人同时讲话场景的混合语音中,通过一个特征向量的引导来分离出特定说话人的语音。特征向量的获取通常有两种方式,一种是使用一组自定义的正交独热(one-hot)向量,该方法可以在训练过程中达到更好的训练效果,但是无法处理训练过程中未见过的说话人;另一种方法是使用一个分类网络自适应地生成具有说话人特征的嵌入式向量(embedding),该做法会因为分类网络的误差而损失一部分训练效果,但是可以在集外说话人的样本上取得较好的泛化效果。为了解决在特定人语音分离算法用单独使用one-hot或embedding作为特征向量存在的不足之处,提出了一种鲁棒的特定人语音分离方法,通过在训练过程中交替地使用one-hot向量和embedding作为目标说话人的身份特征向量,将one-hot和embedding映射到公共空间中,可以在保证训练效果的同时,增强对集外说话人的泛化能力。实验结果表明,在使用了这种混合训练方法之后,对于测试集中的集外说话人分离效果上SDR提升超过了10 dB。
    • 黄多林; 刘栋; 郑智燊
    • 摘要: 为提高说话人识别模型的性能,论文提出一种新颖的方法来提取具有鲁棒性的说话人可区分性特征。该方法将说话人映射到两个较低维度的嵌入空间,通过解散对抗和注意力机制,其中一个嵌入空间完成从语音信号的所有其他信息中解散出说话人相关信息,而另一个嵌入空间捕获所有其他无关的干扰因素。实验结果表明,在TIMIT数据集的两类实验设置中,论文方法分别比两个最先进方法提高2.74%和2.86%的识别准确率。并且通过实验分析测试集的损失和识别准确率,得出注意力机制和解散模块对本文方法的说话人识别性能确实有提升。
    • 陈晨; 韩纪庆; 陈德运; 何勇军
    • 摘要: 句级(Utterance-level)特征提取是文本无关说话人识别领域中的重要研究方向之一.与只能刻画短时语音特性的帧级(Frame-level)特征相比,句级特征中包含了更丰富的说话人个性信息;且不同时长语音的句级特征均具有固定维度,更便于与大多数常用的模式识别方法相结合.近年来,句级特征提取的研究取得了很大的进展,鉴于其在说话人识别中的重要地位,本文对近期具有代表性的句级特征提取方法与技术进行整理与综述,并分别从前端处理、基于任务分段式与驱动式策略的特征提取方法,以及后端处理等方面进行论述,最后对未来的研究趋势展开探讨与分析.
    • 王健; 申炜涛; 耿皓松; 张艳
    • 摘要: 声纹识别,是根据声纹特征识别说话人身份的一种生物识别技术。与人脸识别、指纹识别、虹膜识别相比,声纹识别的数据获取更加便捷,不受时间地域的限制,数据采集成本更低,公众对声音采集的抵抗力较弱,已经在安防、刑侦、金融等多个领域被使用。而声纹识别算法的关键是描述特定对象的声纹特征,好的特征既要最大化保留说话人的语音特性,又要对噪音、语速、音量、说话内容等有较好的鲁棒性。针对语音数据较少、文本不相关情况下的声纹识别,本研究采用频繁序列挖掘技术对声音的梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,MFCC)组成的序列进行挖掘,将挖掘到的频繁序列作为说话人的语音特征,再使用PLDA判别方法,结果显示该模型对语音数据较少的情况识别效果良好。
    • 邓飞; 邓力洪; 胡文艺; 张葛祥; 杨强
    • 摘要: 说话人身份识别是一项重要的生物识别技术,多种基于深度卷积神经网络(DNN)的模型结构表现出越来越强的特征表达能力,并形成了统一的端到端说话人识别系统,取得了优于传统识别模型的性能。其中聚合模型聚合的话语级特征是影响说话人识别系统准确率的关键因素之一。目前大多数的方法是使用self-attention pooling(SAP)聚合模型。然而SAP聚合模型经常会无法准确地进行帧选择,聚合出的话语级特征不准确、鲁棒性弱。在SAP聚合模型的聚合方式上进行了改进,通过引入平均向量方法,构建了一种改进的聚合模型mSAP。它以一种更细粒化和更稳定的工作方式,将变长的输入序列聚合为话语级特征,可以更有效地捕捉输入序列的长期变化。实验表明,mSAP模型的等错误率(EER)相较于TAP、SAP、NetVLAD聚合模型分别有7.4、1.75和0.24的下降,而DCF值相较于这三种聚合模型分别有0.018、0.137和0.242的下降。改进的mSAP聚合模型能够聚合出鲁棒性更强、更准确的话语级特征,有效地提高了端到端说话人识别模型的性能。
    • 何赞园; 王凯; 吉立新
    • 摘要: 在实际应用中,矢量量化取决于码本设计、码字搜索和码字索引分配等三个关键技术,其中码本设计和码字搜索最为关键。说话人识别是一种典型的多码本应用场景,并且说话人识别算法相对比较规则,因此可采用全搜索算法进行运算,从硬件设计的角度讲,全搜索算法虽然运算量大,但算法只涉及乘、加和比较操作,采用硬件实现是切实可行的。首先对现有矢量量化算法的硬件复杂度进行分析,针对全搜索算法实现了矢量量化硬件设计,并结合该方法实现了多路电话信道中说话人的实时判别。利用FPGA对所提方法进行实验验证,结果表明所提矢量量化的硬件解决方案相比传统方案可有效提升矢量量化速度与效率。
    • 张学祥; 雷菊阳
    • 摘要: 针对使用话语级特征参数矩阵作为卷积神经网络输入而导致收敛速度慢及识别率低的问题,提出一种基于二维主成分分析(2DPCA)特征降维的卷积神经网络(CNN)说话人识别方法。首先将每段语音分帧成多个帧级语音并提取同等大小的帧级特征组成特征矩阵,然后利用2DPCA对特征矩阵进行降维处理,再将得到的主成分特征向量组合成新的特征矩阵作为CNN的输入,最后通过CNN的自适应特征学习创建说话人模型。基于Alexnet的CNN模型实验结果表明,采用该说话人识别方法使运行时间减少了57%,同时识别率也有所提高。
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号