首页> 中国专利> 一种基于近邻原则合成情感模型的说话人识别方法

一种基于近邻原则合成情感模型的说话人识别方法

摘要

本发明公开了一种基于近邻原则合成情感模型的说话人识别方法,包括:(1)训练出参考语音和用户中性语音的模型;(2)提取GMM参考模型的中性-情感高斯分量映射集;(3)提取与用户的中性训练高斯分量邻近的若干中性参考高斯分量映射的情感参考高斯分量;(4)合成出用户的情感训练高斯分量,进而得到用户的情感训练模型;(5)合成出所有用户的GMM训练模型;(6)输入测试语音进行识别。本发明采用基于KL散度的近邻原则从语音库中提取若干与用户的中性训练语音相似的参考语音,用参考语音中的情感参考语音合成出用户的情感训练语音,改善了在训练语音与测试语音失配情况下说话人识别系统的性能,提高了说话人识别系统的鲁棒性。

著录项

  • 公开/公告号CN102332263A

    专利类型发明专利

  • 公开/公告日2012-01-25

    原文格式PDF

  • 申请/专利权人 浙江大学;

    申请/专利号CN201110284945.7

  • 发明设计人 杨莹春;陈力;吴朝晖;

    申请日2011-09-23

  • 分类号G10L15/06;

  • 代理机构杭州天勤知识产权代理有限公司;

  • 代理人胡红娟

  • 地址 310027 浙江省杭州市西湖区浙大路38号

  • 入库时间 2023-12-18 04:30:08

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2012-11-07

    授权

    授权

  • 2012-03-14

    实质审查的生效 IPC(主分类):G10L15/06 申请日:20110923

    实质审查的生效

  • 2012-01-25

    公开

    公开

说明书

技术领域

本发明属于模式识别技术领域,具体涉及一种基于近邻原则合成情感模型 的说话人识别方法。

背景技术

说话人识别技术是利用信号处理和模式识别的方法,根据说话人的语音识 别其身份的技术,主要包括两个步骤:说话人模型训练和语音测试。

目前,说话人语音识别采用的主要特征包括梅尔倒谱系数(MFCC)、线性 预测编码倒谱系数(LPCC)、感觉加权的线性预测系数(PLP)。说话人语音识 别的算法主要包括矢量量化法(VQ)、通用背景模型法(GMM-UBM)、支持向 量机法(SVM)等等。其中,GMM-UBM在整个说话人语音识别领域应用非常 广泛。

然而,在说话人语音识别中,说话人的训练语音通常为中性语音,因为在 现实应用中,用户一般情况下只会提供中性发音下的语音训练自己的模型,要 求所有用户提供自己各种情感的语音在实际情况下并不太容易也不太方便实 现,且对系统的数据库的承受负荷也是一种很高的要求。

但是,在实际测试时,说话人可能会根据当时的情绪发出富有情感的语音, 如高兴的、悲伤的、愤怒的等。然而,现有的说话人识别方法并不能自适应这 种训练语音与测试语音失配的情况,从而导致说话人识别系统性能下降,对于 情感语音的识别成功率大打折扣。

发明内容

针对现有技术所存在的上述技术缺陷,本发明提供了一种基于近邻原则合 成情感模型的说话人识别方法,合成出说话人的情感模型来降低模型的失配程 度,提高对情感语音的识别成功率。

一种基于近邻原则合成情感模型的说话人识别方法,包括如下步骤:

(1)获取若干套参考语音以及用户的中性训练语音,对所有语音进行模型 训练,对应得到若干套GMM(Gaussian Mixture Model)参考模型以及用户的中 性训练模型;

所述的参考语音包括中性参考语音和m种情感参考语音;所述的GMM参 考模型包括一个中性参考模型和m个情感参考模型,m为大于0的自然数;

(2)提取每套GMM参考模型的中性-情感高斯分量映射集;

(3)根据KL散度(Kullback-Leibler divergence)计算法,逐一计算中性训 练模型中的每一中性训练高斯分量与所有中性参考模型中的中性参考高斯分量 的KL散度,选取每一中性训练高斯分量对应的与之KL散度最小的n个中性参 考高斯分量;进而根据所述的中性-情感高斯分量映射集,提取出n个中性参考 高斯分量中每个中性参考高斯分量对应的m个情感参考高斯分量,n为大于0 的自然数;

(4)将每一中性训练高斯分量对应的n×m个情感参考高斯分量合成出对应 的m个情感训练高斯分量,进而得到用户的m个情感训练模型;

(5)根据步骤(1)至(4),合成得到所有用户的GMM训练模型,所述 的GMM训练模型包括所述的中性训练模型和m个情感训练模型;

(6)输入某一用户的测试语音,将该测试语音与所有用户的GMM训练模 型逐一进行得分计算,将得分最大的GMM训练模型所对应的用户作为识别出 的用户。

所述的步骤(1)中,对所有语音进行模型训练的过程为:首先对语音依次 进行采样量化、去零漂、预加重、加窗的预处理过程,然后采用基于MFCC的 特征提取法或基于LPCC的特征提取法对预处理后的语音进行特征提取,提取 出语音的特征向量集,通过EM(Expectation Maximization)法训练出特征向量 集的UBM(Universal Background Model)模型,最后采用MAP(Maximum A  Posterior)法从UBM模型中训练出语音的GMM模型。

所述的中性-情感高斯分量映射集为中性参考模型中的中性参考高斯分量与 各情感参考模型中的情感参考高斯分量的对应关系。

所述的KL散度计算法的方程表达式如下:

δ=12[log|Σ1||Σ2|+Tr(Σ2-1Σ1)+(μ1-μ2)TΣ2-1(μ1-μ2)]---(1)

式1中:δ为KL散度,μ1和∑1分别为第一个高斯分量的均值和方差,μ2和∑2分 别为第二个高斯分量的均值和方差。

所述的步骤(4)中,将每一中性训练高斯分量对应的n×m个情感参考高斯 分量利用基于近邻位置法或基于近邻变化法合成出对应的m个情感训练高斯分 量;

所述的基于近邻位置法的方程表达式如下:

μe=1nΣi=1nμe,i---(2)

式2中:μe为中性训练高斯分量对应的任一情感训练高斯分量的均值,μe,i为n 个对应的情感参考高斯分量中第i情感参考高斯分量的均值。

所述的基于近邻变化法的方程表达式如下:

μe=μk+1nΣi=1n(μe,i-μk,i)---(3)

式3中:μe为中性训练高斯分量对应的任一情感训练高斯分量的均值,μe,i为n 个对应的情感参考高斯分量中第i情感参考高斯分量的均值,μk为中性训练高斯 分量的均值,μk,i为n个对应的中性参考高斯分量中第i中性参考高斯分量的均 值。

所述的步骤(6)中,将测试语音与所有用户的GMM训练模型逐一进行得 分计算,该得分计算的公式为:

Score=1TΣt=1TΣk=1jωkmax[P(xt|Ck),P(xt|Ek)]---(4)

式4中:T为测试语音中的特征帧数,xt为测试语音中的第t帧特征,j为GMM 训练模型的阶数,Ck为中性训练模型中的第k中性训练高斯分量,Ek为情感训 练模型中的第k情感训练高斯分量,ωk为Ck和Ek的权重,P(xt|Ck)为xt在Ck上 的得分,P(xt|Ek)为xt在Ek上的得分。

通过实验观察发现,在中性语音下的发音较相似的说话人,他们在情感语 音下的发音也较相似;本发明采用基于KL散度的近邻原则从语音库中提取若干 与用户的中性训练语音相似的参考语音,用参考语音中的情感参考语音合成出 用户的情感训练语音,改善了在训练语音与测试语音失配情况下说话人识别系 统的性能,提高了说话人识别系统的鲁棒性。

附图说明

图1为本发明的步骤流程示意图。

具体实施方式

为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的说 话人识别方法进行详细说明。

如图1所示,一种基于近邻原则合成情感模型的说话人识别方法,包括如 下步骤:

(1)训练出参考语音和用户中性语音的模型。

获取25套参考语音以及20位用户的中性训练语音。

25套参考语音以及20位用户的中性训练语音均是在安静的环境下采用奥林 巴斯DM-20录音笔录制的,且分别为母语是汉语的25个说话人和20位用户的 语音。一套参考语音包括说话人的5种情感的发音:中性参考语音、惊慌参考 语音、高兴参考语音、愤怒参考语音和悲伤参考语音;每个说话人会在中性条 件下朗读2段中性的段落,同时,会在每种情感下说出5个单词和20句语句各 3遍。而中性训练语音只是用户在中性情感下的发音,即用户在中性条件下朗读 2段中性的段落。

对所有采集到的语音进行模型训练,对应得到25套GMM参考模型以及20 位用户的中性训练模型;一套GMM参考模型包括一个中性参考模型和4个情 感参考模型;

对语音进行模型训练的过程为:首先对语音依次进行采样量化、去零漂、 预加重、加窗的预处理过程,然后采用基于MFCC的特征提取法或基于LPCC 的特征提取法对预处理后的语音进行特征提取,提取出语音的特征向量集 X=[x1,x2,L,xT],其中每帧特征是一个p维的向量,T表示该语音中特征的总 数;通过EM法训练出特征向量集的UBM模型,最后采用MAP法从UBM模 型中训练出语音的GMM模型。以下为一参考语音的GMM参考模型中的中性 参考模型和情感参考模型:

λN=Σk=1jωkN(μN,k,ΣN,k)

(5)

λE=Σk=1jωkN(μE,k,ΣE,k)

式5中,λN为参考语音的中性参考模型。ωk为中性参考模型中第k中性参考高 斯分量的权重,由于MAP自适应时权重保持不变,所以各GMM模型的ωk和 UBM模型中的ωk相同。μN,k和∑N,k分别为中性参考模型中第k中性参考高斯分 量的均值和方差。同样地,λE为参考语音的情感参考模型,μE,k和∑E,k分别为高 兴参考模型中第k情感参考高斯分量的均值和方差。

(2)提取GMM参考模型的中性-情感高斯分量映射集。

提取每套GMM参考模型的中性-情感高斯分量映射集;中性-情感高斯分量 映射集为中性参考模型中的中性参考高斯分量与各情感参考模型中的情感参考 高斯分量的对应关系:N(μN,k,ΣN,k)N(μE,k,ΣE,k)

(3)提取与用户的中性训练高斯分量邻近的若干中性参考高斯分量映射的 情感参考高斯分量。

根据KL散度计算法,逐一计算中性训练模型中的每一中性训练高斯分量与 所有中性参考模型中的中性参考高斯分量的KL散度;

KL散度计算法的方程表达式如下:

δ=12[log|Σ1||Σ2|+Tr(Σ2-1Σ1)+(μ1-μ2)TΣ2-1(μ1-μ2)]---(1)

式1中:δ为KL散度,μ1和∑1分别为第一个高斯分量的均值和方差,μ2和∑2分 别为第二个高斯分量的均值和方差。

选取每一中性训练高斯分量对应的与之KL散度最小的10个中性参考高斯 分量;进而根据中性-情感高斯分量映射集,提取出10个中性参考高斯分量中每 个中性参考高斯分量对应的4个情感参考高斯分量;

(4)合成出用户的情感训练高斯分量,进而得到用户的情感训练模型。

将每一中性训练高斯分量对应的10×4个情感参考高斯分量利用基于近邻位 置法合成出对应的4个情感训练高斯分量,进而得到用户的4个情感训练模型;

基于近邻位置法的方程表达式如下:

μe=1nΣi=1nμe,i---(2)

式2中:μe为中性训练高斯分量对应的任一情感训练高斯分量的均值,μe,i为n 个对应的情感参考高斯分量中第i情感参考高斯分量的均值。

(5)合成出所有用户的GMM训练模型。

根据步骤(1)至(4),合成得到所有用户的GMM训练模型,本实施例中, 一套GMM训练模型包括一个中性训练模型和4个情感训练模型。

(6)输入测试语音进行识别。

输入某一用户的测试语音,将该测试语音与所有用户的GMM训练模型逐 一进行得分计算,将得分最大的GMM训练模型所对应的用户作为识别出的用 户。

得分计算的公式为:

Score=1TΣt=1TΣk=1jωkmax[P(xt|Ck),P(xt|Ek)]---(4)

式4中:T为测试语音中的特征帧数,xt为测试语音中的第t帧特征,j为GMM 训练模型的阶数,本实施例中阶数为1024,Ck为中性训练模型中的第k中性训 练高斯分量,Ek为情感训练模型中的第k情感训练高斯分量,ωk为Ck和Ek的权 重,P(xt|Ck)为xt在Ck上的得分,P(xt|Ek)为xt在Ek上的得分。

表1为通过相关实验测试出传统GMM-UBM方法与本实施方式分别对用户 在中性、惊慌、高兴、愤怒和悲伤5种情感发音下的识别率。其中,所有的语 料通过100ms的Hamming窗进行分帧,窗的步长设为80ms。每一帧语音信号 提取出13维MFCC特征用于训练UBM模型,自适应说话人模型和说话人识别 测试。

表1:传统GMM-UBM方法与本实施方式的识别率

  情感分类   GMM-UBM方法   本实施方式   中性   96.47%   95.33%   愤怒   34.87%   38.40%   高兴   38.07%   45.20%   惊慌   36.60%   40.07%   悲伤   60.80%   61.80%

从上述实验结果可以看出,本实施方式可以有效地检测出语句中的可靠特 征,在各情感状态下,识别的准确率得到了较大的提高。同时,总体的识别准 确率也提高了2.81%,因此本实施方式对提高说话人识别系统的性能和鲁棒性有 很大的帮助。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号