首页> 中国专利> 基于多元核logistic回归模型的说话人辨别实现方法

基于多元核logistic回归模型的说话人辨别实现方法

摘要

一种基于多元核logistic回归模型的说话人辨别实现方法,包括以下步骤:A)说话人语音特征提取:采集待识别说话人语音信号,进行预处理;再提取梅尔倒谱参数;B)说话人模型构建:采用多元核logistic回归模型作为说话人辨别模型;C)说话人辨别模型训练:将步骤A所提取的特征向量作为输入训练样本,通过最小序列优化算法进行迭代训练,使模型参数达到最优;D)说话人辨别:提取待辨别说话人语音信号的特征向量,并输入经过训练的说话人辨别模型,多元核logistic回归模型会给出每个说话人的后验概率,概率值最高者为识别结果。本发明识别率高、模型构建简单、具有良好的快速性。

著录项

  • 公开/公告号CN101650945A

    专利类型发明专利

  • 公开/公告日2010-02-17

    原文格式PDF

  • 申请/专利权人 浙江工业大学;

    申请/专利号CN200910152591.3

  • 申请日2009-09-17

  • 分类号G10L17/00;

  • 代理机构杭州天正专利事务所有限公司;

  • 代理人王兵

  • 地址 310014 浙江省杭州市下城区朝晖六区

  • 入库时间 2023-12-17 23:31:30

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-26

    未缴年费专利权终止 IPC(主分类):G10L17/00 专利号:ZL2009101525913 申请日:20090917 授权公告日:20111123

    专利权的终止

  • 2011-11-23

    授权

    授权

  • 2010-04-21

    实质审查的生效 IPC(主分类):G10L17/00 申请日:20090917

    实质审查的生效

  • 2010-02-17

    公开

    公开

说明书

技术领域

本发明涉及信号处理、机器学习和模式识别领域,尤其是一种说话人辨别实现方法。

背景技术

说话人辨别是指通过对有限集合内的说话人语音信号进行分析处理及特征提取,自动辨认说话人是否在指定的话者集合中,继之确认说话人的具体身份。说话人辨别的基本原理是为每个说话人建立一个能描述其个性特征的分类模型。因此,优秀的模型构建是说话人辨别的关键技术之一。

传统的说话人辨识模型包括混合高斯模型(GMM)、隐马尔可夫模型(HMM)等产生性模型。这些模型虽然能获得不错的识别效率,但是在模型训练阶段需要大量的训练样本来优化模型参数,而在模型识别应用阶段也需要不少的语音数据来表征待识别人的个性特征。

经专利查新统计,国内外已有不少说话人识别方面的专利;例如,基于内嵌GMM核的支持向量机模型的说话人识别方法(200510061953.X)、利用基频包络剔除情感语音的说话人识别方法(200710157134.4)、基于中性和情感声纹模型转换的说话人识别方法(200710157133.X)、基于混合支持向量机的说话人识别方法(200510061954.4)、基于频谱平移的情感说话人识别方法(200810162450.5)、基于混合t模型的说话人识别方法(200810162449.2);基于倒谱特征线性情感补偿的说话人识别方法(200510061360.3)等。

发明内容

为了克服已有的说话人辨别实现方法的识别率较低、模型构建复杂、速度慢的不足,本发明提供一种识别率高、模型构建简单、具有良好的快速性的基于多元核logistic回归模型的说话人辨别实现方法。

本发明解决其技术问题所采用的技术方案是:

一种基于多元核logistic回归模型的说话人辨别实现方法,包括以下步骤:

A)、说话人语音特征提取:采集待识别说话人语音信号,进行预处理;再提取梅尔倒谱参数,所述梅尔倒谱参数为13阶倒谱参数,将其中描述说话人个性特征较弱的第零阶系数去除,余下12维特征向量作为说话人辨别输入向量;

B)、说话人模型构建:采用多元核logistic回归模型作为说话人辨别模型,

p(ci=k|x;β)=exp(βkTx+βk0)Σj=1Kexp(βjTx+βj0),k=1,2,…K

其中,K为需辨别说话人数目,x为12维特征向量,β=[β1T;β2T;…βKT],β∈R12×K为总体模型参数;βk为第k个说话人相应的模型参数,βk0为第k个说话人相应的模型常量参数,ci为第i个语音特征向量相应的说话人目标;

C)、说话人辨别模型训练:将步骤A所提取的特征向量作为输入训练样本,通过最小序列优化算法进行迭代训练,使模型参数达到最优;

D)、说话人辨别:提取待辨别说话人语音信号的特征向量,并输入经过训练的说话人辨别模型,多元核logistic回归模型会给出每个说话人的后验概率,概率值最高者为识别结果。

进一步,在步骤C中,所述最小序列优化算法的目标泛函为:

minD=CΣi=1nΣk=1K(cik-αikC)log(cik-αikC)+12Σk=1K||βk||2

s.t.Σk=1Kαik=0,i;Σi=1nαik=0,k

其中,βk为第k个说话人相应的模型参数,C为常量惩罚因子,αik是β在高维空间展开的系数向量,cik∈{1,0}是向量ck中的相应索引值,而ck={0,0,···,1k,···,0K},代表第k个说话人的目标向量;

训练步骤如下:

1)给定满足条件的初始化α向量,迭代Iter=1;

2)如果存在不同索引对(i,i′),使得Hi,k≠Hi′,k则选出相应的

upper(k)=argmaxiHik,k=1,2,…,K-1以及

lower(k)=argminiHik,k=1,2,…,K-1;

其中:

Hik=Σt=1nαtkK(xt,xi)+Σt=1n(Σk=1K-1αtkK(xt,xi))

K(x,y)为满足Merser条件的核函数。

3)寻找最优变更参数t*,更新αupper(k),k,αlower(k),k如下:

αupper(k),kIter+1=αupper(k),kIter+t*

αlower(k),kIter+1=αlower(k),kIter-t*

αi,kIter+1=αi,kIter,for other i,k

4)以αIter+1重新计算Hik,并选出新的upper(k)以及lower(k);

5)如果对于不同的k∈{1,2,…,K-1},任意的(i,i′)索引值对总是满足Hik=Hi′k,则迭代停止,否则转入步骤2)继续,直到停止条件满足为止。

再进一步,在所述步骤D中,所述的说话人辨别方式为:

argmaxk{1,2,···K}(p(ci=k|x;β))

对于新的语音输入向量x,取后验概率最高的第k个说话人为识别结果,其中:

p(ci=k|x;β)=exp(βkTx+βk0)Σj=1Kexp(βjTx+βj0),k=1,2,…K。

更进一步,在所述步骤A中,所述预处理包括:采样量化、中心削波、高频提升和加窗分帧。

本发明的技术构思为:核logistic回归是有效的辨别性分类模型,主要用于生成分类判别中的后验概率,已经成功应用于基因病理选择、信用卡风险度分类、孤立字识别等场合。核logistic回归具有天然的后验概率输出,以及对多元分类良好的扩展性,使得它能很自然地应用于说话人辨别这些多分类判别场合。已有的核logistic回归应用于说话人辨别技术,仅仅对二元模型进行简单应用,虽然识别率优于经典算法,但模型构建复杂,且没有体现logistic回归多元化扩展应用的优势。

多元核logistic回归说话人辨别方法,是为若干个说话人构建一个多元核logistic回归模型,当有新的未知语音特征参数输入时,该模型能够输出各个说话人的后验概率,其中概率最高的那个人为辨别结果。首先将传统logistic回归模型进行多元化扩展,再利用核技巧,将原线性模型转化为非线性模型以适应说话人辨别场合。在模型训练阶段,将每个说话人的训练语音数据进行预处理并提取特征参数作为模型的输入特征向量,模型参数通过最小序列快速优化算法迭代更新。在识别阶段,对待识别说话人语句进行相同的预处理,提取相同的特征参数,通过训练所得的多元核logistic回归模型输出每个说话人的后验概率,以获得辨别结果。

本发明解决其技术问题所采用的技术方案还可以进一步完善。所述的多元核logistic回归模型训练算法为最小序列优化,先将原多元核logistic回归模型的目标泛函转换为对偶形式,并推导出最优化条件,在每次迭代过程中只对两个参数进行更新优化,避免多个参数同时更新时的矩阵逆操作,使模型训练速度更快。

本发明有益的效果是:1、采用多元核logistic回归模型作为说话人辨别模型,识别率高于传统产生性模型(如高斯混合模型),与其他辨别性模型(如支持向量机)相比识别率相似,但支持向量机是二元分类器,只能通过“一对多”或“一对一”方式构建多个模型进行投票式多分类,而多元核logistic回归模型能直接进行多分类,模型构建更加直观快捷;2、多元核logistic回归模型训练过程采用最小序列优化算法,使训练速度更快,符合说话人辨别这类大训练样本情况。

具体实施方式

下面对本发明作进一步描述。

一种基于多元核logistic回归模型的说话人辨别实现方法,包括以下步骤:

A)、说话人语音特征提取:采集待识别说话人语音信号,进行预处理;再提取梅尔倒谱参数,所述梅尔倒谱参数为13阶倒谱参数,将其中描述说话人个性特征较弱的第零阶系数去除,余下12维特征向量作为说话人辨别输入向量;

B)、说话人模型构建:采用多元核logistic回归模型作为说话人辨别模型,

p(ci=k|x;β)=exp(βkTx+βk0)Σj=1Kexp(βjTx+βj0),k=1,2,…K

其中,K为需辨别说话人数目,x为12维特征向量,β={β1,β2,…,βK}T为总体模型参数;βk为第k个说话人相应的模型参数,βk0为第k个说话人相应的模型常量参数,ci为第i个语音特征向量相应的说话人目标。

C)、说话人辨别模型训练:将步骤A所提取的特征向量作为输入训练样本,通过最小序列优化算法进行迭代训练,使模型参数达到最优;

D)、说话人辨别:提取待辨别说话人语音信号的特征向量,并输入经过训练的说话人辨别模型,多元核logistic回归模型会给出每个说话人的后验概率,概率值最高者为识别结果。

本实施例的具体框架为:

第一部分特征提取

特征提取采用已有技术,首先采集每个说话人不同时期的语音信号若干,进行预处理操作,包括采样量化、中心削波、预加重、低音段去除、加窗分帧。对预处理后的语音信号进行特征提取,本发明采用梅尔频率倒谱参数(Mel FrequencyCepstral Coefficient,MFCC),提取每帧语音信号的13阶梅尔倒谱参数,去除其中对说话人特征描述较少的第0阶参数,最后每帧语音信号转换为12维梅尔倒谱特征向量。

第二部分多元核logistic回归说话人辨别模型

说话人辨别应用中,设定需识别的说话人数为K,根据第一部分特征参数提取后,给定训练样本集为{x1,c1},{x2,c2},…{xn,cn},其中输入xi为p维说话人特征向量,即xi=(xi1,xi2,…xip)T,本发明中p=12,输出样本标签ci是有限集{1,2,…K}之一,设定β为模型参数。

经典的logistic回归模型为二元分类器,即K=2,定义线性判别函数为:

g(xi)=logit{p(xi,β)}=logp(ci=1)p(ci=0)=βTxi+β0

则可得样本隶属于类别1的后验概率:

p(ci=1|x)=exp(g(x))1+exp(g(x))

Logistic回归问题就是线性函数g(xi)=βTxi的参数β最优化问题。假设样本目标标签ci∈{1,0}依输入样本集X服从Bernoulli分布,则样本似然度:

l(β)=Πi=1n(p(ci=1|xi)cij(1-p(ci=1|xi)))1-cij

对其取负对数,得到线性logistic回归模型的原始最小化目标泛函:

L(β)=-Σi=1n[ci(βTxi+β0)-log(1+exp(βTxi+β0))]

针对说话人辨别输入特征参数的线性不可分性,必须将线性回归模型扩展为非线性回归模型,从而得到核logistic回归。通过非线性映射Φ:Rp→F将原输入空间映射到高维特征空间。在F空间中,β可以表达为:

β=Σi=1nαiΦ(xi)

在高维空间中构建g′(xi)=βTΦ(xi)+β0,即:

g(x)=βTΦ(x)+β0=(Σi=1nαiΦ(xi))Φ(x)+β0=Σi=1nαiK(xi,x)+β0

这样对于原输入空间来说,g′(x)就成为一个非线性函数,其中K(x,y)为满足Mercer条件的核函数,本发明应用最为广泛的径向基核函数:

K(x,y)=exp(-||x-y||2σ)

利用核技巧,核化的后验概率p(ci=1|x)=11+exp(-Σi=1nαiK(xi,x)-β0),而核logistic回归的目标泛函为:

minL(α)=-Σi=1nΣj=1n[ciαjK(xi,xj)+β0]+Σi=1nlog(1+exp[αjK(xi,xj)+β0]

实际说话人辨别系统中一般K>2,如果直接应用二元核logistic模型进行辩识,则需要采用“一对多”或“一对一”方法构建多个分类器,增加了模型构建的繁琐度。事实上核logistic回归可以很自然地进行多元分类扩展:

p(ci=k|x;β)=exp(βkTx+βk0)Σj=1Kexp(βjTx+βj0),k=1,2,…K

其中β=[β1T;β2T;…βKT],β∈Rp×K为最优化参数,即说话人辨别系统需优化的模型参数。最优参数的推导依然通过最小化负对数似然度函数:

minβl(β)=-log(Πi=1np(ci=k|xi;β)

=Σk=1KΣci=k[-βkTxi-βk0+log(Σj=1Kexp(βjTx+βj0)]

为增强模型的泛化能力,对最优泛函叠加L2正则化部分。最终多元logistic回归模型目标泛函:

minH=Σi=1n[-ciTβkTxi-βk0+log(Σj=1Kexp(βjTx+βj0))]+λ2Σk=1K||βk||2

其中ci是K维向量,当ci=k时,ci=(0,0,…1,…0),1为第k维。同样,应用核技巧,相应的多元核logistic回归模型目标泛函:

minH=Σi=1nΣj=1n[-ciTαjkK(xi,xj)-βk0]+Σj=1nlog(Σj=1KαmjK(xm,xi)+βj0)

+λ2Σk=1KΣi,iαikαikK(xi,xj)

第三部分模型训练算法

核logistic回归模型的训练算法很多,有迭代重加权最小平方法(IRRLS)、牛顿-拉斐逊法、信任区域牛顿法(TRNM)等,所有这些方法在训练样本数量众多且多分类目标的场合如说话人辨别中,每次迭代过程带有相当计算量的矩阵逆操作。本发明将原核logistic回归模型目标泛函进行对偶化,提出最小序列优化训练算法,在每次迭代过程中只优化两个α系数,避免了费时的矩阵操作。

1)目标泛函对偶化

原目标泛函式等同于:minH=CΣi=1nΣk=1Kg(ξik)+12Σk=1K||βk||2,其中C=1/λ为正则化常量,且ξik=βk0+βkTxi,g(ξik)=-cikξik+log(eξi1+eξi2+···+eξiK),转化为拉格朗日形式:

+Σi=1nΣk=1Kαik(ξik-βk0-βkTxi)+α0Σk=1Kβk0

其中αik,α0为拉格朗日乘子,则KKT条件为:

由上面三式可以推导出βk=Σi=1nαikxi,k,Σk=1Kαik=0,α0=0,Σi=1nαik=0,k,以及

ξik=log(cik-αikC)-1KΣk=1Klog(cik-αikC),i,k

g(ξik)=-αikC

设G(δ)=δξik-g(ξik),其中δ=-αikC,对G进行微分可得:

Gδ=ξik+δdξik-g(ξik)dξik=ξik

于是G可通过积分由ξik所得:

G(-αikC)=K-1K(cik-αikC)log(cik-αikC)+const.

其中const是常量,G为目标泛函的一部分,应用Wolfe对偶理论,经过简化可得目标泛函的对偶形式为:

minD=CΣi=1nΣk=1KG(-αikC)+12Σk=1K||βk||2

s.t.Σk=1Kαik=0,i;Σi=1nαik=0,k

2)最优化条件

上式含有两个约束条件,要应用最小序列优化进行目标最小化,首先将其中一个约束条件集成到目标泛函中:

minD~=CΣi=1nΣk=1KG(-αikC)+12Σk=1K-1||βk||2+12||-Σi=1n(Σk=1K-1αik)xi||2

s.t.Σi=1nαik=0,k

则对偶目标泛函的拉格朗日形式为:

最小序列优化的最优化条件即是上式对偶函数中αik参数的更改停止条件,将对αik进行微分得到:

其中αik满足条件:

0<αik<C,cik=1-C<αik<0,cik=00<Σi=1n(cik-αikC)<1

设:

Hik=Σt=1nαtkK(xt,xi)+Σt=1n(Σk=1K-1αtkK(xt,xi))

-[log(cik-αikC)+log(1-Σk=1K-1(cik-αikC))]

upper(k)=argmaxiHik,k=1,2,…,K-1

lower(k)=argminiHik,k=1,2,…,K-1

则多元核logistic回归模型对偶训练的最优化条件:

Hupper(k),k=Hlower(k),k=βk,k=1,2,…,K-1

3)最小序列训练优化

基于以上推导的对偶目标泛函及其最优化条件,多元核logistic模型最小序列优化训练方法的基本操作包括α参数的正确初始化以及每次迭代中αupper(k)与αlower(k)的更新,具体算法流程如下:

(1)给定满足条件的初始化α向量,迭代Iter=1;

(2)如果存在不同索引对(i,i′),使得Hi,k≠Hi′,k,则选出相应的upper(k)以及lower(k);

(3)更新αupper(k),k,αlower(k),k如下

αupper(k),kIter+1=αupper(k),kIter+t*

αlower(k),kIter+1=αlower(k),kIter-t*

αi,kIter+1=αi,kIter,for other i,k

(4)以αIter+1重新计算Hik,并选出新的upper(k)以及lower(k);

(5)如果对于不同的k∈{1,2,…,K-1},任意的(i,i′)索引值对总是满足Hik=Hi′k,则迭代停止,否则转入步骤(2)继续,直到停止条件式满足为止。

第四部分说话人辩别

多元核logistic回归说话人模型构建完成之后,对于新输入向量x,分类结果为:

argmaxk{1,2,···K}(p(ci=k|x;β))

即,取后验概率最高的第k个说话人为识别结果,其中:

p(ci=k|x;β)=exp(βkTx+βk0)Σj=1Kexp(βjTx+βj0),k=1,2,…K

效果测试:实验采用自己录制的语料库,录音总人数20个,其中男12个,女8个。数据通过采样频率8000Hz、量化位数16bit、单声道A/D转化获得。每个人的语音信号通过不同时期录制合成。每人混合提取不同时期的语音片段总长度15s作为训练信号,不同时期的20个长度为1.5s的语音片段作为测试信号,即20个训练语音,400个测试语音。语音信号先经高频提升,中心削减等预处理,再通过VAD(Voice Activity Detection)声音活性检测,提取其中有效的语音段,去除冗余的无声段,以30ms为长度分帧提取12维的MFCC特征参数,即mel频率倒谱系数,作为分类参数。

将多元核logistic回归方法与高斯混合模型法以及支持向量机方法进行说话人辨别识别率对比,其中高斯混合模型的混合度取100,支持向量机是二元分类器,采用构建“一对一”多个分类模型进行投票式识别的方法。多元核logistic回归方法与支持向量机方法采取相同的径向基核函数,σ取值1.5。结果识别率为:多元核logistic回归:97.5%;支持向量机:97%;高斯混合模型:96.5%。可见,本发明方法的说话人辨别识别率优与经典说话人辨别方法。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号