首页> 中国专利> 一种组合PCA和RBM的孤立数字语音识别分类系统及方法

一种组合PCA和RBM的孤立数字语音识别分类系统及方法

摘要

本发明公开了一种组合PCA和RBM的孤立数字语音识别分类系统及方法,首先,采用梅尔频率倒谱系数(MFCC)与一阶差分MFCC相组合,初步抽取孤立数字的语音动态特征;然后采用主成分分析(PCA)对MFCC组合特征作线性降维处理,并统一新得到的特征的维数;进而,采用受限波尔兹曼机(RBM)对所得新特征作非线性降维处理;最后,采用Softmax分类器对非线性降维后的数字语音特征完成识别分类。本发明采用PCA线性降维、统一特征的维数与RBM非线性降维相结合,大大改善了模型的特征表征与分类能力,提高了孤立数字语音识别正确率,为实现孤立数字语音高准确率识别提供了一种高效的解决方案。

著录项

  • 公开/公告号CN105206270A

    专利类型发明专利

  • 公开/公告日2015-12-30

    原文格式PDF

  • 申请/专利权人 长安大学;

    申请/专利号CN201510514595.7

  • 发明设计人 宋青松;田正鑫;安毅生;赵祥模;

    申请日2015-08-20

  • 分类号G10L15/26(20060101);G10L15/08(20060101);

  • 代理机构61200 西安通大专利代理有限责任公司;

  • 代理人徐文权

  • 地址 710064 陕西省西安市南二环中段33号

  • 入库时间 2023-12-18 13:18:56

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-29

    未缴年费专利权终止 IPC(主分类):G10L15/26 专利号:ZL2015105145957 申请日:20150820 授权公告日:20190402

    专利权的终止

  • 2019-04-02

    授权

    授权

  • 2016-01-27

    实质审查的生效 IPC(主分类):G10L15/26 申请日:20150820

    实质审查的生效

  • 2015-12-30

    公开

    公开

说明书

技术领域

本发明属于语音识别领域,具体涉及一种组合PCA和RBM的孤立数字 语音识别分类系统及方法。

背景技术

数字语音识别有着广阔的研究和应用价值,常见方法有很多,比如动态 时间规整(DTW)、主成分分析(PCA)、人工神经网络(ANN)方法等。 DTW基于动态规划的思想,解决了发音长短不一的模板匹配问题,但是, DTW存在运算量大、识别性能依赖端点检测等不足。PCA可以实现数据的 降维,并且能够统一数据维数,但本质上是一种基于最优正交变换的线性降 维方法,无法保留原始数据中的非线性特征,对于非线性问题难得到较好的 结果。ANN方法特别是Hinton等提出的受限波尔兹曼机(RBM)及其快速 学习算法,在模式识别与分类问题中表现出良好的非线性特征降维与特征表 征能力,但通常需要适当的特征参数提取等预处理手段配合使用。每种方法 有各自的长处,单一种类的方法很难发挥综合优势。

发明内容

本发明的目的在于提供一种组合PCA和RBM的孤立数字语音识别分类 系统及方法,以克服上述现有技术存在的缺陷,本发明能够对数字语音信号 进行有效降维和特征表征,显著改善了分类识别正确率,为高精度孤立数字 语音识别提供了一种高效的解决方案。

为达到上述目的,本发明采用如下技术方案:

一种组合PCA和RBM的孤立数字语音识别分类系统,包括:孤立数字 语音输入模块,用于对孤立数字的语音信号进行采样或读取;MFCC与一阶 差分MFCC特征提取模块,用于提取语音信号的梅尔频率倒谱系数MFCC 与一阶差分MFCC;PCA线性降维模块,用于将MFCC特征参数通过主成 分分析PCA进行线性降维,并且使降维后得到的特征维数得到统一;RBM 非线性降维模块,采用受限波尔兹曼机RBM对PCA线性降维后得到的特征 进行非线性特征降维表征;Softmax分类识别模块,用于对RBM非线性降维 模块输出的结果进行分类识别。

进一步地,MFCC与一阶差分MFCC特征提取模块包括:预加重与分帧 加窗模块,用于将原始语音信号S0通过预加重、分帧、加窗处理得到成帧的 语音信号Sf;端点检测模块,用于从成帧的语音信号Sf中截取实际有效的语 音信号Se;FFT模块,对每一帧有效地的语音信号Se进行离散FFT变换得到 该帧的频谱,进而对该频谱取模的平方求得该帧的离散功率谱S(n);梅尔频 率滤波器组模块,将FFT模块输出的功率谱S(n)通过M个具有三角滤波特性 的带通滤波器Hm(n)的MEL滤波器组得到MEL频谱;Log对数能量模块, 将得到的MEL频谱取对数能量得到对数能量谱,再经MEL滤波器组输出; DCT求倒谱模块,将对数能量谱经过离散余弦变换到倒谱域即得到MEL频 率倒谱系数Dm,m=0,1…M-1,舍去代表直流成份的D0,取D1,D2…Dg作为 MFCC特征参数值,其中M取24,g取12。

一种组合PCA和RBM的孤立数字语音识别分类方法,包括以下步骤:

步骤1:输入孤立数字语音信号;

步骤2:提取孤立数字语音信号的梅尔频率倒谱系数MFCC,然后计算 一阶差分倒谱系数,并与梅尔频率倒谱系数MFCC进行组合得到MFCC组 合特征参数;

步骤3:采用PCA对MFCC组合参数特征进行线性降维,并且使降维后 得到的特征维数得到统一;

步骤4:采用RBM对线性降维后得到的特征进行非线性降维处理;

步骤5:采用Softmax分类器实现孤立数字语音的识别分类。

进一步地,步骤1中所述的孤立数字语音信号从硬盘上保存的孤立数字 语音信号中读取,或以指定的采样频率和采样精度从在线待识别的孤立数字 语音信号中采集。

进一步地,步骤2中提取孤立数字语音信号的梅尔频率倒谱系数MFCC 的具体过程为:

步骤2.1:将原始孤立数字语音信号S0通过预加重、分帧、加窗处理得到 成帧的语音信号Sf,其中,预加重处理使用的传递函数为式 中,S0为原始语音信号,u为预加重系数,取0.9375,H(S0)为预加重后的语 音信号;

步骤2.2:采用基于短时能量和短时过零率的端点检测方法,从成帧的语 音信号Sf中截取得到实际有效的语音信号帧Se

步骤2.3:对每一实际有效的语音信号帧Se进行离散FFT变换得到其频 谱,再对该频谱取模的平方求得离散功率谱S(n);

步骤2.4:将离散功率谱S(n)通过M个具有三角滤波特性的带通滤波器 Hm(n)的MEL滤波器组得到MEL频谱,即计算S(n)和Hm(n)在各离散频率点 上的乘积之和,得到M个MEL频谱参数Pm,m=0,1…M-1;

步骤2.5:将得到的MEL频谱取对数能量得到对数能量谱,再经MEL 滤波器组输出,即计算Pm的自然对数,得到对数能量谱Lm,m=0,1…M-1;

步骤2.6:将对数能量谱Lm经过离散余弦变换到倒谱域即可得到MEL频 率倒谱系数Dm,m=0,1…M-1,舍去代表直流成份的D0,取D1,D2…Dg作为 MFCC特征参数值,其中M取24,g取12。

进一步地,步骤2中根据MFCC特征参数值计算一阶差分倒谱系数得到 一阶差分MFCC参数,并与MFCC进行组合得到24维的MFCC组合特征参 数,其中包括12维MFCC参数和12维MFCC一阶差分参数。

进一步地,步骤3中采用PCA对MFCC组合参数特征进行线性降维, 并且使降维后得到的特征维数得到统一的方法为:对语音信号求MFCC特征 参数,每一帧得到24维的MFCC组合特征参数,最后该语音信号得到一个 N*24的特征参数矩阵,N为语音信号的帧数,将特征参数矩阵进行转置, 再与特征参数矩阵相乘,得到24*24的方阵,求其特征值,取前两个最大特 征值所对应的特征向量作为该语音信号的特征参数,得到一个48维的特征向 量。

进一步地,步骤4中采用RBM对线性降维后得到的特征进行非线性降 维处理的方法为:

步骤4.1:构建RBM,RBM由显层、隐层两层构成,层内无连接,层间 双向连接,RBM显层神经元个数为48,对应非线性特征向量维数48,隐层 神经元个数为10,对应0~9十个数字语音分类,层间连接权重初始化为正态 分布,均值为零,标准差0.01的随机数,显层和隐层的偏置均初始化为0;

步骤4.2:训练RBM,训练用样本批量处理,RBM的训练使用对比散度 算法,采用高斯-伯努利RBM定义能量函数:

E(v,h;θ)=12Σi=1S(vi-bi)2-Σi=1SΣj=1Tviwijhj-Σj=1Thjaj

式中,θ={ai,bj,wij}是RBM的模型参数,ai是显层节点i的偏置,bj是 隐层节点j的偏置,wij是显层节点i和隐层节点j之间的连接权值,v是显层 神经元,S为显层神经元个数,h是隐层神经元,T为隐层神经元个数;

RBM模型的联合概率分布为:

P(v,h;θ)=exp(-E(v,h;θ))Z

其中,为配分函数,θ={ai,bj,wij}是RBM的模 型参数,v是显层神经元,h是隐层神经元;

RBM模型关于显层神经元节点的边缘概率分布为:

P(v;θ)=Σhexp(-E(v,h;θ))Z

其中,θ={ai,bj,wij}是RBM的模型参数,v是显层神经元,h是隐层神 经元;

RBM的模型参数使用最大似然准则通过无监督训练得到,训练的目标函 数为:

θ*=argmaxθlogP(v;θ)

其中,θ={ai,bj,wij}是RBM的模型参数,v是显层神经元;

对目标函数求偏导,可以得到权值的更新公式为:

Δwij=Edata(vihj)-Emodel(vihj)

式中,Edata(vihj)是训练集数据的显层和隐层状态的期望值,Emodel(vihj)是 对所有可能的(v,h)建立模型的期望值;Δwij为权值的改变量;

各参数的更新准则为:

Δwij=mΔwij+ε(<vihj>data-<vihj>recon)

Δbi=mΔbi+ε(<vi>data-<vi>recon)

Δaj=mΔaj+ε(<hj>data-<hj>recon)

其中,m是动量参数,在训练迭代前5次,m取0.9,大于第5次,取 0.5,ε是学习率,取0.001,<.>recon表示一步重构后模型定义的分布;

使用重构误差对RBM进行评估,重构误差就是以训练数据作为初始状 态,根据RBM的分布进行一次吉布斯采样所获得的样本与原数据的差异;

步骤4.3:训练完毕后保存RBM的权值和偏置值,训练后的RBM实现 线性降维后得到的特征的非线性降维输出。

进一步地,步骤5中采用Softmax分类器实现孤立数字语音的识别分类 的方法为:

步骤5.1:构建Softmax分类器,对于给定的输入x,用假设函数hδ(x)针 对每一个类别s估算出概率值p(y=s|x),s∈{0,1,2,……,9},假设函数hδ(x)输出 一个t维的向量表示这t个估计的概率值,t=10,假设函数hδ(x)如下:

hδ(x(i))=p(y(i)=1|x(i));δp(y(i)=2|x(i));δ···p(y(i)=s|x(i));δ=1Σl=1teδlTx(i)eδ1Tx(i)eδ2Tx(i)···eδsTx(i)

其中,δ12,...,δt是Softmax分类器的全部参数,δ=δ1Tδ2T···δsT,x(i)为输入,y(i)为输出,Softmax分类器将x分为类别s的概率为:

p(y(i)=s|x(i);δ)=eδsTx(i)Σl=1teδlTx(i)

其中,x(i)为输入,y(i)为输出;

步骤5.2:Softmax分类器接收RBM的输出作为其输入,输出数字语音 信号的分类编号0~9;对于RBM输出的特征x(i),选择概率p(y(i)=s|x(i);δ)最 大的类别s作为该特征对应的类别。

进一步地,RBM预训练完成后,微调整RBM的连接权重及偏置、以及 RBM与Softmax之间的连接权重,具体方法为:

1)RBM训练完成后,使用共轭梯度法对网络模型进行微调,在微调开 始的前五次,只对Softmax分类器的权值进行调整,从第六次开始对RBM 内部的、以及RBM和Softmax之间的连接权重进行调整,微调使用的代价 函数为:

J(θ)=-[Σi=1mΣj=1t1{y(i)=s}logeδsTx(i)Σl=1teδlTx(i)]

其中,1{y(i)=s}为指示性函数,当括号中的值为真时,该函数结果为1, 否则为0,m为语音信号样本数量;

共轭梯度法利用负梯度方向,即

其中,目标函数f(x)是Rn上的连续可微函数;为f(x)在点xk处 的梯度;d(k)为搜索方向;参数βk的确定使得d(k)与d(k-1)互相共轭;

共轭梯度法的计算步骤如下:

第一步:取任意初始点x(0)∈Rn,令k=0,精度ε>0;

第二步:若则x=x(k),方法终止,否则进入第三步;

第三步:由线性搜索确定步长αk,并令x(k+1)=x(k)kd(k)

第四步:由d(k-1),其中βk=βkPRP,令k=k+1, 进入第二步;

2)微调结束后得到RBM模型最终的参数,将RBM的输出作为Softmax 分类层的输入,通过Softmax分类器得到最后的识别结果。

与现有技术相比,本发明具有以下有益的技术效果:

本发明提供一种组合PCA和RBM的孤立数字语音识别分类方法,具有 MFCC特征提取、PCA线性降维、RBM非线性特征表征等方法的综合优势。 通过MFCC与一阶差分MFCC特征组合,改善方法的噪声鲁棒性和对语音 动态特性的敏感度;通过PCA线性降维,既对求得的MFCC组合参数数据 进行压缩,降低语音样本的数据量,又统一了每个语音样本新特征的向量维 数;通过RBM非线性特征表征,改善了后端Softmax分类器的分类精度。 为高精度识别分类孤立数字语音提供了一种高效的解决方案。

附图说明

图1是本发明的流程示意图;

图2是本发明的受限波尔兹曼机(RBM)结构示意图;

图3是本发明的梅尔频率倒谱系数(MFCC)计算过程示意图。

具体实施方式

下面结合附图对本发明作进一步详细描述:

参见图1至图3,一种组合PCA和RBM的孤立数字语音识别分类系统, 包括孤立数字语音输入模块、MFCC与一阶差分MFCC特征提取模块、PCA 线性降维模块、RBM非线性降维模块、Softmax分类识别模块;

孤立数字语音输入模块对孤立数字的语音信号进行采样或读取:采样频 率12.5kHz,每个样本进行16bit量化。采样结果以文件的形式保存,供后续 的MFCC与一阶差分MFCC特征提取模块使用;

MFCC与一阶差分MFCC特征提取模块提取语音信号的梅尔频率倒谱系 数(MFCC)与一阶差分MFCC:首先,对输入的语音样本组合成帧,帧数 记为N。然后,每帧提取MFCC和一阶差分MFCC,得到N组24维的组合 特征参数,包括N组12维MFCC参数和N组12维MFCC—阶差分参数;

PCA线性降维模块将MFCC特征参数通过主成分分析(PCA)进行线性 降维,并且降维后得到的特征的维数得到统一:首先,输入MFCC与一阶差 分MFCC特征提取模块生成的N*24的特征参数(N为帧数);然后,使用 PCA对N*24的特征参数进行降维并且统一维度:将特征参数矩阵进行转置, 再与原矩阵相乘,得到24*24的方阵;再进一步求24*24的方阵的特征值, 取前两个最大特征值所对应的特征向量作为该语音信号的新的特征参数,得 到48维的线性降维新特征向量;

RBM非线性降维模块采用受限波尔兹曼机(RBM)对PCA线性降维后 得到的48维的特征,进一步进行非线性特征降维表征:首先生成RBM,RBM 由显层、隐层两层构成,层内无连接,层间双向连接,如附图2。RBM显层 神经元个数为48,对应非线性特征维数48。隐层神经元个数为10,对应0~9 十个数字语音分类。层间连接权重初始化为正态分布,均值为零,标准差0.01 的随机数,显层和隐含层的偏置均初始化为0;然后训练RBM,训练用样本 批量处理,RBM的训练使用对比散度算法,训练完毕后保存RBM的权值和 偏置值,训练后的RBM实现语音特征的非线性降维输出;

Softmax分类识别模块对RBM非线性降维模块输出的结果进行分类识 别:Softmax分类器接收RBM的输出作为其输入,输出数字语音信号的分类 编号0~9,构建Softmax分类器,对于给定的输入x,用假设函数hδ(x)针对 每一个类别s估算出概率值p(y=s|x),s∈{0,1,2,……,9},假设函数hδ(x)输出一 个t维的向量表示这t个估计的概率值,t=10,假设函数hδ(x)如下:

hδ(x(i))=p(y(i)=1|x(i));δp(y(i)=2|x(i));δ···p(y(i)=s|x(i));δ=1Σl=1teδlTx(i)eδ1Tx(i)eδ2Tx(i)···eδsTx(i)

其中,δ12,...,δt是Softmax分类器的全部参数,δ=δ1Tδ2T···δsT,x(i)为输入,y(i)为输出,Softmax分类器将x分为类别s的概率为:

p(y(i)=s|x(i);δ)=eδsTx(i)Σl=1teδlTx(i)

对于RBM输出的特征x(i),选择概率p(y(i)=s|x(i);δ)最大的类别s作为该 特征对应的类别。

一种组合PCA和RBM的孤立数字语音识别分类方法,包括以下步骤:

1)、首先,输入孤立数字的语音信号。可以读取硬盘上保存的孤立数字 语音信号,也可以指定的采样频率和采样精度在线采集待识别的孤立数字语 音信号。

2)提取孤立数字语音信号的梅尔频率倒谱系数(MFCC)。MFCC特征 参数提取及计算过程如附图3所示,依次通过预加重与分帧加窗、端点检测、 快速傅立叶变换(FFT)、梅尔频率滤波器组、Log对数能量、DCT求倒谱等 6个子功能模块。

2.1、预加重与分帧加窗模块。原始语音信号S0依次通过预加重、分帧、 加窗处理得到成帧的语音信号Sf。其中预加重处理使用的传递函数为

H(S0)=1-uS0-1---(1-1)

2.2、端点检测模块。采用基于短时能量和短时过零率的端点检测方法, 从成帧的语音信号Sf中截取得到实际有效的语音信号帧Se

2.3、FFT模块。对每一实际有效的语音信号帧Se进行离散FFT变换得到 其频谱,再对该频谱取模的平方求得离散功率谱S(n)。

2.4、梅尔频率滤波器组模块。将FFT模块输出的功率谱S(n)通过M个 具有三角滤波特性的带通滤波器Hm(n)的MEL滤波器组得到MEL频谱,即 计算S(n)和Hm(n)在各离散频率点上的乘积之和,得到M个参数Pm, m=0,1,……M-1。

2.5、Log对数能量模块。将得到的MEL频谱取对数能量得到能量谱, 再经滤波器输出,即计算Pm的自然对数,得到Lm,m=0,1,……M-1。

2.6、DCT求倒谱模块。将对数能量谱Lm经过离散余弦变换到倒谱域即 可得到Dm,m=0,1,……M-1,舍去代表直流成份的D0,取D1,D2,……, Dg作为MFCC特征参数值,其中M取24,g取12。

标准MFCC参数只反映语音参数的静态特性,MFCC的差分参数反映的 是动态特性,而人耳对语音的动态特性更加敏感,本发明在MFCC的基础上 再计算一阶差分倒谱系数反映语音动态的变化,然后与原有MFCC参数进行 组合,得到24维的组合特征参数,包括12维MFCC参数和12维MFCC— 阶差分参数。

3)、采用PCA对MFCC组合特征进行线性降维并且统一新特征的维数。 提取MFCC后得到N*24的特征参数(N为帧数),此时的特征参数有两点明 显的不足:一是每个语音样本提取出来的参数数据,长短不一;二是样本参 数数据量较大,有压缩的空间。因此,可以对求得的参数数据进行压缩,降 低单个样本的数据量,统一每个样本的数据维度。所以使用PCA对其进行降 维并且统一维度。使用的方法是对语音信号求MFCC特征参数,每一帧得到 24维的MFCC组合特征参数,最后该语音信号得到一个N*24的特征参数矩 阵,N为语音信号的帧数,将特征参数矩阵进行转置,再与特征参数矩阵相 乘,得到24*24的方阵,求其特征值,取前两个最大特征值所对应的特征向 量作为该语音信号的特征参数,得到一个48维的新特征向量。

4)构建RBM,对48维特征进一步进行非线性降维处理。PCA线性降 维得到的48维特征输入RBM,RBM对其进行非线性降维,结果输出到 Softmax分类器中。具体地,

4.1、首先生成RBM。RBM由显层、隐层两层构成,层内无连接,层间 双向连接,如附图2。RBM显层神经元个数为48,对应非线性特征维数48。 隐层神经元个数为10,对应0~9十个数字语音分类。层间连接权重初始化为 正态分布,均值为零,标准差0.01的随机数,显层和隐含层的偏置均初始化 为0。

4.2、然后训练RBM。训练用样本批量处理,RBM的训练使用对比散度 算法。使用高斯-伯努利RBM定义能量函数

E(v,h;θ)=12Σi=1S(vi-bi)2-Σi=1SΣj=1Tviwijhj-Σj=1Thjaj---(1-2)

式中,θ={ai,bj,wij}是RBM的模型参数,ai是显层节点i的偏置,bj是 隐层节点j的偏置,wij是显层节点i和隐层节点j之间的连接权值,v是显层 神经元,S为显层神经元个数,h是隐层神经元,T为隐层神经元个数。当参 数确定,可以得到它的联合概率分布:

P(v,h;θ)=exp(-E(v,h;θ))Z---(1-3)

其中称为配分函数,θ={ai,bj,wij}是RBM的模 型参数,v是显层神经元,h是隐层神经元。模型关于显层神经元节点的边缘 概率分布为

P(v;θ)=Σhexp(-E(v,h;θ))Z---(1-4)

其中,θ={ai,bj,wij}是RBM的模型参数,v是显层神经元,h是隐层神 经元;

RBM的模型参数使用最大似然准则通过无监督训练得到,训练的目标函 数为

θ*=argmaxθlogP(v;θ)---(1-5)

其中,θ={ai,bj,wij}是RBM的模型参数,v是显层神经元;

对目标函数求偏导,可以得到权值的更新公式为

Δwij=Edata(vihj)-Emodel(vihj)(1-6)

式中Edata(vihj)是训练集数据的显层和隐层状态的期望值,Emodel(vihj)是 对所有可能的(v,h)建立模型的期望值,Δwij为权值的改变量。Emodel(vihj)直接 计算很困难,实际通过对比散度(ContrastiveDivergence)的算法进行近似计 算。

训练开始时显层单元的状态被设置成一个训练样本,仅需要通过K步吉 布斯采样获得“重构”的可见单元状态<vi>recon,K通常为1。再用<vi>recon更新 隐层单元状态,得到<hj>recon。为克服学习率ε大收敛速度快,但过大可能引 起算法不稳定,ε小避免不稳定,但收敛速度慢的矛盾,在更新参数时加入 动量项,使参数修改的方向不完全由当前样本下的似然函数梯度方向决定, 而是采用上一次参数值修改方向与本次梯度方向的组合。

因此,各参数的更新准则为:

Δwij=mΔwij+ε(<vihj>data-<vihj>recon)(1-7)

Δbi=mΔbi+ε(<vi>data-<vi>recon)(1-8)

Δaj=mΔaj+ε(<hj>data-<hj>recon)(1-9)

其中,m是动量参数,在训练迭代前5次,m取0.9,大于第5次,取 0.5,ε是学习率,取0.001,<.>recon表示一步重构后模型定义的分布;

使用重构误差对RBM进行评估,重构误差就是以训练数据作为初始状 态,根据RBM的分布进行一次吉布斯采样所获得的样本与原数据的差异。

4.3、训练完毕后保存RBM的权值和偏置值,训练后的RBM实现语音 特征的非线性降维输出。

5)、构建Softmax分类器,实现孤立数字语音的识别分类。

5.1、Softmax分类器接收RBM的输出作为其输入,输出数字语音信号 的分类编号0~9。

5.2、构建Softmax分类器。对于给定的输入x,用假设函数hδ(x)针对每 一个类别s估算出概率值p(y=s|x),s∈{0,1,2,……,9},假设函数hδ(x)输出一个 t维的向量表示这t个估计的概率值,t=10,假设函数hδ(x)如下:

hδ(x(i))=p(y(i)=1|x(i));δp(y(i)=2|x(i));δ···p(y(i)=s|x(i));δ=1Σl=1teδlTx(i)eδ1Tx(i)eδ2Tx(i)···eδsTx(i)---(1-10)

其中,δ12,...,δt是Softmax分类器的全部参数,δ=δ1Tδ2T···δsT,x(i)为输入,y(i)为输出,Softmax分类器将x分为类别s的概率为

p(y(i)=s|x(i);δ)=eδsTx(i)Σl=1teδlTx(i)---(1-11)

对于RBM输出的特征x(i),选择概率p(y(i)=s|x(i);δ)最大的类别s作为该 特征对应的类别。

6)、微调整RBM的连接权重及偏置、以及RBM与Softmax之间的连接 权重。

6.1、RBM预训练完成后,使用共轭梯度算法对网络模型进行微调。在 微调开始的前五次,只对Softmax分类器的权值进行调整,从第六次开始对 RBM内部的、以及RBM和Softmax之间的连接权重进行调整。

微调使用的代价函数为:

J(θ)=-[Σi=1mΣj=1t1{y(i)=s}logeδsTx(i)Σl=1teδlTx(i)]---(1-12)

其中,1{y(i)=s}为指示性函数,当括号中的值为真时,该函数结果为1, 否则为0,m为语音信号样本数量;

共轭梯度法利用负梯度方向,即

其中,目标函数f(x)是Rn上的连续可微函数;为f(x)在点xk处 的梯度;d(k)为搜索方向;参数βk的确定使得d(k)与d(k-1)互相共轭。

共轭梯度法的计算步骤如下:

第一步:取任意初始点x(0)∈Rn,令k=0,精度ε>0。

第二步:若则x=x(k),算法终止,否则转第三步。

第三步:由线性搜索确定步长αk,并令x(k+1)=x(k)kd(k)

第四步:由式(1-13)确定d(k+1),其中令k=k+1,转第二步。

6.2、微调结束后得到模型最终的参数,并通过计算得到RBM的输出, 将RBM的输出作为Softmax分类层的输入,通过Softmax分类器得到最后的 识别结果。

下面结合实施例对本发明做进一步详细说明:

一种组合PCA和RBM的孤立数字语音识别分类方法,如图1所示,包 括以下步骤:

1)、首先,孤立数字语音输入。孤立数字语音输入模块读取TI-digits数 字语音数据集。数字语音信号的采样频率为12.5kHz,16bit量化。选择3000 个样本作为训练集,十个数字各300个样本,选择另外的1000个样本作为测 试集,每个数字各100个。

2)、MFCC与一阶差分MFCC特征提取。MFCC与一阶差分MFCC特 征提取模块实现MFCC与一阶差分MFCC语音特征提取。预加重使用的传 递函数的参数u取0.9375,帧长和帧移分别取256和80,窗函数使用汉明窗。 滤波器一组24个,即M取值24。K取12。

3)、PCA线性降维。首先,输入MFCC与一阶差分MFCC特征提取模 块生成的N*24的特征参数(N为帧数)。然后,使用PCA对N*24的特征参 数进行降维并且统一维度:将特征参数矩阵进行转置,再与原矩阵相乘,得 到24*24的方阵。进一步,求24*24的方阵的特征值,取前两个最大特征值 所对应的特征向量作为该语音信号的新的特征参数,得到48维的线性降维新 特征向量。

4)、RBM线性降维。首先,生成RBM。RBM显层神经元个数为48, 对应非线性特征维数48。隐层神经元个数为10,对应0~9十个数字语音分 类。RBM层内无连接,层间双向连接。RBM连接权重初始化为正态分布N (0,0.01)的随机数,显层和隐含层的偏置均初始化为0。将TI-digits数字语 音数据集训练数据集分成小批量(mini-batch)进行学习,每个批量为50个, 学习算法使用对比散度算法。学习率为0.001,最大训练次数为50次,权值 代价为0.2,动量项在前五轮是0.5,后面增加至0.9。最后,训练完毕后保存 RBM的权值和偏置值,训练后的RBM实现语音特征的非线性降维输出。

5)、Softmax分类识别。首先,构建Softmax分类器。对于给定的输入x, 用假设函数hδ(x)针对每一个类别s估算出概率值p(y=s|x),s∈{0,1,2,……,9}, 即RBM输出的特征x(i),选择概率p(y(i)=s|x(i);δ)最大的类别s作为该特征对 应的类别。

然后,训练调整RBM与Softmax之间的连接权重、以及Softmax分类器 参数取值。采用共轭梯度算法,线性搜索步长为3,设置5次调整,完成权 值和偏置、以及分类器参数训练。

6)、微调整RBM非线性降维、Softmax分类识别两个模块内部的、以及 两个模块之间的连接权重。代价函数定义为J(θ),代价函数的求解采用共轭 梯度法,训练误差小于预先设定的精度则微调整结束,保存RBM、Softmax 各自的参数取值、以及RBM与Softmax之间的连接权重值,作为模型参数 的最终取值。

7)、测试评价方法的性能。将TI-digits数字语音数据集测试数据集通过 孤立数字语音输入模块读入,依次经过MFCC与一阶差分MFCC特征提取、 PCA线性降维、RBM线性降维、以及Softmax分类识别等功能模块,得到 模型输出的数字语音识别分类结果,采用正确识别率评价方法性能。

实施效果

采用TI-digits数字语音数据库和实验室真人发音分别测试,结果表明, 0~9十个数字语音整体上正确识别率达到95.1%,个体识别正确率最差89%, 最高为100%正确识别。由于采用MFCC、PCA和RBM组合方法,综合了 各方法典型优势,方法能够对数字语音信号进行有效降维和特征表征,显著 改善了分类识别正确率,为高精度孤立数字语音识别提供了一种高效的解决 方案。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号