首页> 中国专利> 通过噪声水平估计调整进行的语音增强

通过噪声水平估计调整进行的语音增强

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

增强由语音和噪声分量组成的音频信号的语音分量包含控制其子带的各子带中音频信号的增益，其中就语音分量的水平而言，随着估计噪声分量的水平的增加，子带中的增益被降低，其中至少部分地通过下述操作来确定估计噪声分量的水平：(1)将估计噪声分量水平和子带中音频信号的水平相比较，和当子带中的输入信号水平在超过指定时间的时间上以一个极限量超过子带中的估计噪声分量水平时，将子带中的估计噪声分量水平增加一个预定量，或(2)获得和监视所述子带中的信噪比，和在所述子带中的信噪比在超过指定时间的时间上超出极限时，将所述子带中的估计噪声分量水平增加预定量。

著录项

公开/公告号CN101802909A

专利类型发明专利
公开/公告日2010-08-11

原文格式PDF
申请/专利权人杜比实验室特许公司;
展开▼

申请/专利号CN200880106338.8
发明设计人俞容山;
展开▼

申请日2008-09-10
分类号G10L21/02(20060101);
代理机构11227 北京集佳知识产权代理有限公司;
代理人杜诚;李春晖
地址美国加利福尼亚州
入库时间 2023-12-18 00:35:33

法律信息

法律状态公告日

法律状态信息

法律状态
2013-07-10

授权

授权
2010-09-29

实质审查的生效 IPC(主分类):G10L21/02 申请日:20080910

实质审查的生效
2010-08-11

公开

公开

说明书

技术领域

本发明涉及音频信号处理。更具体地，本发明涉及带噪声音频语音信号的语音增强。本发明也涉及实现这种方法或控制这种设备的计算机程序。

参考引用

这里通过参考引用完整地合并了以下出版物。

[1]S.F.Boll，″Suppression of acoustic noise in speech using spectralsubtraction，″IEEE Trans.Acoust.，Speech，Signal Processing，vol.27，pp.113-120，Apr.1979.

[2]Y.Ephraim，H.Lev-Ari and W.J.J.Roberts，″A brief survey ofSpeech Enhancement，″The Electronic Handbook，CRC Press，Aprll 2005.

[3]Y.Ephraim and D.Malah，″Speech enhancement using a minimummean square error short time spectral amplitude estimator，″IEEE Trans.Acoust.，Speech，Signal Processing，vol.32，pp.1109-1121，Dec.1984.

[4]Thomas，I.and Niederjohn，R.，″Preprocessing of Speech for AddedIntelligibility in High Ambient Noise″，34th Audio Engineering SocietyConvention，March 1968.

[5]Villchur，E.，″Signal Processing to Improve Speech Intelligibility forthe Hearing Impaired″，99th Audio Engineering Society Convention，September 1995.

[6]N.Virag，″Single channel speech enhancement based on maskingproperties of the human auditory system，″IEEE Tran.Speech and AudioProcessing，vol.7，pp.126-137，Mar.1999.

[7]R.Martin，″Spectral subtraction based on minimum statistics，″inProc.EUSIPCO，1994，pp.1182-1185.

[8]P.J.Wolfe and S.J.Godsill，″Efficient alternatives to Ephraim andMalah suppression rule for audio signal enhancement，″EURASIP Journalon Applied Signal Processing，vol.2003，Issue 10，Pages 1043-1051，2003.

[9]B.Widrow and S.D.Stearns，Adaptive Signal Processing.Englewood Cliffs，NJ：Prentice Hall，1985.

[10]Y.Ephraim and D.Malah，″Speech enhancement using aminimum mean square error Log-spectral amplitude estimator，″IEEETrans.Acoust.，Speech，Signal Processing，vol.33，pp.443-445，Dec.1985.

[11]E.Terhardt，″Calculating Virtual Pitch，″Hearing Research，pp.155-182，1，1979.

[12]ISO/IEC JTC1/SC29/WG11，Information technology-Coding ofmoving pictures and associated audio for digital storage media at up toabout 1.5Mbit/s-Part3：Audio，IS 11172-3，1992

[13]J.Johnston，″Transform coding of audio signals using perceptualnoise criteria，″IEEE J.Select.Areas Commun.，vol.6，pp.314-323，Feb.1988.

[14]S.Gustafsson，P.Jax，P Vary，，″A novel psychoacousticallymotivated audio enhancement algorithm preserving background noisecharacteristics，″Proceedings of the 1998 IEEE International Conference onAcoustics，Speech，and Signal Processing，1998.ICASSP′98.

[15]Yi Hu，and P.C.Loizou，″Incorporating a psychoacoustic modelin frequency domain speech enhancement，″IEEE Signal Processing Letter，pp.270-273，vol.11，no.2，Feb.2004.

[16]L.Lin，W.H.Holmes，and E.Ambikairajah，″Speech denoisingusing perceptual modification of Wiener filtering，″Electronics Letter，pp1486-1487，vol.38，Nov，2002.

[17]A.M.Kondoz，″Digital Speech：Coding for Low Bit RateCommunication Systems，″John Wiley & Sons，Ltd.，2nd Edition，2004，Chichester，England，Chapter 10：Voice Activity Detection，pp.357-377.

发明内容

根据本发明的第一个方面，增强由语音和噪声分量组成的音频信号的语音分量。音频信号被从时域改变到频域中的多个子带。随后处理音频信号的子带。该处理包含控制所述子带的各个子带中音频信号的增益，其中就语音分量的水平而言，随着估计噪声分量的水平的增加，子带中的增益被降低，其中至少部分地通过下述操作来确定估计噪声分量的水平：将估计噪声分量水平和该子带中音频信号的水平相比较，和当所述子带中的输入信号水平在超过指定时间的时间上以一个极限量超过所述子带中的估计噪声分量水平时，将该子带中的估计噪声分量水平增加预定量。所处理的子带音频信号被从频域转变到时域，以提供音频信号，在该音频信号中语音分量被增强。通过基于语音活动检测器的噪声水平估计器设备或过程来确定估计噪声分量。可选地，通过基于统计的噪声水平估计器设备或过程来确定估计的噪声分量。

根据本发明的另一个方面，增强由语音和噪声分量组成的音频信号的语音分量。音频信号被从时域改变到频域中的多个子带。随后处理音频信号的子带。该处理包含控制所述子带的各个子带中音频信号的增益，其中就语音分量的水平而言，随着估计噪声分量的水平的增加，子带中的增益被降低，其中至少部分地通过下述操作来确定估计噪声分量的水平：获得和监视该子带中的信噪比，和在该子带中的信噪比在超过指定时间的时间上超出极限时，将该子带中的估计噪声分量水平增加预定量。所处理的子带音频信号被从频域转变到时域，以提供音频信号，在该音频信号中语音分量被增强。通过基于语音活动检测器的噪声水平估计器设备或过程来确定估计噪声分量。可选地，通过基于统计的噪声水平估计器设备或过程来确定估计噪声分量。

附图说明

图1是示出本发明的示例性实施例的功能模块图。

图2是针对第一例子的估计噪声水平的实际噪声水平的理想化假定图。

图3是针对第二例子的估计噪声水平的实际噪声水平的理想化假定图。

图4是针对第三例子的估计噪声水平的实际噪声水平的理想化假定图。

图5是涉及图1的示例性实施例的流程图。

具体实施方式

图1是示出本发明的各方面的示例性实施例的功能模块图。通过将包含干净语音和噪声的模拟语音信号数字化来产生输入。这个未改变音频信号y(n)(″有噪声语音″)接着被发送到分析滤波器组设备或功能(″分析滤波器组″)2，从而产生K个子带信号Y_k(m)，其中n＝0，1，...是时间索引，k＝1，...，K，m＝0，1，...，∞，k是子带编号，并且m是每个子带信号的时间索引。分析滤波器组2将音频信号从时域转变到频域中的多个子带。

子带信号被提供到降噪设备或功能(″语音增强″)4，噪声水平估计器或估计功能(″噪声水平估计器″)6，和噪声水平估计器调整器或调整功能(″噪声水平调整″)(″NLA″)8。

响应于输入子带信号并且响应于噪声水平调整8的经调整的估计噪声水平输出，语音增强4控制增益比例系数GNR_k(m)，该增益比例系数按比例决定子带信号的幅度。通过乘法器符号10象征性地示出增益比例系数到子带信号的这种应用。为了表示清楚，附图示出了产生增益比例系数并仅将其应用于多个子带信号中的一个子带信号(k)的细节。

增益比例系数GNR_k(m)的值由语音增强4控制，使得由噪声分量主导的子带被强烈抑制，同时由语音主导的那些子带被保持。语音增强4可以被认为是具有″抑制规则″设备或功能12，其响应于子带信号Y_k(m)和从噪声水平调整8输出的经调整的估计噪声水平来产生增益比例系数GNR_k(m)。

语音增强4可以包含语音活动检测器或检测功能(VAD)(未示出)，其响应于输入子带信号而确定语音是否存在于有噪声语音信号y(n)中，从而例如当语音存在时提供VAD＝1输出，当语音不存在时提供VAD＝0输出。如果语音增强4是基于VAD的设备或功能，则需要VAD。否则，可不需要VAD。

通过将增益比例系数GNR_k(m)应用到非增强的输入子带信号Y_k(m)来提供增强的子带语音信号Y_k(m)。这可以被表示成：

Y_k(m)＝GNR_k(m)·Y_k(m)(1)

圆点符号(″·″)表示乘法。

接着，通过使用产生增强语音信号y(n)的合成滤波器组设备或过程(″合成滤波器组″)14，将所处理的子带信号Y_k(m)变换到时域。合成滤波器组将所处理的音频信号从频域转变到时域。

应当理解，可以以与如图1和5所示的方式不同的方式组合或单独示出在这里的各个例子中示出和描述的各种设备、功能和过程。例如，尽管语音增强4、噪声水平估计器6和噪声水平调整8被示出为单独设备或功能，但实际上它们可以以各种方式被组合。此外，例如，当通过计算机软件指令序列实现时，各功能可以通过在适当数字信号处理硬件中运行的多线程软件指令序列来实现，在这样的情况下，附图中示出的例子中的各种设备和功能可以对应于各部分的软件指令。

子带音频设备和过程可以使用模拟或数字技术，或者两种技术的混合。子带滤波器组可以通过数字带通滤波器组或通过模拟带通滤波器组来实现。对于数字带通滤波器，在滤波之前采样输入信号。样本通过数字滤波器组，并且接着被下采样以获得子带信号。每个子带信号包括表示一部分输入信号谱的样本。对于模拟带通滤波器，输入信号被分成若干模拟信号，其中每个模拟信号具有对应于滤波器组带通滤波器带宽的带宽。子带模拟信号能够保持模拟形式，或通过采样和量化被变换成数字形式。

也可以使用实现若干时域到频域变换中的任何一个、充当数字带通滤波器组的转换编码器来导出子带音频信号。所采样的输入信号在滤波之前被分成″信号样本块″。一或多个相邻变换系数或容器(bin)能够被组合在一起，以定义具有有效带宽的″子带″，该有效带宽是各个变换系数带宽的和。

尽管可以使用模拟或数字技术或这样的技术的混合方案来实现本发明，但使用数字技术更方便实现本发明，并且这里公开的优选实施例是数字实现。因而，分析滤波器组2和合成滤波器组14可以分别通过任何适当的滤波器组和逆滤波器组或变换和逆变换来实现。

尽管增益比例系数GNR_k(m)被示出为乘法性地控制子带幅度，但本领域普通技术人员理解，可以使用等同的加法/减法的方案。

语音增强4

各种谱增强设备和功能可用于实现本发明的实际实施例中的语音增强4。在这样的谱增强设备和功能中，有使用基于VAD的噪声水平估计器的那些增强设备和功能，和使用基于统计的噪声水平估计器的那些增强设备和功能。这些有用的谱增强设备和功能可以包含在前面列出的参考文献1、2、3、6和7中以及在下面的两个美国临时专利申请中描述的那些增强设备和功能：

(1)″Noise Variance Estimator for Speech Enhancement″，RongshanYu，S.N.60/918,964，2007年3月19日提交；和

(2)″Speech Enhancement Employing a Perceptual Model″，RongshanYu，S.N.60/918,986，2007年3月19日提交。

其它谱增强设备和功能也可以被使用。任何具体谱增强设备或功能的选择不是本发明的关键。

由于语音增强增益因子的目的是抑制噪声，所以语音增强增益因子GNR_k(m)可以被称为″抑制增益″。控制抑制增益的一种方式被称作″谱减法″(参考文献[1]、[2]和[7])，其中应用于子带信号Y_k(m)的抑制增益GNR_k(m)可以被表示成：

${GNR}_{k} (m) = \sqrt{1 - α \frac{λ_{k} (m)}{{| Y_{k} (m) |}^{2}}}, - - - (2)$

其中|Y_k(m)|是子带信号Y_k(m)的幅度，λ_k(m)是子带k中的噪声能量，并且α＞1是选择来保证应用充分的抑制增益的″过减法(over subtraction)″系数。在参考文献[7]第2页和参考文献6第127页中也说明了″过减法″。

为了确定抑制增益的适当量值，重要的是对传入信号中子带的噪声能量有准确估计。然而，当噪声信号与传入信号中的语音信号混合在一起时，准确估计并不是普通的任务。解决这个问题的一种方式是使用基于语音活动检测的噪声水平估计器，该噪声水平估计器使用独立语音活动检测器(VAD)来确定语音信号是否存在于传入信号中。已知有许多语音活动检测器和检测器功能。在参考文献[17]第10章及其参考书目中描述了适合的这种设备或功能。任何具体语音活动检测器的使用不是本发明的关键。在语音不存在(VAD＝0)的时间段内更新噪声能量。例如，参见参考文献[3]。在这种噪声估计器中，时间m的噪声能量估计λ_k(m)可以通过下式提供：

$λ_{k} (m) = (\begin{matrix} {βλ}_{k} (m - 1) + (1 - β) {| Y_{k} (m) |}^{2} & VAD = 0; \\ λ_{k} (m - 1) & VAD = 1 . \end{matrix}) - - - (3)$

噪声能量估计的初值λ_k(-1)可以被设置成零，或被设置成在过程的初始化阶段测量的噪声能量。参数β是具有0＜＜β＜1的值的平滑因子。当语音不存在(VAD＝0)时，可以通过对输入信号Y_k(m)的功率执行一阶时间平滑器(smoother)操作(有时称作″泄漏积分器″)(这个例子中为求平方)来获得噪声能量的估计。平滑因子β可以是略微小于1的正数值。通常，对于固定输入信号，接近1的β值会导致更准确的估计。另一方面，值β不应过于接近1，以避免当该输入变得不固定时，失去跟踪噪声能量的变化的能力。在本发明的实际实施例中，发现β＝0.98的值以提供令人满意的结果。然而，这个值不是关键。也可以通过使用更复杂的时间平滑器来估计噪声能量，其中时间平滑器可以是非线性或线性的(例如多极低通滤波器)。

存在基于VAD的噪声水平估计器低估噪声水平的趋势。图2是基于VAD的噪声水平估计器的噪声水平低估问题的理想化图解。为了表示的简单，在这个附图以及相关的图3和4中示出处于固定水平的噪声。在图2中，实际噪声水平在时间m₀处从λ₀增加到λ₁。然而，由于语音在从m＝0开始的图2所示的整个时间段内存在(VAD＝1)，所以基于VAD的噪声估计器当实际噪声水平在时间m₀处增加时不更新噪声水平估计。因此，对于m＞m₀，噪声水平被低估。如果未解决噪声水平低估问题，则噪声水平低估导致传入噪声信号中的噪声分量的抑制量不足。结果，在所增强的语音信号中出现令收听者讨厌的强残留噪声。

可以通过使用不同噪声水平估计过程，例如参考文献[7]的最小统计过程，在某种程度上改进噪声水平低估问题。在原理上，最小统计过程记录每个子带的历史样本，并且基于来自记录的最小信号水平样本估计噪声水平。这种方法后面的原理是：语音信号通常是开/关过程并且自然地具有暂停。另外，当语音信号出现时，信号水平通常比较高。因此，在该记录的时间足够长的情况下，来自记录的最小信号水平样本可能是来自语音暂停部分，并且根据这样的样本能够可靠地估计噪声水平。由于最小统计方法不依赖于显式VAD检测，所以较少经历上述噪声水平低估问题。如果回到图2所示的例子，并且假定最小统计过程在其记录中记录W个样本，如图3所示，其中图3示出具有最小统计过程的噪声水平低估问题的解决方案，其中在m＞m₀+W之后，从时间m＜m₀开始的所有样品会被从记录中移出。因此，噪声估计完全基于从m≥m₀开始的样本，据此，可以获得更准确的噪声水平估计。因而，最小统计过程的使用提供了对噪声水平低估的问题的某种改进。

根据本发明的各方面，对估计噪声水平进行适当调整以克服噪声水平低估的问题。如通过噪声水平调整设备或图1的例子中的过程8可以提供的，这种调整可以和使用基于VAD的或最小统计型的噪声水平估计器的语音增强设备和过程，或估计器功能一起使用。

再次参照图1，噪声水平调整8监视多个子带中的每个子带中的能量水平大于每个这样的子带中的估计噪声能量水平的时间。接着，噪声水平调整8在时间段长于预定最大值的情况下判定噪声水平被低估，并且将噪声能量水平估计增加例如3dB的小预定调整步长。噪声水平调整8重复地增加估计噪声水平，直到所测量的时间段不再超过最大时间段，导致在多数情况下噪声水平估计比实际噪声水平多出不大于调整步长的量。

噪声水平调整8测量输入信号η_k(m)的能量如下：

η_k(m)＝κη_k(m-1)+(1-κ)|Y_k(m)|²，(4)

其中κ是具有0＜＜κ＜1的值的平滑因子。输入信号η_k(-1)的初值可以被设置成零。参数κ充当与算式(3)中的参数β相同的角色。然而，由于输入信号的能量通常在语音出现时快速变化，所以κ可以被设置成略微小于β的值。尽管κ的值不是本发明的关键，但是发现κ＝0.9提供满意的结果。

参数d_k表示一段时间，在该时间内传入信号具有超过子带k的估计噪声水平的水平。在每个时间m处，如同下述算式5那样进行更新。像在任何数字系统中那样，每个m的时间段由子带的采样速率决定。所以其可以根据输入信号的采样速率和所使用的滤波器组变化。在实际的实施中，每个m的时间段是1(s)/8000＊32＝4ms(8000kHz语音信号和具有下采样因子32的滤波器组)。

其中μ是预定常数，并且在过程的初始化阶段，d_k被设置成0。这里h_k是切换计数器，其被引入以提高过程的健壮性，其在每个时间索引m处计算如下：

其中h_max是预定整数，并且h_k在过程的初始化阶段也被设置成零。参数μ是大于1的常数，以在与传入信号的水平相比较时增加估计噪声水平，从而避免任何可能的假报警(即，由于信号波动，造成传入信号的水平临时少量超过估计噪声水平)。在实际实施例中，发现μ＝2是有用值。参数μ的值不是本发明的关键。类似地，由于在传入信号的水平由于信号波动临时低于估计噪声时我们也希望避免计数器d_k的复位，所以引入了切换计数器。在实际实施例中，发现h_max＝5或20ms的最大切换周期是有用值。参数h_max的值不是本发明的关键。

如果噪声水平调整8检测出d_k大于预先选定的最大时长D(通常为大于正常语音中音素的最大可能时长的某个值)，则判定子带k的噪声水平被低估。在本发明的实际实施例中，发现D＝150或600ms的值是有用值。参数D的值不是本发明的关键。在这种情况下，噪声水平调整8更新子带k的估计噪声水平如下：

λ′_k(m)←a·λ′_k(m)，(7)

其中α＞1是预定调整步长，并且将计数器d_k复位为零。另外，保持λ_k′(m)的值不变。α的值决定调整之后噪声水平估计的准确度和检测到噪声水平低估时调整的速度之间的平衡。在本发明的实际实施例中，发现α＝2或3dB的值是有用值。参数α的值不是本发明的关键。在图5中示出了适用于噪声水平调整8的过程的例子的流程图。图5的流程图示出了图1的示例性实施例之下的过程。最终步骤指示时间索引m接着前进一(″m←m+1″)，并且重复图5的过程。如果条件η_k(m)＞μλ_k’(m)被ξ_k＞1+μ替代，则流程图也应用于本发明的可选实现。

当噪声水平低估出现时，噪声水平调整8保持增加估计噪声水平，直到d_k具有小于D的值。在这种情况下，估计噪声水平λ_k′(m)具有值：

λ_k≤λ′_k(m)＜a·λ_k，(8)

其中λ_k是传入信号中的实际噪声水平。上述第二个不等式源于一旦λ_k′(m)具有大于λ_k的值，则噪声水平调整8就停止增加估计噪声水平的事实。

作为可选的实现，利用这样的事实：许多语音增强过程实际地估计每个子带的信噪比(SNR)ξ_k，当信噪比在过长时间段持久地具有大值的情况下，信噪比也提供噪声水平低估的良好指示。因此，上述过程中的条件η_k(m)＞μλ_k′(m)可以被ξ_k＞1+μ替代，并且剩下的过程保持不变。

最终，可以使用如图2和3中那样的相同例子，来说明本发明如何解决噪声水平低估的问题。如图4所示，由于实际噪声水平在时间m0处从λ₀增加到λ₁，所以噪声水平调整8检测出在时间m₀之后，传入信号具有持久地高于估计噪声水平的水平。结果，噪声水平调整8增加时间m₀+kD处的估计噪声水平，直到估计噪声水平估计足够接近实际噪声水平λ₁，其中k＝1，2，...。在这个具体例子中，当估计噪声水平具有略微大于λ₁的值a³λ′₀时，这种情况在m＞m₀+3D之后发生。通过比较图2和3，发现本发明提供了更准确的噪声估计，因而提供了改进的增强语音输出。

实现

本发明可以通过硬件或软件、或两者的组合(例如，可编程逻辑阵列)来实现。除非另外规定，否则作为本发明的一部分包含的过程不固有地与任何具体计算机或其它装置相关。具体地，各种通用机器可用于根据这里的指导编写的程序，或各种通用机器可以更方便地构造执行所需方法步骤的更专用的装置。因而，可以在执行于一或多个可编程计算机系统上的一或多个计算机程序中实现本发明，每个可编程计算机包括至少一个处理器、至少一个数据存储系统(包含易失和非易失存储器和/或存储单元)、至少一个输入设备或端口和至少一个输出设备或端口。程序代码被应用于输入数据，以执行这里描述的功能并且产生输出信息。以所知方式将输出信息应用于一或多个输出设备。

可以以任何所期望的计算机语言(包含机器、汇编或高级程序、逻辑或面向对象编程语言)来实现每个这种程序，以与计算机系统通信。总之，语言可以是编译或解释语言。

每个这种计算机程序优选地被存储或下载到通用或专用可编程计算机可读的存储介质或设备(例如，固态存储器或介质，或磁或光学介质)，用于当存储介质或设备被计算机系统读取以执行这里描述的过程时，配置和操作该计算机。发明系统也可以被考虑实现成配有计算机程序的计算机可读存储介质，其中这样配置的存储介质使计算机系统以特定和预定的方式操作以执行这里描述的功能。

描述了本发明的若干实施例。然而，应当理解可以在不偏离本发明的实质和范围的前提下进行各种修改。例如，这里描述的某些步骤可以是顺序无关的，并且因而可以以不同于所描述的顺序的方式执行。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 通过噪声水平估计调整进行的语音增强 [P] . 中国专利： CN101802909B . 2013.07.10
2. 通过噪声水平估计调整进行的语音增强 [P] . 中国专利： CN101802909A . 2010-08-11
3. SPEECH ENHANCEMENT WITH NOISE LEVEL ESTIMATION ADJUSTMENT [P] . 欧洲知识产权局专利： EP2191465B1 . 2011-03-09

机译：噪声水平估计调整的语音增强
4. SPEECH ENHANCEMENT WITH NOISE LEVEL ESTIMATION ADJUSTMENT [P] . 欧洲知识产权局专利： EP2191465A1 . 2010-06-02

机译：噪声水平估计调整的语音增强
5. SPEECH ENHANCEMENT WITH NOISE LEVEL ESTIMATION ADJUSTMENT [P] . 世界知识产权组织专利： WO2009035613A1 . 2009-03-19

机译：噪声水平估计调整的语音增强