首页> 中国专利> 通过使用与频谱有关的指数增益函数平均进行的频谱相减而减小信号噪声

通过使用与频谱有关的指数增益函数平均进行的频谱相减而减小信号噪声

摘要

噪声减小系统中用于提供语音增强的方法和设备,包括使用线性卷积、因果滤波和/或频谱相减增益函数的频谱有关的指数平均的频谱相减算法。按照示例性实施例,频谱相减增益函数的连续块根据有噪声的语音信号的频谱密度的估值和有噪声的语音信号的噪声分量的频谱密度的平均估值而被平均。增益函数的连续块被例如通过使用控制的指数平均被平均。控制是例如通过制做反比于差异的指数平均存储器而被提供的。替换地,平均存储器可被做成随差异减小而成正比增长,以及随差异增加而成指数衰减,以便防止可听到的模糊的话音。

著录项

  • 公开/公告号CN1310840A

    专利类型发明专利

  • 公开/公告日2001-08-29

    原文格式PDF

  • 申请/专利权人 艾利森电话股份有限公司;

    申请/专利号CN99808987.7

  • 申请日1999-05-27

  • 分类号G10L21/00;G10L21/02;

  • 代理机构72001 中国专利代理(香港)有限公司;

  • 代理人程天正;傅康

  • 地址 瑞典斯德哥尔摩

  • 入库时间 2023-12-17 14:02:43

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2011-08-03

    未缴年费专利权终止 IPC(主分类):G10L21/02 授权公告日:20040114 终止日期:20100527 申请日:19990527

    专利权的终止

  • 2004-01-14

    授权

    授权

  • 2001-09-05

    实质审查的生效

    实质审查的生效

  • 2001-08-29

    公开

    公开

说明书

发明领域

本发明涉及通信系统,更具体地,涉及用于减小通信信号中破坏性的背景噪声分量的影响的方法和设备。

发明背景

今天,移动电话和其它通信设备中免提装置的使用正日益增长。与免提解决方案有关的、熟知的问题(特别是在汽车应用中)是关于在免提话筒处拾取和被发送到远端用户的破坏性背景噪声的问题。换句话说,由于免提话筒与近端用户之间的距离可能相当大,所以免提话筒不单拾取近端用户的语音,也拾取在近端位置处可能存在的任何噪声。例如,在汽车电话应用中,近端话筒典型地拾取周围的交通、道路和行人的分门别类的噪声。最终的有噪声的近端语音对于远端用户而言可能是很烦人的或甚至是不可容忍的。因此,希望背景噪声尽可能地减小,最好是尽早地在近端信号处理链中被减小(例如,在接收的近端话筒信号被输入到近端语音编码器之前)。

结果,许多免提系统都包括用来消除在近端信号处理链的输入端处的背景噪声的噪声减小处理器。图1是这样的免提系统100的高层的方框图。在图1上,噪声减小处理器110被放置在免提话筒120的输出端和近端信号处理通路(未示出)的输入端。在运行时,噪声减小处理器110接收来自话筒120的有噪声的语音信号x,以及处理该有噪声的语音信号x,以便提供较干净的、噪声减小的语音信号SNR,SNR被传送通过近端信号处理链,最后送给远端用户。

图1的用于实施噪声减小处理器110的一个熟知的方法在技术上被称为频谱相减。例如,参阅S.F.Boll的“Suppression of AcousticNoise in Speech using Spectral Subtraction(通过使用频谱相减来抑制语音中的声音噪声)”IEEE Trans.Acoust.Speech and Sig.Proc.,27:113-120,1979,该论文在此引用以供参考。通常,频谱相减使用噪声频谱和有噪声的语音频谱的估计来形成基于信号-噪声比(SNR)的增益函数,该增益函数与输入频谱相乘,以便抑制具有低SNR的频率。虽然频谱相减确实提供了显著的噪声减小,但它有几个熟知的缺点。例如,频谱相减输出信号典型地包含一种在技术上称为音乐音的人工产物,而且,从远端用户看来,被处理的信号块之间的不连续性常常导致降低的语音质量。

近年来已开发了许多对于基本频谱相减方法进行改进的方案。例如,参阅N.Virage的“Speech Enhancement Based on MaskingProperties ofthe Auditory System(基于听觉系统的遮蔽特性的语音改善)”,IEEE ICASSP.Proc.796-799 vol.1,1995;D.Tsoukalas,M.Paraskevas和J.Mourjopoulos的“Speech Enhancement usingPsychoacoustic Criteria(使用心理声音准则的语音改善)”,IEEEICASSP.Proc.,359-362 vol.2,1993;F.Xie and D.Van Compernolle的“Speech Enhancement by Spectral Magnitude Estimation-AUnifying Approach(通过频谱幅度估值的语音改善-统一方法)”,IEEESpeech Communication(IEEE语音通信),89-104 vol.19,1996;R.Martin的“Spectral Subtraction Based on Minimum Statistics(基于最小统计的频谱相减)”,UESIPCO,Proc.,1182-1185 vol.2,1995;以及S.M.McOlash,R.J.Niederjohn和J.A.Heinen的“A SpectralSubtraction Method for Enhancement of Speech Corrupted byNonwhite,Nonstationary Noise(用于改善被非白、非平稳噪声污染的语音的频谱相减方法)”,IEEE IECON.Proc.,872-877 vol.2,1995。

虽然这些方法确实提供了各种程度的语音改善,但无论如何,如果能够开发用于解决上述与音乐音和块间不连续性有关的频谱相减问题的替换技术,仍将是有利的。因此,需要一种用于通过频谱相减进行噪声减小的改进的方法和设备。

发明概要

本发明通过提供一些用于通过频谱相减进行噪声减小的改进的方法和设备而满足上述的和其它需要。按照示例性实施例,通过使用线性卷积、因果滤波和/或频谱相减增益函数的与频谱有关的指数平均,来实行频谱相减。有利地,按照本发明构建的系统,比起现有技术的系统来说,给出了大大改进的语音质量而不引入过度的复杂性。

按照本发明,开发了低阶频谱估计,它比起传统的频谱相减系统中的频谱估计具有较低的频率分辨率和减小的方差。按照本发明的频谱被使用来形成具有想要的低方差的增益函数,这个增益函数进而又减小了频谱相减输出信号中的音乐音。按照示例性实施例,通过使用与输入频谱有关的指数平均来使增益函数在块间进一步被平滑。低分辨率的增益函数被内插到全部块长度的增益函数中,但仍然相应于低阶长度的滤波。有利地,低阶的增益函数允许相位在内插期间被添加。按照示例性实施例,增益函数的相位可以是线性相位或最小相位,它使得增益滤波器是因果的,以及阻止了块之间的不连续性。在示例性实施例中,因果滤波器与输入信号频谱相乘,以及通过使用重叠和相加技术来装配这些块。而且,帧的长度被做得尽可能小,以便减小引入的延时而不引入频谱估计中的过度的变化。

在一个示例性实施例中,一种噪声减小系统包括频谱相减处理器,用来滤波有噪声的输入信号以给出噪声减小的输出信号,其中频谱相减处理器的增益函数根据输入信号的频谱密度的估值和根据输入信号的噪声分量的频谱密度的平均估值而被计算,以及其中增益函数的连续样本块被平均。例如,频谱相减增益函数的连续块可以根据输入信号的频谱密度的估值与输入信号的噪声分量的频谱密度的平均估值之间的差异被平均。

按照示例性实施例,通过使用控制的指数平均,把连续的增益函数块进行平均。控制是通过例如制做反比于差异的指数平均的存储器而被提供的。替换地,平均存储器可被制做成随差异减小成正比增长,而随差异的增加成指数衰减,以便防止可听到的模糊的话音。

按照本发明的示例性方法包括以下步骤:计算输入信号的频谱密度的估值和输入信号的噪声分量的频谱密度的平均估值,以及使用频谱相减来根据有噪声的输入信号计算噪声减小的输出信号。按照示例性方法,在使用频谱相减的步骤中所用的增益函数的连续块被平均。例如,平均可以是根据输入信号的频谱密度的估值和噪声分量的频谱密度的平均估值之间的差异来进行的。

下面参照附图上所示的说明性实例,详细地描述本发明的上述及其它特征和优点。本领域技术人员将会看到,所描述的实施例是为了说明和了解的目的而提供的,以及这里可能会有多个等价的实施例。

附图简述

图1是其中可实施本发明的教导的噪声减小系统的方框图。

图2显示了传统的频谱相减噪声减小处理器。

图3-4显示了按照本发明的示例性频谱相减噪声减小处理器。

图5显示了通过使用按照本发明的频谱相减技术而得到的示例的频谱图。

图6-7显示了通过使用按照本发明的频谱相减技术而得到的示例的增益函数。

图8-28显示了按照本发明的示例的频谱相减技术的仿真。

发明详细描述

为了了解本发明的各种特征和优点,首先考虑传统的频谱相减技术是有用的。一般地,频谱相减是根据这样的假设而建立的,即,在通信应用中的噪声信号和语音信号是随机的、不相关的,以及它们被相加在一起形成有噪声的语音信号。例如,如果s(n)、w(n)和x(n)是分别代表语音、噪声和有噪声的语音的随机的短时间平稳过程,则:

x(n)=s(n)+w(n)    (1)

Rx(f)=Rs(f)+Rw(f) (2)其中R(f)表示随机过程的功率谱密度。

噪声功率谱密度Rw(f)可以在语音暂停期间被估值(即,其中x(n)=w(n))。为了估计语音的功率谱密度,估值被形成为: >>>>R>^>>S>>(>f>)>=>>>R>^>>x>>(>f>)>->>>R>^>>w>>(>f>)>->->->->->->>(>3>)>>>s>

估计功率谱密度的传统方法是使用周期图。例如,如果XN(fu)是x(n)的N长度傅里叶变换,以及WN(fu)是w(n)的相应傅里叶变换,则: >>>>R>^>>x>>(>>f>x>>)>=>>P>>x>,>N>>>>>(>f>>u>>)>=>>1>N>>>>|>>X>N>>(>>f>u>>)>|>>2>>,>>f>u>>=>>u>N>>,>u>=>0>,>.>.>.>,>N>->1>->->->->->->>(>4>)>>>s> >>>>R>^>>w>>(>>f>u>>)>=>>P>>w>,>N>>>(>>f>u>>)>=>>1>N>>>>|>>W>N>>>>(>f>>u>>)>|>>2>>,>>f>u>>=>>u>N>>,>u>=>0>,>.>.>.>,>N>->1>->->->->->->>(>5>)>>>s>式(3)、(4)和(5)可被组合来得到:

|SN(fu)|2=|XN(fu)|2-|WN(fu)|2    (6)替换地,更一般的形式被给出为:

|Sn(fu)|a=|XN(fu)|a-|WN(fu)|a    (7)

其中功率谱密度被调换为谱密度的一般形式。

由于人耳对语音的相位误差不敏感,所以有噪声的语音相位φx(f)可以作为干净的语音相位的近似值φs(f)被使用:

φs(fu)≈φx(fu)                  (8)

用于估计干净语音的傅里叶变换的一般表示式因此被形成为: >>>S>N>>(>>f>u>>)>=>(>>>|>>X>N>>(>>f>u>>)>|>>a>>->k>·>>>|>>W>N>>>>(>f>>u>>)>|>>a>>>)>>1>a>>>·>>e>>j>>φ>x>>(>>f>k>>)>>>->->->->->->>(>9>)>>>s>

其中参量k被引入来控制噪声相减量。

为了简化表示法,引入向量形式:

向量按逐个元素被计算。为简明起见,向量的逐个元素的乘法在这里用⊙表示。这样,通过采用增益函数GN和使用向量表示法,式(9)可被写为:

其中增益函数被给出为: >>>G>N>>=>>>(>>>>>|>>X>N>>|>>a>>->k>·>>>|>>W>N>>|>>a>>>>>>>|>X>>N>>|>>a>>>)>>>1>a>>>=>>>(>1>->k>·>>>>|>>W>N>>|>>a>>>>>>|>>X>N>>|>>a>>>>>)>>>1>a>>>->->->->->->>(>12>)>>>s>

式(12)代表传统的频谱相减算法,如图2所示。在图2上,传统的频谱相减噪声减小处理器200包括快速傅里叶变换处理器210、幅度平方处理器220、话音活动性检测器230、块方式平均装置240、块方式增益计算处理器250、乘法器260和快速傅里叶反变换处理器270。

如上所述,有噪声的语音输入信号被耦合到快速傅里叶变换处理器210的输入端,以及快速傅里叶变换处理器210的输出被耦合到幅度平方处理器220的输入端和乘法器260的第一输入端。幅度平方处理器220的输出被耦合到开关225的第一触片和增益计算处理器250的第一输入端。话音活动性检测器230的输出被耦合到开关225的推动输入端,以及开关225的第二触片被耦合到块方式平均装置240的输入端。块方式平均装置240的输出被耦合到增益计算处理器250的第二输入端,以及增益计算处理器250的输出端被耦合到乘法器260的第二输入端。乘法器260的输出端被耦合到快速傅里叶反变换处理器270的输入端,以及快速傅里叶反变换处理器270的输出提供传统的频谱相减系统200的输出。

在运行时,传统的频谱相减系统200通过使用上述的传统的频谱相减算法来处理进入的有噪声的语音信号,以便提供更干净的、噪声减小的语音信号。实际上,图2的各个部分可以通过使用任何的已知数字信号处理技术来实施,包括通用的计算机、一批集成电路和/或专用集成电路(ASIC)。

应当指出,在传统的频谱相减算法中,有两个参量:a和k,它们控制噪声相减量和语音质量。设定第一个参量为a=2可提供功率频谱相减,而设定第一个参量为a=1可提供幅度频谱相减。另外,设定第一个参量为a=0.5可产生噪声减小量的增加而同时仅仅使得语音适度地失真。这是由于在噪声从有噪声的语音中被减去以前频谱已被压缩。

第二参量k被调节,以使得达到期望的噪声减小。例如,如果选择大的k,则语音失真增加。实际上,参量k典型地根据第一参量a被如何选择而被设定。a的减小典型地也导致k参量的减小,以保持失真很低的语音。在功率频谱相减的情况下,通常使用过相减(即,k>1)。

传统的频谱相减增益函数(见式(12))是从全部块估值得到的,以及具有零相位。结果,相应的冲激响应gN(u)是非因果的,以及具有长度N(等于块长度)。所以,增益函数GN(l)和输入信号XN相乘(见式(11))导致具有非因果滤波的周期循环卷积。如上所述,周期循环卷积在时域上会导致不想要的混迭,以及滤波的非因果特性会导致块间的不连续性,从而导致较差的语音质量。有利地,本发明给出用于提供带有因果增益滤波的正确卷积的方法和设备,由此消除了上述的时域混迭和块间不连续性的问题。

对于时域混迭问题,应注意到,在时域上的卷积相应于频域上的相乘。换句话说:

x(u)*y(u)-X(f)·Y(f),u=-∞,…,∞    (13)

当变换是从长度N的快速傅里叶变换(FFT)得出时,相乘的结果不是正确的卷积。相反地,结果为带有N的周期性的循环卷积:

其中符号表示循环卷积。

为了在使用快速傅里叶变换时得出正确的卷积,冲激响应xN和yN的累积阶数必须小于或等于块长度减1,即N-1。

这样,按照本发明,由于周期循环卷积造成的时域混迭问题可以通过使用增益函数GN(l)和具有小于或等于N-1的总阶数的输入信号块XN而被解决。

按照传统的频谱相减,输入信号的频谱XN具有全部块长度N。然而,按照本发明,长度L(L<N)的输入信号块xL被使用来构建L阶的频谱。长度L被称为帧长度,因此xL是一帧。由于与长度N的增益函数相乘的频谱也是具有长度N,所以帧xL是用零填充到全部块长度N而导致XL↑N

为了构建长度N的增益函数,按照本发明的增益函数可以从长度M的增益函数GM(l)被内插以形成GM↑N(l),其中M<N。为了得到按照本发明的低阶增益函数GM↑N(l),可以使用任何已知的或还在开发的频谱估计技术来作为对上述简单的傅里叶变换周期图的替换例。几种已知的频谱估计技术提供了结果的增益函数中的较低的方差。例如,参阅J.G.Proakis和D.G.Manolakis的“Digital Signal Processing:Principles,Algorithms,and Applications(数字信号处理:原理,算法和应用)”,Macmillan,Second Ed.,1992。

例如,按照熟知的Bartlett方法,长度N的块被划分成K个长度M的子块。每个子块的周期图然后被计算,以及其结果被平均以给出对于整个块的M长的周期图为: >>>P>>x>,>M>>>(>>f>u>>)>=>>1>K> >Σ>>K>=>0>>>K>->1> >>P>>x>,>M>,>k>>>>>(>f>>u>>)>,>>f>u>>=>>u>M>>,>u>=>0>,>.>.>.>,>M>->1>>s>

有利地,当子块是不相关时,比起全部块长度周期图方差减小K倍。频率分辨率也减小相同的倍数。

替换地,可以使用Welch方法。除了每个子块用Hanning窗加上窗口以及允许子块互相重叠以产生更多的子块外,Welch方法类似于Bartlett方法。由Welch方法提供的方差与Bartlett方法相比被进一步减小。Bartlett和Welch方法只是两种频谱估值方法,也可以使用其它已知的频谱估值技术。

不考虑实施的精确频谱估值技术,甚至进一步通过使用平均技术,也有可能和有希望减小噪声周期图估值的方差。例如,在噪声是长期平稳的假设下,有可能平均从上述的Bartlett和Welch方法造成的周期图。一种技术利用的指数平均为:

Px,M(l)=α·Px,M(l-1)+(1-α)·Px,M(l)    (16)

在式(16)中,通过使用Bartlett或Welch方法计算函数Px,M(l),函数Px,M(l)是当前决的指数平均,以及函数Px,M(l-1)是先前块的指数平均。参量α控制指数存储器的长度,以及典型地不应当超过可以认为噪声是平稳的那个长度。更接近于1的α导致更长的指数存储器以及周期图方差的显著减小。

长度M被称为子块长度,以及产生的低阶增益函数具有长度M的冲激响应。因此,在增益函数的组合中利用的噪声周期图估值PxL,M(l)和有噪声的语音周期图估值PxL,M(l)也具有长度M: >>>G>M>>(>l>)>=>>>(>1>->k>·>>sup>>>P>_>>>>x>L>>·>M>>asup>>(>l>)>>sup>>P>>>x>L>>·>M>>asup>>(>l>)>>>)>>>1>a>>>->->->->->->>(>17>)>>>s>

按照本发明,这是通过使用来自输入帧XL的较短的周期图估值和使用例如Bartlett方法的平均而达到的。Bartlett方法(或其它适当的估值方法)减小了估值的周期图的方差,以及频率分辨率也有减小。从L个频率接收器到M个频率接收器的分辨率的减小,意味着周期图估值PxL,M(l)也是具有长度M的。另外,噪声周期图估值PxL,M(l)通过使用如上所述的指数平均可以进一步减小。

为了满足总的阶数小于或等于N-1的要求,要使得被加到子块长度M的帧的长度L小于N。因此,有可能形成想要的输出块为:

SN=GMIN(l)⊙ XLIN    (18)

有利地,按照本发明的低阶滤波器也提供了机会去解决在传统的频谱相减算法中由增益滤波器的非因果性质造成的问题(即,块间不连续性和降低的语音质量)。具体地,按照本发明,可以把相位加到增益函数中以提供因果滤波器。按照示例性实施例,相位可以根据幅度函数被构建,以及可以是(按所想要的)线性相位或最小相位。

为了构建按照本发明的线性相位滤波器,首先观察,如果FFT的块长度是长度M,则在时域上的循环移位是在频域上的与相位函数的相乘: >>g>(>n>->l>>)>M>>->>G>M>>(>>f>u>>)>·>>e>>->j>2>πullM>>>,>>f>u>>=>>u>M>>,>u>=>0>,>.>.>.>,>M>->1>->->->->->->(>19>)>>s>

在当前的情况下,l等于M/2+l,因为冲激响应中的第一位置具有零延时(即,因果滤波器)。所以: >>g>(>n>->(>M>/>2>+>1>)>>)>M>>·>>G>M>>>>(>f>>u>>)>·>>e>>->jπu>(>1>+>>2>M>>)>>>->->->->->->>(>20>)>>>s>以及因此线性相位滤波器GM(fu)被得出为: >>>>G>_>>M>>(>>f>u>>)>=>>G>M>>(>>f>u>>)>·>>e>>->jπu>(>1>+>>2>M>>)>>>->->->->->->(>21>)>>s>

按照本发明,增益函数也被内插成长度N,这是通过例如使用平滑内插完成的。被加到增益函数中的相位随之被改变,导致: >>>>G>_>>>M>|>N>>>(>>f>u>>)>=>>G>>M>|>N>>>(>>f>u>>)>·>>e>>->jπu>(>1>+>>2>M>>)>·>>M>N>>>>->->->->->->(>22>)>>s>

有利地,线性相位滤波器的构建也可以在时域上被实现。在这样的情况下,通过使用IFFT,增益函数GM(fu)被变换到时域,在其中完成循环移位。移位的冲激响应被用零填充到长度N,然后通过使用N长度的FFT被变换回去。这导致所想要的内插因果线性相位滤波器GM↑N(fu)。

按照本发明的因果最小相位滤波器可以通过利用Hilbert变换关系根据增益函数被构建。例如,参阅A.V.Oppenheim和R.W.Schafer的“Discrete-Time Signal Processing(离散时间信号处理)”,Prentic-Hall,Inter.Ed.,1989。Hilbert变换关系是指复函数的实部与虚部之间的唯一关系。有利地,当使用复数信号的对数时,这也可以被利用于幅度与相位之间的关系: >>>ln>(>|>>G>M>>(>>f>u>>)>|>·>>e>>j>·>arg>(>>G>M>>(>>f>u>>)>)>>>)>=>ln>(>|>>G>M>>(>>f>u>>)>|>)>+>ln>(>>e>>j>·>arg>(>>G>M>>(>>f>u>>)>)>>>)>>->->->->->->(>23>)>>s> >>=>ln>(>|>>G>M>>(>>f>u>>)>|>)>+>j>·>arg>(>>G>M>>(>>f>u>>)>)>>s>

在本文中,相位是零,结果是实函数。通过利用长度M的IFFT,函数ln(|GM(fu)|)被变换到时域而形成gM(n)。时域函数被重新安排为:通过使用M长的FFT,函数gM(n)被变换回频域而产生由此,形成函数GM(fu)。因果最小相位滤波GM(fu)然后被内插成长度N。内插是以与上述线性相位情形中相同的方式进行的。产生的内插的滤波器GM↑N(fu)是因果的,以及具有近似的最小相位。

图3显示按照本发明的、上述的频谱相减方案。在图3上,用来提供线性卷积和因果滤波的频谱相减噪声减小处理器300被显示为包括Bartlett处理器305、幅度平方处理器320、话音活动性检测器330、块方式平均处理器340、低阶增益计算处理器350、增益相位处理器355、内插处理器356、乘法器360、快速傅里叶反变换处理器370以及重叠与相加处理器380。

如图所示,有噪声的语音输入信号被耦合到Bartlett处理器305的输入端和快速傅里叶变换处理器310的输入端。Bartlett处理器305的输出被耦合到幅度平方处理器320的输入端以及快速傅里叶变换处理器310的输出被耦合到乘法器360的第一输入端。幅度平方处理器320的输出被耦合到开关325的第一触片和低阶增益计算处理器350的第一输入端。话音活动性检测器330的控制输出端被耦合到开关325的推动输入端,以及开关325的第二触片被耦合到块方式平均装置340的输入端。

块方式平均装置340的输出端被耦合到低阶增益计算处理器350的第二输入端,以及低阶增益计算处理器350的输出被耦合到增益相位处理器355的输入端。增益相位处理器355的输出被耦合到内插处理器356的输入端,以及内插处理器356的输出被耦合到乘法器360的第二输入端。乘法器360的输出被耦合到快速傅里叶反变换处理器370的输入端,以及快速傅里叶反变换处理器370的输出被耦合到重叠和相加处理器380的输入端。重叠和相加处理器380的输出端提供示例的噪声减小处理器300的减小噪声的、干净的语音输出。

在运行时,按照本发明的频谱相减噪声减小处理器300通过使用上述的线性卷积、因果滤波算法来处理进入的有噪声的语音信号,以便提供干净的、噪声减小的语音信号。实际上,图3的各个组成部分可以通过使用任何的已知数字信号处理技术来实施,其中包括通用的计算机、一批集成电路和/或专用集成电路(ASIC)。

有利地,通过根据本发明的控制的指数增益函数平均方案,本发明的增益函数GM(l)的方差可被进一步减小。按照示例性实施例,平均是取决于当前块频谱Px,M(l)与平均的噪声频谱Px,M(l)之间的差异来进行的。例如,当有小的差异时,可以提供增益函数GM(l)的长的平均,相应于平稳背景噪声情形。反之,当有大的差异时,可以提供增益函数GM(l)的短的平均或不进行平均,相应于有语音或背景噪声变化很大的情形。

为了处理从语音时间间隔瞬时切换到背景噪声时间间隔,增益函数的平均不是正比于差异的减小而被增加,因为这样做会引入可听见的模糊的话音(因为适用于语音频谱的增益函数将保持长的时间间隔)。所以作为替代,将允许平均慢慢地增加以提供时间使增益函数适合于平稳输入。

按照示例性实施例,频谱之间的差异度量被规定为, >>β>(>l>)>=>>>>Σ>u>>|>>P>>x>,>M>,>u>>>(>l>)>->>>P>_>>>x>,>M>,>u>>>(>l>)>|>>>>Σ>u>>>>P>_>>>x>,>M>,>u>>>(>l>)>>>->->->->->->(>25>)>>s>其中β(l)被限制为,

以及其中β(l)=1导致增益函数的非指数平均,以及β(l)=βmin提供最大程度的指数平均。

参量β(l)是频谱之间差异的指数平均,被描述为,

β(l)=γ·β(l-1)+(1-γ)·β(l)    (27)

当从频谱之间具有高差异的时间间隔转移到具有低差异的时间间隔的情形出现时,式(27)中的参量γ被使用来确保增益函数适应于新的水平。如上所述,完成这一点是为了防止模糊的话音。按照示例性实施例,适应是在由于β(l)的减小的水平而开始增益函数的增加的指数平均之前完成的。这样:

当差异β(l)增加时,参量β(l)直接随之增加,但当差异减小时,对于β(l)采用指数平均以形成平均的参量β(l)。增益函数的指数平均被描述为:

GM(l)=(1-β(l))·GM(l-1)+β(l)·GM(l)    (29)

以上的等式可以对于不同的输入信号条件解释如下。在噪声期间,方差被减小。只要噪声频谱对于每个频率具有平稳的数值,它可被平均以减小方差。噪声电平改变会导致平均噪声频谱Px,M(l)与当前块的频谱Px,M(l)之间的差异。因此,控制的指数平均方法降低了增益函数平均,直至噪声电平平稳在一个新的水平。这种情形使得能够控制噪声电平改变,以及使得在平稳噪声时间间隔期间的方差减小和提示响应于噪声改变。高能量的语音常常具有时变的频谱峰值。当来自不同块的频谱峰值被平均时,它们的频谱估值包含这些峰值的平均,因此看来像更宽的频谱,这会导致降低的语音质量。这样,在高能量语音时间间隔期间指数平均被保持为最小。由于平均噪声频谱Px,M(l)与当前的高能量语音频谱Px,M(l)之间的差异很大,所以不执行增益函数的指数平均。在低能量语音时间间隔期间,通过短存储器来使用指数平均,短存储器取决于当前低能量语音频谱与平均噪声频谱之间的差异。因此低能量语音的方差减小量比背景噪声时间间隔期间的低,而比高能量语音时间间隔期间的大。

图4上显示按照本发明的、上述的频谱相减方案。在图4上,频谱相减噪声减小处理器400提供线性卷积、因果滤波和控制的指数平均,它被显示为包括图3的系统300的Bartlett处理器305、幅度平方处理器320、话音活动性检测器330、块方式平均装置340、低阶增益计算处理器350、增益相位处理器355、内插处理器356、乘法器360、快速傅里叶反变换处理器370和重叠与相加处理器380,以及平均控制处理器445、指数平均处理器446和可任选的固定FIR后滤波器465。

如图所示,有噪声的语音输入信号被耦合到Bartlett处理器305的输入端和快速傅里叶变换处理器310的输入端。Bartlett处理器305的输出被耦合到幅度平方处理器320的输入端以及快速傅里叶变换处理器310的输出被耦合到乘法器360的第一输入端。幅度平方处理器320的输出被耦合到开关325的第一触片、低阶增益计算处理器350的第一输入端和平均控制处理器445的第一输入端。

话音活动性检测器330的控制输出端被耦合到开关325的推动输入端,以及开关325的第二触片被耦合到块方式平均装置340的输入端。块方式平均装置340的输出端被耦合到低阶增益计算处理器350的第二输入端和平均控制器445的第二输入端。低阶增益计算处理器350的输出端被耦合到指数平均处理器446的信号输入端,以及平均控制器445的输出被耦合到指数平均处理器446的控制输入端。

指数平均处理器446的输出被耦合到增益相位处理器355的输入端,以及增益相位处理器355的输出被耦合到内插处理器356的输入端。内插处理器356的输出被耦合到乘法器360的第二输入端,以及可任选的固定FIR后滤波器465的输出被耦合到乘法器360的第三输入端。乘法器360的输出被耦合到快速傅里叶反变换处理器370的输入端,以及快速傅里叶反变换处理器370的输出被耦合到重叠和相加处理器380的输入端。重叠和相加处理器380的输出端提供示例的系统400的干净的语音信号。

在运行时,按照本发明的频谱相减噪声减小处理器400通过使用上述的线性卷积、因果滤波和控制指数平均算法来处理进入的有噪声的语音信号,以便提供改善的、噪声减小的语音信号。正如图3的实施例那样,图4的各个组成部分可以通过使用任何的已知数字信号处理技术来实施,其中包括通用的计算机、一批集成电路和/或专用集成电路(ASIC)。

应当指出,由于按照示例性实施例,选择帧长度L和子块长度M的总和小于N-1,所以可以加上长度为J≤N-1-L-M的额外的固定FIR滤波器465,如图4所示。后滤波器465是如图所示通过把滤波器的内插冲激响应乘上信号频谱而被实施的。内插到长度N是通过用零填充的滤波器和利用N长度的FFT而实施的。这个后滤波器465可被使用来滤除电话带宽或恒定音调的分量。替换地,后滤波器465的功能可被直接包括在增益函数内。

上述算法的参量实际上根据在其中实施该算法的特定应用而被设定。作为实例,此后针对免提GSM汽车移动电话来描述参量选择。

首先,根据GSM技术规范,帧长度L被设定为160个样本,它提供20毫秒的帧。L的其它选择可被使用于其它系统。然而,应当指出,帧长度L的增加相应于延时的增加。子块长度M(例如,用于Bartlett处理器的周期图长度)被做得很小,以便提供增加的方差减小量M。由于FFT被使用来计算周期图,所以长度M可以方便地被设定为2的幂次。频率分辨率因而被确定为: >>B>=>>>F>s>>M>>->->->->->->(>30>)>>s>

GSM系统的采样速率是8000Hz。这样,长度M=16、M=32、和M=64便分别给出500Hz、250Hz、和125Hz的频率分辨率,如图5所示。在图5上,曲线(a)描绘干净的语音信号的简单周期图,以及曲线(b)、(c)和(d)分别描绘通过使用Bartlett方法用32、16和8个频带计算的干净的语音信号的周期图。250Hz的频率分辨率对于语音和噪声信号是合理的,因此M=32。这便产生长度L+M=160+32=192,如上所述,它应当小于N-1。这样,例如,把N选择为大于192的、2的幂(例如,N=256)。在这种情况下,如果想要的话,可以应用长度J≤63的可任选的FIR后滤波器。

如上所述,噪声相减量由a和k参量控制。参量选择a=0.5(即,频谱相减的平方根)提供强的噪声减小,而同时保持低的语音失真。这被显示在图6中(其中语音加噪声估值是1以及k是1)。从图6上看到,a=0.5与更高的a的数值相比提供更多的噪声减小。为了简明起见,图6只表示了一个频率接收器,并且在后面描述的是针对这个频率接收器的SNR。

按照示例性实施例,当使用a=0.5时,把参量k做得相对较小。在图7上,显示了对于a=0.5(再次地,语音加噪声估值是1)时对于不同k数值的增益函数。当趋近较低的SNR时,增益函数应当连续地减小,这是k≤1时的情况。仿真表明,k=0.7给出低的语音失真,而同时保持高的噪声减小。

如上所述,噪声频谱估值被指数平均,以及参量α控制指数存储器的长度。因为增益函数被平均,对于噪声频谱估值平均的要求将较小。仿真表明,0.6<α<0.9提供了想要的方差减小,产生大约2到10帧的时间常数: >>>τ>frame>>≈>->>1>>ln>α>>>->->->->->->>(>31>)>>>s>

噪声估值的指数平均被选择为,例如,α=0.8。

参量βmin确定增益函数的指数平均的最大时间常数。以秒计的时间常数τβmin被使用来确定βmin为: >>>β>min>>=>1>->>e>>->>L>>>F>s>>·>>τ>>β>min>>>>>>>->->->->->->(>32>)>>s>

2分钟的时间常数对于平稳的噪声信号是合理的,相应于βmin≈0。换句话说,(在式(32)中)对于β(l)不需要有下限,因为β(l)≥0(按照式(25))。

参量γc控制在从语音转换到平稳输入信号时所允许的被控制指数平均存储器的增加速度(即,参照式(27)和(28)允许参量β(l)以怎样的速度减小)。当使用长的存储器完成增益函数的平均时,这会导致模糊的话音,因为增益函数记录了语音频谱。

例如,考虑在有噪声的语音频谱估值PM(l)与噪声频谱估值PM(l)之间的差异从一个极端值变到另一个极端值的极端情形。在第一种情形下,差异是很大的,这样在一段长的时间间隔内对于所有的频率GM(l)≈1。因此,β(l)=β(l)=1。接着,频谱估值被处理成PM(l)=PM(l),为了仿真极端情形,其中β(l)=0和GM(l)=(1-k)1/a。β(l)参量将取决于参量γc而减小到零。因此,参量值为:

β(-1)=1,GM(-1)=1,

β(-1)=1,GM(-1)=1,    (33)

β(l)=0,GM(l)=0.09,l=0,1,2…把已知的参量代入式(27)和(29)中,产生:

β(l)=γc(l+1)        (34)

GM(l)=(1-β(l))·GM(l-1)+0.09·β(l)    (35)

其中l是减小能量后的块数。如果增益函数被选择为在2帧后达到时间常数水平e-1,那么γc≈0.506。图8的曲线(a)和(b)显示对于不同的γc数值的这种极端情形。图8的曲线(c)和(d)也给出了对于能量较慢的减小的更现实的仿真。e-1水平线代表一个时间常数的水平(即,当这个水平被交叉时,一个时间常数已过去)。图9给出使用记录的输入信号的实际仿真的结果,表明γc=0.8是对于防止模糊话音的良好的选择。

此后,给出使用以上提出的参量选择所得到的结果。有利地,仿真结果表明,比起其它的频谱相减方法来说,达到了在语音质量和残余背景噪声质量方面的改进,而同时仍提供了强的噪声减小。增益函数的指数平均主要负责提高残余噪声的质量。正确的卷积与因果滤波相组合,提高总的声音质量,以及有可能得到短的延时。

在仿真时,对于有噪声的语音信号使用了熟知的GSM话音活动性检测器(例如,参阅欧洲数字蜂窝电信系统(阶段2);话音活动性检测(VAD)(GSM 06.32),欧洲电信标准委员会,1994)。在仿真时使用的信号是根据汽车中记录的语音和噪声的分开的记录被组合的。语音记录是在安静的汽车中使用免提设备和模拟电话带宽滤波器进行的。噪声序列是使用相同的设备在运动的汽车中被记录的。

比较所执行的噪声减小与所接收的语音质量。上述的参量选择相对大的噪声减小而言更重视有良好的声音质量。当作出更积极的选择时,得到改进的噪声减小。图10和11分别给出输入的语音和噪声,其中使用1∶1的关系把两个输入相加在一起。图12给出产生的有噪声的输入语音信号。图13显示噪声减小的输出信号。这些结果也可以在能量的意义上被给出,这使得容易计算噪声减小以及如果某些语音时间间隔没有被增强,则也可显露出。图14、15和16分别给出干净的语音、有噪声的语音和在噪声减小后产生的输出语音。如图所示,得到大约13dB的噪声减小。当输入是通过使用语音和汽车噪声以2∶1的关系相加在一起而被形成时,输入SNR的增加是如图17和19给出的。图18和20给出结果的信号,其中可以估计有接近于18dB的噪声减小。

进行了附加的仿真以便清楚地表明具有增益函数的适当的冲激响应长度以及因果性质的重要性。后面给出的序列都是来自长度为30秒的有噪声的语音的。这些序列被表示为来自IFFT的输出的绝对平均值|sN|(见图4)。IFFT给出256长的数据块,取每个数据值的绝对值以及进行平均。这样,可以明显地看出增益函数的不同选择的效果(即,非因果滤波、较短和较长的冲激响应、最小相位或线性相位)。

图21给出由具有较短长度M的冲激响应的增益函数产生的平均值|sN|,以及由于增益函数具有零相位所以是非因果的。这可以通过在平均块的末端处的M=32样本中的高水平而观察到。

图22给出由具有全部长度N的冲激响应的增益函数产生的平均值|sN|,以及由于增益函数具有零相位所以是非因果的。这可以通过在平均块的末端处的样本中的高水平而观察到。这种情况下的相位和长度相应于用于传统的频谱相减的增益函数。全部长度增益函数是通过内插噪声和有噪声的语音周期图而不是内插增益函数而得到的。

图23给出由具有较短长度M的冲激响应的最小相位的增益函数产生的平均值|sN|。施加到增益函数的最小相位使得它是因果的。因果性可以通过在平均块的末端处的样本中的低水平而观察到。最小相位滤波器给出M=32样本的最大延时,这可在图23上从样本160到192的斜率看出。该延时在增益函数是因果的限制条件下是最小的。

图24给出由具有全部长度N的冲激响应的增益函数产生的平均值|sN|,以及被限制为具有最小相位。限制于最小相位给出N=256样本的最大延时,以及由于该帧在256个样本的全部块的起始处是160个样本,所以所述块可以保持96个样本的最大线性延时。这可以在图24上通过从样本160到255的斜率看出,它没有达到零。由于延时可以长于96,所以这导致循环延时,以及在最小相位的情况下,很难检测到与帧部分重叠的延时的样本。

图25给出由具有较短长度M的冲激响应的线性相位的增益函数产生的平均值|sN|。施加到增益函数的线性相位使得增益函数是因果的。这可以通过在平均块的末端处的样本中的低水平而观察到。具有线性相位增益函数的延时是M/2=16样本,正如从样本0到15和160到175的斜率可看出的。

图26给出由具有全部长度N的冲激响应的增益函数产生的平均值|sN|,以及被限制为具有线性相位。限制于线性相位给出N/2=128样本的最大延时。由于该帧在256个样本的全部块的起始处是160个样本,所以该块可以保持96个样本的最大线性延时。被延时超过96个样本的样本导致看到的循环延时。

相应于重叠的、块中的低样本值的好处是减小的块间干扰,因为重叠不会引入不连续性。当使用全部长度的冲激响应时(这是传统的频谱相减的情况),对于线性相位或最小相位引入的延时会超过块的长度。产生的循环延时给出绕回的延时样本,所以输出的样本可以是按错误的次序的。这表示,当线性相位或最小相位增益函数被使用时应当选择较短的冲激响应的长度。线性或最小相位的引入使得增益函数是因果的。

当输出信号的声音质量是最重要的因素时,应当使用线性相位滤波器。当延时是重要因素时,应当使用非因果零相位滤波器,尽管比起使用线性相位滤波器来说,这会失去语音质量。比较好的折衷是具有短的延时和良好的语音质量的最小相位滤波器,虽然这样会使复杂性比起使用线性相位滤波器更高。相应于短的长度M的冲激响应的增益函数总是应当被使用来改进声音质量的。

当信号平稳时,增益函数的指数平均提供较低的方差。主要优点是音乐音和残余噪声的减小。图27和28上给出带有和没有指数平均的增益函数。如图所示,当采用指数平均时,在噪声时间间隔期间和在低能量的语音时间间隔内,信号的变化性是较低的。增益函数的较低的变化性导致输出信号中不太显著的人工产生的音调。

总之,本发明提供通过使用线性卷积、因果滤波、和/或增益函数的控制的指数平均而用于频谱相减的改进的方法和设备。示例性方法提供改进的噪声减小,以及对于不一定是2的幂次的帧长度很起作用。当噪声减小方法与其它的语音增强方法以及语音编码器相结合时,这可以是重要的性质。

示例性方法以两种重要的方式减小增益函数(在本例中是复函数)的变化性。首先,当前块频谱估计的方差是用频谱估计方法通过用频率分辨率交换方差减小而被减小的。第二,提供增益函数的指数平均,它取决于估计的噪声频谱与当前输入信号频谱估值之间的差异。在平稳输入信号期间增益函数的低的变化性给出具有较小的音调残余噪声的输出。增益函数的较低的分辨率也被利用来执行正确的卷积,产生改善的声音质量。通过把因果性质加到增益函数上,声音质量被进一步增强。有利地,质量改善可以在输出块中看到。声音质量的改善是由于:输出块的重叠部分具有大大地减小的样本值,所以,当用长度和相加方法装配这些块时,这些块的干扰较少。通过使用上述的示例性参量选择,输出的噪声可减小13-18dB。

本领域技术人员将看到,本发明并不限于这里为了说明目的而描述的特定的示例性实施例,以及多种替换的实施例也是可以预料的。例如,虽然是在免提通信应用方面描述了本发明,但本领域技术人员将看到,本发明的教导同样可应用于其中希望去除特定的信号分量的任何信号处理应用中。所以,本发明的范围是由附属的权利要求,而不是由以上的说明规定的,以及应能把与权利要求的意义一致的所有等价物都包括在内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号