首页> 中国专利> 用于产生频率增强音频信号的译码器、译码方法、用于产生编码信号的编码器以及使用紧密选择边信息的编码方法

用于产生频率增强音频信号的译码器、译码方法、用于产生编码信号的编码器以及使用紧密选择边信息的编码方法

摘要

一种用于生成频率增强音频信号(120)的译码器,包括:特征提取器(104),用于自核心信号(100)提取特征;边信息提取器(110),用于提取与该核心信号相关联的选择边信息;参数生成器(108),用于产生用于估计未由所述核心信号(100)限定的所述频率增强音频信号(120)的频谱范围的参数表示,其中所述参数生成器(108)被配置成响应于所述特征(112)提供数个参数表示替代例(702,704,706,708),且其中所述参数生成器(108)被配置成响应于所述选择边信息(712-718)选择所述参数表示替代例中的一者作为所述参数表示;以及信号估计器(118),用于使用选择的所述参数表示来估计所述频率增强音频信号(120)。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-07-23

    授权

    授权

  • 2015-12-23

    实质审查的生效 IPC(主分类):G10L21/0388 申请日:20140128

    实质审查的生效

  • 2015-11-25

    公开

    公开

说明书

说明书

本发明涉及音频编码,且特别涉及在频率增强(即,译码器输出信号相比于编码信号具有较多数目个频带)的上下文中的音频编码。该过程包含带宽扩展、频谱复制或智能间隙填充。

当前的语音编码系统能够在低至6千位/秒的位速率下对宽带(wideband,WB)数字音频内容(亦即,具有高达7kHz至8kHz的频率的信号)编码。经最广泛论述的实例为ITU-T建议G.722.2[1],以及经新近开发的G.718[4、10]及MPEG-D统一语音与音频编码(UnifiedSpeechandAudioCoding,USAC)[8]。G.722.2(亦被称为AMR-WB)及G.718两者使用介于6.4kHz与7kHz间的带宽扩展(BWE)技术以允许基础ACELP核心编码器“集中”于感知上较相关的较低频率(特别是人类听觉系统为相位灵敏处的频率),且由此尤其在极低位速率下实现足够质量。在USAC扩展高效率进阶音频编码(eXtendedHighEfficiencyAdvancedAudioCoding,xHE-AAC)规格中,使用增强频谱带复制(enhancedspectralbandreplication,eSBR)以将音频带宽扩展成超出通常在16千位/秒下低于6kHz的核心编码器带宽。当前现有技术BWE处理通常可被划分成两种概念性方式:

·盲或人工BWE,其中高频(high-frequency,HF)分量仅从解码低频(low-frequency,LF)核心编码器信号重新建构,亦即,无需自编码器传输的边信息。此方案由在16千位/秒及16千位/秒以下的AMR-WB及G.718以及对传统窄带电话语音[5、9、12]操作的一些向前兼容BWE后处理器使用(实例:图15)。

·导引式BWE,其不同于盲BWE之处在于:用于HF内容重新建构的参数中的一些作为边信息被传输至译码器,而非根据译码核心信号来估计。AMR-WB、G.718、xHE-AAC以及一些其它编译码器[2、7、11]使用此方式,但不在极低位速率下(图16)。

图15示出了如BerndGeiser、PeterJax及PeterVary的公开物“ROBUSTWIDEBANDENHANCEMENTOFSPEECHBYCOMBINEDCODINGANDARTIFICIALBANDWIDTHEXTENSION”(国际声学回音与噪声控制工作组(InternationalWorkshoponAcousticEchoandNoiseControl,IWAENC)学报,2005年)中描述的此盲或人工带宽扩展。图15所示的独立带宽扩展算法包含插值程序1500、分析滤波1600、激励扩展1700、合成滤波器1800、特征提取程序1510、包络估计程序1520及统计模型1530。在窄带信号至宽带取样率的内插之后,计算特征向量。接着,借助于经预训练的统计隐式马尔可夫模型(hiddenMarkovmodel,HMM),依据线性预测(linearprediction,LP)系数来判定针对宽带频谱包络的估计。将该宽带系数用于内插窄带信号的分析滤波。在所得激励的扩展之后,应用反向合成滤波器(inversesynthesisfilter)。选择不会更改窄带的激励扩展对于窄带分量是明显的。

图16示出如上述公开物中描述的具有边信息的带宽扩展,该带宽扩展包含电话带通1620、边信息提取块1610、(联合)编码器1630、译码器1640及带宽扩展块1650。用于借由组合式编码及带宽扩展而对误差带语音信号进行宽带增强的该系统在图16中示出。在传输端处,分析宽带输入信号的高频带频谱包络且判定边信息。分离地或与窄带语音信号联合地对所得消息m编码。在接收机处,使用译码器边信息以支持带宽扩展算法内的宽带包络的估计。消息m通过若干程序而获得。自仅在发送侧处可得到的宽带信号提取3,4kHz至7kHz的频率的频谱表示。

该子带包络通过选择性线性预测而计算,即计算宽带功率谱,其后是其上部频带分量的IDFT,以及随后的阶8的Levinson-Durbin递归。将所得子带LPC系数转换成倒谱域,且最后由具有大小M=2N的码本的向量量化器来量化。对于20ms的帧长度,此情形引起300位/秒的边信息数据速率。一组合式估计方式扩展后验机率的计算且重新引入对窄带特征的依赖性。因此,获得改良形式的误差隐藏(errorconcealment),其使用一个以上信息源用于其参数估计。

可在低位速率(通常低于10千位/秒)下观察到WB编译码器中的某一质量两难推论(qualitydilemma)。一方面,该速率已经太低而不能使甚至中等量的BWE数据的传输合法化,从而排除具有1千位/秒或更大的边信息的典型导引式BWE系统。另一方面,可行盲BWE被发现为由于不能够自核心信号进行适当参数预测而使得对至少一些类型的语音或音乐材料看起来显著地较差。对于诸如具有HF与LF间的低相关性的摩擦音的一些口声尤其如此。因此,期望将导引式BWE方案的边信息速率减小至远低于1千位/秒的位准,此情形将允许其甚至在极低位速率编码中被使用。

近年来已记载各种BWE方式[1-10]。一般而言,所有这些方式在给定操作点处为完全盲或完全导引式,而不管输入信号的瞬时特性如何。此外,许多盲BWE系统[1、3、4、5、9、10]特定地针对语音信号而非针对音乐而最佳化,且因此可提供对于音乐不令人满意的结果。最后,大多数BWE实现在计算上相对复杂,其使用边信息的傅立叶(Fourier)变换、LPC滤波器计算或向量量化(MPEG-DUSAC中的预测性向量编码[8])。这在移动电信市场中采用新编码技术方面会是劣势,在大多数移动装置提供非常有限的计算能力和电池容量的情况下。

[12]中呈现且图16中示出了通过小边信息来扩展盲BWE的方式。然而,边信息“m”限于带宽扩展频率范围的频谱包络的传输。

图16所示的程序的另外问题为一方面使用低频带特征且另一方面使用额外包络边信息的包络估计的极复杂方式。两个输入(亦即,低频带特征及额外高频带包络)影响统计模型。此情形引起复杂的译码器侧实施,这由于增加的电力消耗而对于移动器件尤其是个问题。此外,由于统计模型并非仅受到额外高频带包络数据影响,统计模型甚至更难以更新。

本发明的目的是提供音频编码/译码的改进概念。

此目的通过以下来实现:一种根据权利要求1的译码器、一种根据权利要求15的编码器、一种根据权利要求20的译码方法、一种根据权利要求21的编码方法、一种根据权利要求22的计算机程序,或一种根据权利要求23的编码信号。

本发明基于如下发现:为了甚至更多地减小边信息的量,且另外,为了使整个编码器/译码器不过度地复杂,必须通过实际上关于与特征提取器一起用于频率增强译码器上的统计模型的选择边信息来替换或至少增强高频带部分的先前技术参数编码。由于结合统计模型的特征提取提供尤其针对某些语音部分具有模糊度的参数表示替代例,已发现实际上控制译码器侧上的参数生成器(其在所提供的替代例中为最佳例)内的统计模型优于实际上以参数方式对信号的某一特性编码,尤其是在用于带宽扩展的边信息受到限制的极低位速率应用中。

因此,通过具有小额外边信息的扩展而改进盲BWE(其利用用于被编码信号的源模型),尤其是在该信号自身不允许以可接受的感知质量水平来重新建构HF内容的情况下。该程序因此通过额外信息来组合自编码的核心编码器内容产生的、该源模型的参数。此情形特别有利于增强难以在此源模型内编码的声音的感知质量。该声音通常呈现HF成分与LF成分间的低相关性。

本发明解决传统BWE在极低位速率音频编码中的问题以及已存现有技术BWE技术的缺点。通过提议一最低限度导引式BWE作为盲BWE与导引式BWE的信号调适性组合、而提供对上述质量两难推论的解决方案。本发明的BWE将一些小边信息加至信号,其允许进一步鉴别以其它方式有问题的编码声音。在语音编码中,这特别适用于齿音或摩擦音。

已发现,在WB编译码器中,核心编码器区域上方的HF区域的频谱包络表示执行具有可接受的感知质量的BWE所必要的最关键数据。所有其它参数(诸如,频谱精细结构及时间包络)常常可相当准确地自译码核心信号得到,或具有很少感知重要性。然而,摩擦音在BWE信号中常常缺乏适当再现。边信息因此可包括区别诸如“f”、“s”、“ch”及“sh”的不同齿音或摩擦音的额外信息。

当出现诸如“t”或“tsch”的爆破音或塞擦音时,存在用于带宽扩展的其它有问题声学信息。

本发明允许仅使用此边信息,且实际上在必要的情况下传输此边信息且在统计模型中不存在预期模糊度时不传输此边信息。

此外,本发明的优选实施例仅使用诸如每帧三个或三个以下位的极少量的边信息、用于控制信号估计器的组合式话音活动检测/语音/非语音检测、由信号分类器判定的不同统计模型,或参数表示替代例,该参数表示替代例不仅涉及包络估计,而且涉及其它带宽扩展工具,或带宽扩展参数的改进,或新参数至已经存在且实际上传输的带宽扩展参数的相加。

随后在附图的上下文中论述本发明的优选实施例,且亦在从属权利要求中阐述本发明的优选实施例。

图1示出用于产生频率增强音频信号的译码器;

图2示出在图1的边信息提取器的上下文中的优选实施;

图3示出关于选择边信息的位的数目至参数表示替代例的数目的表;

图4示出在参数生成器中执行的优选程序;

图5示出由话音活动检测器或语音/非语音检测器控制的信号估计器的优选实施;

图6示出由信号分类器控制的参数生成器的优选实施;

图7示出用于统计模型的结果及关联选择边信息的实例;

图8示出包含编码核心信号及关联边信息的示例性编码信号;

图9示出用于包络估计改进的带宽扩展信号处理方案;

图10示出译码器在频谱带复制程序的上下文中的另外实施;

图11示出译码器在另外传输的边信息的上下文中的另外实施例;

图12示出用于产生编码信号的编码器的实施例;

图13示出图12的选择边信息生成器的实施;

图14示出图12的选择边信息生成器的另外实施;

图15示出现有技术独立带宽扩展算法;及

图16示出具有附加消息的传输系统的概观。

图1示出用于产生频率增强音频信号120的译码器。该译码器包含用于自核心信号100提取(至少)特征的特征提取器104。通常,该特征提取器可提取单一特征或复数个特征,亦即,两个或更多个特征,且甚至优选的是,由该特征提取器提取复数个特征。此情形不仅适用于译码器中的特征提取器,而且适用于编码器中的特征提取器。

此外,提供用于提取与核心信号100相关联的选择边信息114的边信息提取器110。另外,参数生成器108经由特征传输线112而连接至特征提取器104,且经由选择边信息114而连接至边信息提取器110。参数生成器108被配置成产生用于估计未由核心信号限定的频率增强音频信号的频谱范围的参数表示。参数生成器108被配置成响应于特征112而提供数个参数表示替代例,且响应于选择边信息114而选择参数表示替代例中的一者作为参数表示。译码器还包含用于使用由选择器选择的参数表示(亦即,参数表示116)来估计频率增强音频信号的信号估计器118。

具体来说,特征提取器104可被实施为自译码的核心信号进行提取,如图2所示。接着,输入接口110被配置成接收编码的输入信号200。此编码的输入信号200被输入至接口110中,且输入接口110接着使选择边信息与编码核心信号分离。因此,输入接口110作为图1中的边信息提取器110而操作。由输入接口110输出的编码的核心信号201接着被输入至核心译码器124中,以提供可以是核心信号100的译码的核心信号。

然而,替代地,特征提取器亦可操作或自编码的核心信号提取特征。通常,编码的核心信号包含用于频带的缩放因子的表示,或音频信息的任何其它表示。取决于特征提取的种类,音频信号的编码表示代表译码核心信号,且因此可提取特征。替代地或另外,可不仅自完全译码核心信号提取特征,而且自部分译码核心信号提取特征。在频域编码中,编码信号表示包含频谱帧序列的频域表示。因此,在实际上执行频谱至时间转换前,可仅对编码核心信号部分地译码以获得频谱帧序列的译码表示。因此,特征提取器104可自编码核心信号或部分译码核心信号或完全译码核心信号提取特征。特征提取器104可如在现有技术中已知那样关于其经提取特征加以实施,且该特征提取器可例如如在音频指纹或音频ID技术中加以实施。

优选地,选择边信息114包含核心信号的每帧数目N个位。图3示出了用于不同替代例的表。用于选择边信息的位的数目或者是固定的,或者根据由统计模型响应于经提取特征而提供的参数表示替代例的数目来选择。当由统计模型响应于特征而提供仅两个参数表示替代例时,一个位的选择边信息是足够的。当由统计模型提供最大数目四个表示替代例时,则对于选择边信息两个位是必需的。三个位的选择边信息允许最多八个并行参数表示替代例。四个位的选择边信息实际上允许16个参数表示替代例,且五个位的选择边信息允许32个并行参数表示替代例。优选的是仅使用每帧三个或小于三个位的选择边信息,从而在将一秒划分成50个帧时导致150位/秒的边信息速率。由于选择边信息仅在统计模型实际上提供表示替代例时才为必要,此边信息速率甚至可减小。因此,当统计模型仅提供针对特征的单个替代例时,则根本不需要选择边信息位。另一方面,当统计模型仅提供四个参数表示替代例时,则仅两个位而非三个位的选择边信息为必要的。因此,在典型状况下,额外边信息速率甚至可减小至低于150位/秒。

此外,参数生成器被配置成至多提供量等于2N的参数表示替代例。另一方面,当参数生成器108提供例如仅五个参数表示替代例时,则仍然需要三个位的选择边信息。

图4示出参数生成器108的优选实施。具体来说,参数生成器108被配置成使得图1的特征112被输入至统计模型中,如在步骤400处所概述。接着,如在步骤402中所概述,由该模型提供复数个参数表示替代例。

此外,参数生成器108被配置成自边信息提取器撷取选择边信息114,如在步骤404中所概述。接着,在步骤406中,使用选择边信息114来选择特定参数表示替代例。最后,在步骤408中,将选择的参数表示替代例输出至信号估计器118。

优选地,参数生成器108被配置成在选择参数表示替代例中的一者时使用参数表示替代例的预定义次序,或替代地,使用表示替代例的编码器信号次序。为此,参看图7。图7示出了提供四个参数表示替代例702、704、706、708的统计模型的结果。也示出了对应选择边信息码。替代例702对应于位模式712。替代例704对应于位模式714。替代例706对应于位模式716,且替代例708对应于位模式718。因此,当参数生成器108或例如步骤402以图7所示的次序来撷取四个替代例702至708时,则具有位模式716的选择边信息将唯一地识别参数表示替代例3(附图标记706),且参数生成器108接着将选择此第三替代例。然而,当选择边信息位模式为位模式712时,则将选择第一替代例702。

因此,参数表示替代例的预定义次序可为统计模型响应于经提取特征而实际上递送替代例的次序。替代地,若个别替代例具有相关联的不同概率(然而,概率彼此相当接近),则预定义次序可为:最高概率参数表示最先出现,等等。替代地,该次序可例如由单一位传信,但为了甚至节省此位,预定义次序是优选的。

随后,参看图9至图11。

在根据图9的实施例中,本发明特别适合于语音信号,这是因为将专用语音源模型用于参数提取。然而,本发明并不限于语音编码。不同实施例亦可使用其他源模型。

具体来说,选择边信息114亦被称为“摩擦音信息(fricativeinformation)”,这是因为此选择边信息区别诸如“f”、“s”或“sh”的有问题齿音或摩擦音。因此,选择边信息提供三个有问题替代例中的一者的清晰定义,该三个有问题替代例例如由统计模型904在包络估计902的处理中提供,这二者都在参数生成器108中执行。包络估计产生未包括于核心信号中的频谱部分的频谱包络的参数表示。

因此,块104可对应于图15的块1510。此外,图15的块1530可对应于图9的统计模型904。

此外,优选的是,信号估计器118包含分析滤波器910、激励扩展块112及合成滤波器940。因此,块910、912、914可对应于图15的块1600、1700及1800。特别是,分析滤波器910是LPC分析滤波器。包络估计块902控制分析滤波器910的滤波器系数,使得块910的结果为滤波器激励信号。此滤波器激励信号在频率方面被扩展,以便在块912的输出处获得激励信号,该激励信号不仅具有用于输出信号的译码器120的频率范围,而且具有未由核心编码器限定和/或超过核心信号的频谱范围的频率或频谱范围。因此,对译码器的输出处的音频信号909进行上采样,且由插值器900对音频信号909插值,且接着,使插值的信号经受信号估计器118中的处理。因此,图9中的插值器900可对应于图15的插值器1500。然而,优选地,与图15相比,特征提取104使用非插值信号来执行,而非如图15所示来对插值信号执行。此情形有利之处在于:由于与块900的输出处的经上采样和插值的信号相比,非插值音频信号909相比于音频信号的某一时间部分具有较少数目个样本,从而特征提取器104更有效地操作。

图10示出了本发明的另一实施例。与图9相比,图10具有统计模型904,其不仅提供如在图9中的包络估计,而且提供另外的参数表示,该另外的参数表示包含用于产生遗漏声调1080的信息或用于反向滤波1040的信息或关于待相加的噪底1020的信息。块1020、块1040、频谱包络生成1060及遗漏声调1080过程在高效率进阶音频编码(HE-AAC)的上下文中在MPEG-4标准中有所描述。

因此,如图10所示也可对不同于语音的其它信号进行编码。在这种情况下,只对频谱包络1060编码可能不够,而是还对诸如调性(1040)、噪声水平(1020)或遗漏正弦波(1080)的边信息编码,如在[6]中所示的频谱带复制(spectralbandreplication,SBR)技术中所进行的。

图11中示出另一实施例,其中除了1100处所示的SBR边信息以外,还使用边信息114,即选择边信息。因此,将包含例如关于所检测的语音声音的信息的选择边信息添加至传统SBR边信息1100。这帮助较准确地重新产生用于语音声音的高频成分,语音声音诸如包括摩擦音、爆破音或元音的齿音。因此,图11所示的过程具有如下优势:另外传输的选择边信息114支持译码器侧(音素(phonem))分类,以便提供SBR或带宽扩展(BWE)参数的译码器侧调适。因此,与图10对比,图11的实施例除了提供选择边信息以外亦提供传统SBR边信息。

图8示出了编码输入信号的示例性表示。编码输入信号由后续帧800、806、812组成。每一帧具有编码核心信号。示例性地,帧800具有语音作为编码核心信号。帧806具有音乐作为编码核心信号,且帧812又具有语音作为编码核心信号。示例性地,帧800仅具有选择边信息作为边信息,而无SBR边信息。因此,帧800对应于图9或图10。示例性地,帧806包含SBR信息,但不含有任何选择边信息。此外,帧812包含编码语音信号,且与帧800对比,帧812不含有任何选择边信息。这是因为在编码器侧上尚未发现特征提取/统计模型处理的任何模糊度,所以不需要选择边信息。

随后,描述图5。使用对核心信号操作的话音活动检测器或语音/非语音检测器500,以便决定应使用本发明的带宽或频率增强技术抑或不同带宽扩展技术。因此,当话音活动检测器或语音/非语音检测器检测到话音或语音时,则使用在511处所示的第一带宽扩展技术BWEXT.1,其例如如图1、图9、图10、图11所述那样操作。因此,切换器502、504被设定成使得自输入512采取来自参数生成器的参数,且切换器504将这些参数连接至块511。然而,当由检测器500检测到未展示任何语音信号但例如展示音乐信号的情形时,则优选地将来自位流的带宽扩展参数514输入至另一带宽扩展技术程序513中。因此,检测器500检测是否应使用本发明的带宽扩展技术511。对于非语音信号,编码器可切换至由块513所示的其它带宽扩展技术,诸如[6、8]中提及的技术。因此,图5的信号估计器118被配置成在检测器500检测到非话音活动或非语音信号时转接至不同带宽扩展程序及/或使用自编码信号提取的不同参数。对于此不同带宽扩展技术513,在位流中优选地不存在选择边信息且亦不使用选择边信息,此情形系在图5中通过将切换器502断开至输入514加以表征。

图6示出了参数生成器108的另一实施。参数生成器108优选地具有复数个统计模型,诸如,第一统计模型600及第二统计模型602。此外,提供选择器604,其由选择边信息控制以提供正确参数表示替代例。哪一统计模型在作用中由额外信号分类器606控制,额外信号分类器606在其输入处接收核心信号,即与至特征提取器104的输入相同的信号。因此,图10中或任何其它图中的统计模型可随着编码内容而变化。对于语音,使用表示语音产生源模型的统计模型,而对于如例如由信号分类器606分类的其它信号(诸如,音乐信号),使用依据大型音乐数据集而训练的不同模型。其它统计模型对于不同语言等是另外有用的。

如前所论述,图7示出由诸如统计模型600的统计模型获得的复数个替代例。因此,块600的输出例如用于如以并行线605所示的不同替代例。以相同方式,第二统计模型602亦可输出复数个替代例,诸如对于如以线606所示的替代例。取决于特定统计模型,优选的是,仅输出相对于特征提取器104具有相当高概率的替代例。因此,统计模型响应于特征而提供复数个替代参数表示,其中每一替代参数表示具有与其它不同替代参数表示的概率相同或与其它替代参数表示的概率相差小于10%的概率。因此,在一实施例中,仅输出具有最高概率的参数表示,及皆具有比最佳匹配替代例的概率小仅10%的概率的数个其它替代参数表示。

图12示出了用于产生编码信号1212的编码器。该编码器包含核心编码器1200,其用于对原始信号1206编码以获得相比于原始信号1206具有关于较少数目个频带的信息的编码核心音频信号1208。此外,提供用于产生选择边信息1210(SSI—选择边信息)的选择边信息生成器1202。选择边信息1210指示由统计模型响应于自原始信号1206或自编码音频信号1208或自编码音频信号的译码版本提取的特征而提供的被限定参数表示替代例。此外,编码器包含用于输出编码信号1212的输出接口1204。编码信号1212包含编码音频信号1208及选择边信息1210。优选地,如图13所示来实施选择边信息生成器1202。为此,选择边信息生成器1202包含核心译码器1300。提供特征提取器1302,其对由块1300输出的译码核心信号操作。将特征输入至统计模型处理器1304中,统计模型处理器1304用于产生用于估计未由块1300所输出的译码核心信号限定的频率增强信号的频谱范围的数个参数表示替代例。将这些参数表示替代例1305皆输入至用于估计频率增强音频信号1307的信号估计器1306中。接着将这些经估计频率增强音频信号1307输入至用于比较频率增强音频信号1307与图12的原始信号1206的比较器1308中。选择边信息生成器1202另外地被配置成设定选择边信息1210,使得该选择边信息唯一地限定产生根据最佳化准则与原始信号最佳地匹配的频率增强音频信号的参数表示替代例。该最佳化准则可为以最小均方差(minimummeanssquarederror,MMSE)为基础的准则、使逐样本差最小化的准则,或优选地为使感知到的失真最小化的心理声学准则,或为本领域技术人员所知的任何其它最佳化准则。

图13示出了封闭回路(closed-loop)或合成式分析(analysis-by-synthesis)程序,而图14示出了与开放回路(open-loop)程序更相似的选择边信息1202的替代实施。在图14的实施例中,原始信号1206包含用于选择边信息生成器1202的关联元信息(metainformation),其描述用于原始音频信号的样本序列的声学信息(例如,批注)序列。在此实施例中,选择边信息生成器1202包含用于提取元信息序列的元数据提取器1400,且另外包含元数据转译器,其通常具有关于译码器侧上使用的统计模型的知识以将元信息序列转译成与原始音频信号相关联的选择边信息1210序列。在编码器中舍弃且在编码信号1212中不传输由元数据提取器1400提取的元数据。相反,连同由核心编码器产生的编码音频信号1208在编码信号中传输选择边信息1210,编码音频信号1208相比于经最后产生的译码信号或相比于原始信号1206具有不同频率内容且通常具有较少频率内容。

由选择边信息生成器1202产生的选择边信息1210可具有如在之前附图的上下文中论述的特性中任一者。

虽然已在框图(其中块表示实际或逻辑硬件组件)的上下文中描述本发明,但本发明也可由计算机实施的方法来实施。在后者状况下,块表示对应方法步骤,其中这些步骤代表由对应逻辑或物理硬件块执行的功能性。

虽然已在装置的上下文中描述一些方面,但显然这些方面也表示对应方法的描述,其中块或器件对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方面也表示对应装置的对应块或项目或特征的描述。方法步骤中的一些或全部可由(或使用)硬件装置(例如,微处理器、可编程计算机或电子电路)执行。在一些实施例中,最重要的方法步骤中的某一步骤或更多步骤可由此装置执行。

本发明的传输或编码信号可储存于数字储存介质上,或可在诸如无线传输介质或诸如因特网的有线传输介质的传输介质上传输。

根据某些实施要求,可以硬件或以软件来实施本发明的实施例。可使用储存有电子可读控制信号的数字储存介质(例如,软性磁盘、DVD、Blu-Ray、CD、ROM、PROM及EPROM、EEPROM或FLASH内存)来执行该实施,其与(或能够与)可编程计算机系统合作,使得执行各个方法。因此,数字储存介质可为计算机可读的。

根据本发明的一些实施例包含具有电子可读控制信号的数据载体,该电子可读控制信号能够与可编程计算机系统合作,使得执行本文所描述的方法中的一者。

通常,可将本发明的实施例实施为具有程序代码的计算机程序产品,该程序代码可操作以当该计算机程序产品在计算机上运行时执行方法中的一者。程序代码可例如储存于机器可读载体上。

其它实施例包含用于执行本文所描述的方法中的一者的计算机程序,其储存于机器可读载体上。

换言之,本发明的方法的一实施例因此为具有程序代码的计算机程序,该程序代码用于当该计算机程序在计算机上运行时执行本文所描述的方法中的一者。

本发明的方法的另外实施例因此为一数据载体(或诸如数字储存介质的非暂时性储存介质,或计算机可读介质),其包含记录于其上的用于执行本文所描述的方法中的一者的计算机程序。数据载体、数字储存介质或记录介质通常是有形的及/或非暂时性的。

本发明的方法的另外实施例因此为一数据流或信号序列,其表示用于执行本文所描述的方法中的一者的计算机程序。该数据流或信号序列可例如被配置成经由数据通信连接(例如,经由因特网)而传送。

一另外实施例包含一处理构件,例如,计算机或可编程逻辑器件,其被配置或调适以执行本文所描述的方法中的一者。

一另外实施例包含一计算机,其具有安装于其上的用于执行本文所描述的方法中的一者的计算机程序。

根据本发明的另外实施例包含被配置成将用于执行本文所描述的方法中的一者的计算机程序传送(例如,电子地或光学地)至接收器的装置或系统。举例来说,该接收器可为计算机、移动器件、内存器件等。举例来说,该装置或系统可包含用于将计算机程序传送至接收器的文档服务器。

在一些实施例中,可使用可编程逻辑器件(例如,场可编程门阵列)以执行本文所描述的方法的功能性中的一些或全部。在一些实施例中,场可编程门阵列可与微处理器合作,以便执行本文所描述的方法中的一者。通常,该方法优选地由任何硬件装置执行。

上述实施例仅仅说明本发明的原理。应理解,本文所描述的配置及细节的修改及变化对于本领域技术人员来说是明显的。因此,意图仅受到即将出现的专利权利要求的范围的限制,而不受到作为本文中的实施例的描述及解释而呈现的特定细节限制。

参考文献:

[1]B.Bessetteetal.,“TheAdaptiveMulti-rateWidebandSpeechCodec(AMR-WB),”IEEETrans.onSpeechandAudioProcessing,Vol.10,No.8,Nov.2002.

[2]B.Geiseretal.,“BandwidthExtensionforHierarchicalSpeechandAudioCodinginITU-TRec.G.729.1,”IEEETrans.onAudio,Speech,andLanguageProcessing,Vol.15,No.8,Nov.2007.

[3]B.Iser,W.Minker,andG.Schmidt,BandwidthExtensionofSpeechSignals,SpringerLectureNotesinElectricalEngineering,Vol.13,NewYork,2008.

[4]M.JelínekandR.Salami,“WidebandSpeechCodingAdvancesinVMR-WBStandard,”IEEETrans.onAudio,Speech,andLanguageProcessing,Vol.15,No.4,May2007.

[5]I.Katsir,I.Cohen,andD.Malah,“SpeechBandwidthExtensionBasedonSpeechPhoneticContentandSpeakerVocalTractShapeEstimation,”inProc.EUSIPCO2011,Barcelona,Spain,Sep.2011.

[6]E.LarsenandR.M.Aarts,AudioBandwidthExtension:ApplicationofPsychoacoustics,SignalProcessingandLoudspeakerDesign,Wiley,NewYork,2004.

[7]J.etal.,“AMR-WB+:ANewAudioCodingStandardfor3rdGenerationMobileAudioServices,”inProc.ICASSP2005,Philadelphia,USA,Mar.2005.

[8]M.Neuendorfetal.,“MPEGUnifiedSpeechandAudioCoding–TheISO/MPEGStan-dardforHigh-EfficiencyAudioCodingofAllContentTypes,”inProc.132ndConventionoftheAES,Budapest,Hungary,Apr.2012.AlsotoappearintheJournaloftheAES,2013.

[9]H.PulakkaandP.Alku,“BandwidthExtensionofTelephoneSpeechUsingaNeuralNetworkandaFilterBankImplementationforHighbandMelSpectrum,”IEEETrans.onAudio,Speech,andLanguageProcessing,Vol.19,No.7,Sep.2011.

[10]T.Vaillancourtetal.,“ITU-TEV-VBR:ARobust8-32kbit/sScalableCoderforErrorProneTelecommunicationsChannels,”inProc.EUSIPCO2008,Lausanne,Switzerland,Aug.2008.

[11]L.Miaoetal.,“G.711.1AnnexDandG.722AnnexB:NewITU-TSuperwidebandcodecs,”inProc.ICASSP2011,Prague,CzechRepublic,May2011.

[12]BerndGeiser,PeterJax,andPeterVary::“ROBUSTWIDEBANDENHANCEMENTOFSPEECHBYCOMBINEDCODINGANDARTIFICIALBANDWIDTHEXTENSION”,ProceedingsofInternationalWorkshoponAcousticEchoandNoiseControl(IWAENC),2005.

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号