首页> 中国专利> 用于以几何为基础的空间音频编码的装置及方法

用于以几何为基础的空间音频编码的装置及方法

摘要

本发明提供了一种用于根据包含与一个或多个声源的音频数据相关的音频数据流来产生至少一个音频输出信号的装置。此装置包含用于接收包含音频数据的音频数据流的接收器。音频数据包含各个声源的一个或多个压力值。另外,音频数据针对各个声源包含表明一个声源的位置的一个或多个位置值。另外,此装置包含合成模块,用于根据音频数据流的音频数据的一个或多个压力值中的至少一个及根据音频数据流的音频数据的一个或多个位置值中的至少一个,来产生所述至少一个音频输出信号。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-01-12

    授权

    授权

  • 2015-12-30

    著录事项变更 IPC(主分类):G10L19/02 变更前: 变更后: 申请日:20111202

    著录事项变更

  • 2014-05-07

    专利申请权的转移 IPC(主分类):G10L19/02 变更前: 变更后: 登记生效日:20140416 申请日:20111202

    专利申请权、专利权的转移

  • 2014-01-15

    实质审查的生效 IPC(主分类):G10L19/02 申请日:20111202

    实质审查的生效

  • 2013-12-18

    公开

    公开

说明书

技术领域

本发明是关于音频处理,尤其是关于用于以几何为基础的空间音频编 码的装置及方法。

背景技术

音频处理,更具体地,空间音频编码变得越来越重要。传统空间声音 记录旨在捕获声场,以使得在再生侧,收听者如在记录位置一样感知声像。 由目前技术水平已知空间声音记录及再生技术的不同方法,这些方法可基 于声道、对象或参数表示。

以声道为基础的表示(channel-based representation)通过意味着通过 以已知配置排列的N个扬声器(例如5.1环绕声配置)回放的N个离散音 频信号表示声音场景。空间声音记录的方法通常使用例如,AB立体声的 间隔的全向麦克风,或例如强度立体声的重合定向麦克风。或者,可使用 例如Ambisonics的更高级麦克风,诸如B格式麦克风,参见:

[1]Michael A.Gerzon.Ambisonics in multichannel broadcasting and  video.J.Audio Eng.Soc,33(11):859–871,1985.

直接从记录的麦克风信号中导出已知配置的期望扬声器信号且然后 离散地传输或存储。通过将音频编码应用至离散信号获得更有效表示,在 一些情况下,该音频编码共同编码不同声道的信息以增加效率,例如在5.1 的MPEG环绕中,参见:

[21]J.Herre,K.J.Breebaart,C.Faller,S.Disch,H. Purnhagen,J.Koppens,J.Hilpert,J.W.Oomen,K.Linzmeier, K.S.Chong:“MPEG Surround–The ISO/MPEG Standard for Efficient and  Compatible Multichannel Audio Coding”,122nd AES Convention,Vienna, Austria,2007,Preprint7084.

这些技术的主要缺点为:一旦已计算出扬声器信号,则声音场景不可 修改。

例如,在空间音频对象编码(SAOC)中使用以对象为基础的表示 (object-based representation),参见:

[25]Jeroen Breebaart,Jonas Cornelia Falch,Oliver  Hellmuth,Johannes Hilpert,Andreas Hoelzer,Jeroens Koppens,Werner  Oomen,Barbara Resch,Erik Schuijers,and Leonid Terentiev.Spatial audio  object coding(saoc)-the upcoming mpeg standard on parametric object based  audio coding.In Audio Engineering Society Convention124,52008.

以对象为基础的表示使用N个离散音频对象表示声音场景。由于可通 过改变例如各对象的位置及响度,来操控声音场景,故该表示在再生侧赋 予出高灵活性(flexibility)。虽然可易于从例如多轨记录中可得该表示, 但很难从使用几个麦克风记录的复合声音场景中获得该表示(参见,例如 [21])。实际上,通话器(或其它发音对象)必须首先经定位,然后从混合物 中提取,这可导致非自然信号(artifact)。

参数表示(parametric representation)常常使用空间麦克风,以决定一 个或多个音频降混信号以及描述空间声音的空间边信息。一个例子为定向 音频编码(DirAC),在下文中论述:

[29]Ville Pulkki.Spatial sound reproduction with directional audio  coding.J.Audio Eng.Soc,55(6):503–516,June2007。

术语“空间麦克风”指能够重新获得(retrieve,检索)声音的抵达方 向的用于获取空间声音的任何装置(例如,定向麦克风的组合、麦克风阵 列等)。

术语“非空间麦克风”指不适于重新获得声音的抵达方向的任何装置, 诸如单个全向或定向麦克风。

在下文给出另一例子:

[23]C.Faller.Microphone front-ends for spatial audio coders.In Proc.of  the AES125th International Convention,San Francisco,Oct.2008。

在DirAC中,空间信号信息包含声音的抵达方向(DOA)及以时频域计 算的声场的扩散度。对于声音再生,可根据参数描述导出音频回放信号。 这些技术在再生侧提供大的灵活性,因为可使用任意扬声器配置,因为表 示特别灵活且紧凑,由于该表示包含降混单音频信号及边信息(side  information),且因为该表示允许声音场景的易于修改,例如声陡变、定向 滤波、场景合并等。

然而,这些技术仍为存在局限,因为所记录空间影像总是与所使用的 空间麦克风有关。因此,不可变化声视点且不可改变声音场景内的收听位 置。

在下文提供了一种虚拟麦克风方法:

[22]Giovanni Del Galdo,Oliver Thiergart,Tobias Weller,and E.A.P. Habets.Generating virtual microphone signals using geometrical information  gathered by distributed arrays.In Third Joint Workshop on Hands-free Speech  Communication and Microphone Arrays(HSCMA’11),Edinburgh,United  Kingdom,May2011。

该方法允许计算环境中随意(亦即,任意位置及方位)虚拟放置的任意 空间麦克风的输出信号。表征虚拟麦克风(VM)方法的灵活性允许声音场景 在后处理步骤中随意虚拟捕获,但是不能获得声场表示,该声场表示可用 以有效地传输和/或存储和/或修改声音场景。另外,假设每个时频点仅一 个源为有效的,因此,若在相同时频点有两个或更多源为有效的,则不能 正确描述声音场景。另外,若在接收器侧应用虚拟麦克风(VM),则需要在 声道上发送所有麦克风信号,这使得表示低效,而若在发射器侧应用VM, 则不可进一步操控声音场景且模型失去灵活性且变得限于某一扬声器配 置。另外,没有考虑根据参数信息操控声音场景。

在下文中:

[24]Emmanuel Gallo and Nicolas Tsingos.Extracting and re-rendering  structured auditory scenes from field recordings.In AES30th International  Conference on Intelligent Audio Environments,2007,

声源位置估计是基于通过分布式麦克风所测量的成对抵达时差。另外,接 收器取决于记录且需要用于合成的所有麦克风信号(例如扬声器信号的产 生)。

在下文提供的方法中:

[28]Svein Berge.Device and method for converting spatial audio signal. US patent application,Appl.No.10/547,151

类似于DirAC,使用抵达方向作为参数,因此将表示限于声音场景的特定 视点。另外,由于在通讯系统的相同侧需要应用分析及合成两者,故该方 法没有提出传输/存储声音场景表示的可能性。

发明内容

本发明的目标为提供用于经由提取几何信息的空间声音获取及描述 的改良概念。通过根据权利要求1所述的用于基于音频数据流产生至少一 个音频输出信号的装置、根据权利要求10的产生音频数据流的装置、根 据权利要求19的系统、根据权利要求20的音频数据流、根据权利要求23 的用于产生至少一个音频输出信号的方法、根据权利要求24的用于产生 音频数据流的方法及根据权利要求25的计算机程序,来实现本发明的目 标。

本发明提供一种用于根据包含与一个或多个声源相关的音频数据的 音频数据流产生至少一个音频输出信号的装置。此装置包含用于接收包含 音频数据的音频数据流的接收器。音频数据包含各个声源的一个或多个压 力值。另外,音频数据针对所述声源中的各个声源包含表明所述声源中的 一个的位置的一个或多个位置值。另外,此装置包含合成模块,用于根据 音频数据流的音频数据的一个或多个压力值中的至少一个及根据音频数 据流的音频数据的一个或多个位置值中的至少一个,产生至少一个音频输 出信号。在一实施方式中,一个或多个位置值中的各个位置值可包含至少 两个坐标值。

音频数据可针对多个时频点(time-frequency bin)中的一时频点被定 义。或者,音频数据可针对多个时刻(time instant)中的一个时刻被定义。 在一些实施方式中,可针对多个时刻中的一个时刻定义音频数据的一个或 多个压力值,而相应参数(例如位置值)可以在时频域中定义。这很容易通 过将以时频不同定义的压力值转换回时域而获得。对于所述声源中的各个 声源,至少一个压力值包含在音频数据中,其中至少一个压力值可为与例 如从声源的所发出声波相关的压力值。压力值可为音频信号的值,例如, 由用于产生虚拟麦克风的音频输出信号的装置产生的音频输出信号的压 力值,其中虚拟麦克风放置在声源的位置。

上述实施方式允许计算实际独立于记录位置的声场表示,且提供复合 声音场景的有效传输及存储,以及提供在再生系统易于修改及增加的灵活 性。

特别地,此技术的重要优点为:在再生侧,收听者可在所记录的声音 场景内自由选择该收听者的位置、使用任何扬声器配置、以及根据几何信 息额外地操控声音场景,例如以位置为基础的滤波。换言之,使用所提出 技术,可变化声视点(acoustic viewpoint)且可改变声音场景内的收听位 置。

根据上述实施方式,音频数据流中包含的音频数据包含各个声源的一 个或多个压力值。因此,压力值表明与其中一个声源相关且与记录麦克风 的位置无关的音频信号,例如源自声源的音频信号。类似地,音频数据流 中包含的一个或多个位置值表明声源而非麦克风的位置。

由此,实现了多个优点:举例而言,实现了可使用很少位编码的音频 场景的表示。若声音场景仅包含在特别时频点中的单个声源,则仅与该唯 一声源相关的单个音频信号的压力值必须与表明该声源的位置的位置值 一起编码。相反,传统方法可能必须编码来自多个所记录的麦克风信号的 多个压力值,以在接收器处重建音频场景。另外,如下文将描述,上述实 施方式允许易于修改发射器以及接收器侧的声音场景。因此,亦可在接收 器侧执行场景组成(例如,判定声音场景内的收听位置)。

一些实施方式采用借助于声源(例如点状声源(PLS=点状声源),例如, 各向同性点状声源(IPLS))建模复杂声音场景的概念,这些声源在以时频 表示的特定槽(slot)中是有效的(active),例如由短时间傅立叶转换(STFT) 所提供的时隙。

根据一实施方式,接收器可适于接收包含音频数据的音频数据流,其 中音频数据进一步包含针对各个声源的一个或多个扩散度值。合成模块可 适于根据一个或多个扩散度值中的至少一个,产生至少一个音频输出信 号。

在另一实施方式中,接收器可进一步包含修改模块,该修改模块用于 通过修改音频数据的一个或多个压力值中的至少一个、通过修改音频数据 的一个或多个位置值中的至少一个或通过修改音频数据的扩散度值中的 至少一个,来修改所接收音频数据流的音频数据。合成模块可适于根据经 修改的至少一个压力值、根据经修改的至少一个位置值或根据经修改的至 少一个扩散度值,来产生至少一个音频输出信号。

在另一实施方式中,所述声源中的各个声源的位置值中的各个位置值 可包含至少两个坐标值。另外,修改模块可适于在坐标值表明声源位于环 境的预定区域内的位置时,通过将至少一个随机数增加至坐标值,来修改 坐标值。

根据另一实施方式中,所述声源中的各个声源的位置值中的各个位置 值可包含至少两个坐标值。另外,修改模块适于在坐标值表明声源位于环 境的预定区域内的位置时,通过在坐标值上应用确定性函数来修改坐标 值。

在另一实施方式中,所述声源中的各个声源的位置值中的各个位置值 可包含至少两个坐标值。另外,修改模块可适于在坐标值表明声源位于环 境的预定区域内的位置时,修改关于与坐标值相同的声源的音频数据的一 个或多个压力值中的选定压力值。

根据一实施方式,合成模块可包含第一阶段合成单元及第二阶段合成 单元。第一阶段合成单元可适于根据音频数据流的音频数据的一个或多个 压力值中的至少一个、根据音频数据流的音频数据的一个或多个位置值中 的至少一个及根据音频数据流的音频数据的一个或多个扩散度值中的至 少一个,来产生包含直接声音的直接压力信号、包含扩散声音的扩散压力 信号及抵达方向信息。第二阶段合成单元可适于根据直接压力信号、扩散 压力信号及抵达方向信息,来产生至少一个音频输出信号。

根据一实施方式,提供了一种用于产生包含关于一个或多个声源的声 源数据的音频数据流的装置。用于产生音频数据流的装置包含决定器 (determiner),该决定器用于根据由至少一个麦克风记录的至少一个音频 输入信号及根据由至少两个空间麦克风提供的音频边信息,来决定声源数 据。另外,此装置包含用于产生音频数据流,以使得音频数据流包含声源 数据的数据流产生器。声源数据包含各个声源的一个或多个压力值。另外, 声源数据进一步包含表明各个声源的声源位置的一个或多个位置值。另 外,声源数据针对多个时频点中的一个时频点而被定义。

在另一实施方式中,决定器可适于根据扩散度信息,通过至少一个空 间麦克风来决定声源数据。数据流产生器可适于产生音频数据流,以使得 音频数据流包含声源数据。声源数据进一步包含各个声源的一个或多个扩 散度值。

在另一实施方式中,用于产生音频数据流的装置可进一步包含修改模 块,该修改模块用于通过修改与声源中的至少一个相关的音频数据的压力 值中的至少一个、音频数据的位置值中的至少一个或音频数据的扩散度值 中的至少一个,来修改由数据流产生器产生的音频数据流。

根据另一实施方式,所述声源中的各个声源的位置值中的各个位置值 可包含至少两个坐标值(例如笛卡耳坐标系统的两个坐标,或极坐标系统 中的方位角及距离)。修改模块可适于在坐标值表明声源位于环境的预定 区域内的位置时,通过将至少一个随机数增加至坐标值或通过在坐标值上 应用确定性函数来修改坐标值。

根据又一实施方式,提供了一种音频数据流。音频数据流可包含与一 个或多个声源相关的音频数据,其中音频数据包含所述声源中的各个声源 的一个或多个压力值。音频数据可进一步包含表明各个声源的声源位置的 至少一个位置值。在一实施方式中,所述至少一个位置值中的各个位置值 可包含至少两个坐标值。音频数据可被定义用于多个时频点中的一个时频 点。

在另一实施方式中,音频数据进一步包含各个声源的一个或多个扩散 度值。

附图说明

下文将描述本发明的优选实施方式,其中:

图1示出根据一实施方式的用于根据包含与一个或多个声源相关的音 频数据的音频数据流产生至少一个音频输出信号的装置,

图2示出根据一实施方式的用于产生包含关于一个或多个声源的声源 数据的音频数据流的装置,

图3A至图3C示出根据不同实施方式的音频数据流,

图4示出根据另一实施方式的用于产生包含关于一个或多个声源的声 源数据的音频数据流的装置,

图5示出由两个声源及两个均匀线性麦克风阵列组成的声音场景,

图6A示出根据一实施方式,用于根据音频数据流,产生至少一个音 频输出信号的装置600,

图6B示出根据一实施方式,用于产生包含关于一个或多个声源的声 源数据的音频数据流的装置660,

图7示出根据一实施方式的修改模块,

图8示出根据另一实施方式的修改模块,

图9示出根据一实施方式的发射器/分析单元及接收器/合成单元,

图10A示出根据一实施方式的合成模块,

图10B示出根据一实施方式的第一合成阶段单元,

图10C示出根据一实施方式的第二合成阶段单元,

图11示出根据另一实施方式的合成模块,

图12示出根据一实施方式的用于产生虚拟麦克风的音频输出信号的 装置,

图13示出根据一实施方式的用于产生虚拟麦克风的音频输出信号的 装置及方法的输入及输出,

图14示出根据一实施方式的包含声音事件位置估计器及信息计算模 块、用于产生虚拟麦克风的音频输出信号的装置的基本结构,

图15示出真实空间麦克风描绘为各3个麦克风的均匀线性阵列的示 例性情境,

图16示出用于估计3D空间中抵达方向的3D的两个空间麦克风,

图17示出当前时频点(k,n)的各向同性点状声源位于位置pIPLS(k,n) 的几何排列,

图18示出根据一实施方式的信息计算模块,

图19示出根据另一实施方式的信息计算模块,

图20示出两个真实空间麦克风、经定位的声音事件、及虚空间麦克 风的位置,

图21示出根据一实施方式如何获得关于虚拟麦克风的抵达方向,

图22示出根据一实施方式由虚拟麦克风的视点导出声音的DOA的可 能方式,

图23示出根据一实施方式的包含扩散度计算单元的信息计算块,

图24示出根据一实施方式的扩散度计算单元,

图25示出不可能估计声音事件位置的情境,

图26示出根据一实施方式的用于产生虚拟麦克风数据流的装置,

图27示出根据另一实施方式的用于根据音频数据流产生至少一个音 频输出信号的装置,以及

图28A至图28C示出两个麦克风阵列接收直接声音、由墙反射的声 音及扩散声音的情境。

具体实施方式

在提供本发明的实施方式的详细描述之前,描述一种用于产生虚拟麦 克风的音频输出信号的装置,以提供关于本发明的概念的背景信息。

图12示出用于产生音频输出信号以仿真在环境中的可配置虚拟位置 posVmic处的麦克风的记录的装置。此装置包含声音事件位置估计器110 及信息计算模块120。声音事件位置估计器110接收来自第一真实空间麦 克风的第一方向信息di1及来自第二真实空间麦克风的第二方向信息di2。 声音事件位置估计器110适于估计表明环境中发出声波的声源的位置的声 源位置ssp,其中声音事件位置估计器110适于根据由位于环境中第一真 实麦克风位置pos1mic的第一真实空间麦克风提供的第一方向信息di1, 及根据由位于环境中第二真实麦克风位置的第二真实空间麦克风提供的 第二方向信息di2,估计声源位置ssp。信息计算模块120适于根据由第一 真实空间麦克风记录的第一记录音频输入信号is1、根据第一真实麦克风 位置pos1mic及根据虚拟麦克风的虚拟位置posVmic,产生音频输出信号。 信息计算模块120包含传播补偿器,该传播补偿器适于通过调整第一记录 音频输入信号is1的振幅值、量值或相位值,来通过补偿由第一真实空间 麦克风处的声源发出的声波的抵达与虚拟麦克风处的声波的抵达之间的 第一延迟或振幅衰减,来通过修改第一记录音频输入信号is1,产生第一 经修改音频信号。

图13示出根据一实施方式的装置及方法的输入及输出。将来自两个 或更多真实空间麦克风111、112、...、11N的信息馈至装置/通过所述方法 处理。该信息包含由真实空间麦克风拾取的音频信号以及来自真实空间麦 克风的方向信息,例如抵达方向(DOA)估值。可以在时频域中表达音频信 号及诸如抵达方向估值的方向信息。例如,若期望2D几何重建且选择传 统短时间傅立叶转换(STFT)域用于信号的表示,则DOA可表示为依赖于 k及n(即频率和时间索引)的方位角。

在一些实施方式中,可根据常见坐标系统中真实及虚空间麦克风的位 置及方位,来实施空间中声音事件定位,以及虚拟麦克风的位置的描述。 可以第13图中输入121...12N及输入104来表示该信息。如下文将论述, 输入104可额外说明虚空间麦克风的特征,例如,该虚空间麦克风的位置 及拾取模式。若虚空间麦克风包含多个虚拟传感器,则可考虑这些虚拟传 感器的位置及相应不同拾取模式。

当期望时,装置或相应方法的输出可为可通过按照由104说明进行定 义及放置的空间麦克风拾取的一个或多个声音信号105。另外,此装置(或 者说方法)可提供可通过使用虚空间麦克风估计的相应空间边信息106作 为输出。

图14示出根据一实施方式的装置,该装置包含两个主处理单元:声 音事件位置估计器201及信息计算模块202。声音事件位置估计器201可 根据输入111...11N中包含的DOA及根据对计算DOA的真实空间麦克风 的位置及方位的认识,来执行几何重建。声音事件位置估计器的输出205 包含声源的位置估值(在2D或3D中),其中每个时频点发生声音事件。第 二处理块202为信息计算模块。根据图14的实施方式,第二处理块202 计算虚拟麦克风信号及空间边信息。因此,该第二处理块202亦称为虚拟 麦克风信号及边信息计算块202。虚拟麦克风信号及边信息计算块202使 用声音事件的位置205,来处理111…11N中包含的音频信号,以输出虚 拟麦克风音频信号105。若需要,块202亦可计算对应于虚空间麦克风的 空间边信息106。以下一些实施方式示出块201及202可如何操作的可能 性。

在下文中,更详细地描述根据一实施方式的声音事件位置估计器的位 置估计。

取决于问题的维数(2D或3D)及空间麦克风的数量,可以有若干位置 估计方案。

若在2D中存在两个空间麦克风,则(最简单可能的情况)可以进行简 单三角测量(triangulation)。图15示出真实空间麦克风描绘为各3个麦克 风的均匀线性阵列(ULA)的示例性情境。计算时频点(k,n)的表示为方位 角al(k,n)及a2(k,n)的DOA。这通过使用适当DOA估计器来实现,例 如ESPRIT,

[13]R.Roy,A.Paulraj,and T.Kailath,“Direction-of-arrival estimation  by subspace rotation methods–ESPRIT,”in IEEE International Conference  on Acoustics,Speech,and Signal Processing(ICASSP),Stanford,CA,USA, April1986,

或(root)MUSIC,参见

[14]R.Schmidt,“Multiple emitter location and signal parameter  estimation,”IEEE Transactions on Antennas and Propagation,vol.34,no.3, pp.276-280,1986

至转变成为时频域的压力信号。

在图15中,示出两个真实空间麦克风,此处为两个真实空间麦克风 阵列410、420。通过两条线表示两个估计DOA al(k,n)及a2(k,n),第一 线430表示DOA al(k,n),而第二线440表示DOA a2(k,n)。经由简单的 几何考虑了解的每个阵列的位置及方位,三角测量是可能的。

当两条线430、440完全平行时,三角测量失败。然而,在实际应用 中,此状况不太可能。然而,并非所有三角测量结果对应于所考虑空间中 声音事件的物理位置或可行位置。举例而言,声音事件的估计位置可离假 设空间非常远或甚至位于假设空间外,表明DOA可能不对应于能用所使 用的模型物理地解释的任何声音事件。可能由传感器噪声或非常强的房间 交混回响造成这些结果。因此,根据一实施方式,标记这些不期望结果, 以使得信息计算模块202可适当地处理这些结果。

图16示出在3D空间中估计声音事件的位置的情境。使用了适当空间 麦克风,例如,平面或3D麦克风阵列。在图16中,示出第一空间麦克风 510(例如,第一3D麦克风阵列),及第二空间麦克风520(例如,第一3D 麦克风阵列)。3D空间中的DOA可例如,表示为方位角及仰角。可使用 单位向量530、540来表示DOA。根据DOA投影两条线550、560。在3D 中,即使有非常可靠估值,根据DOA所投影的两条线550、560也不可能 相交。然而,例如,可通过选择连接两条线的最小线段的中点来仍执行三 角测量。

类似于2D的情况,三角测量可能失败或可能产生某些方向组合的不 可行结果,然后可亦将这些不可行结果标记至例如图14的信息计算模块 202。

若存在多于两个空间麦克风,则可以有若干方案。举例而言,可对所 有真实空间麦克风对(若N=3,则1与2,1与3,及2与3)执行以上所阐 释的三角测量。然后可将所得位置平均(沿x及y,以及若考虑到3D,z)。

或者,可使用更复杂的概念。举例而言,可应用机率方法,如下文中 所描述:

[15]J.Michael Steele,“Optimal Triangulation of Random Samples in the  Plane”,The Annals of Probability,Vol.10,No.3(Aug.,1982),pp.548-553.

根据一实施方式,可以例如,经由短时间傅立叶转换(STFT)所获得的 时频域分析声场,其中k及n分别表示频率索引k及时间索引n。某一k 及n的任意位置pv处的复合压力Pv(k,n)通过例如使用以下公式建模为由 窄带各向同性点状源发出的单个球面波:

Pv(k,n)=PIPLS(k,n)·γ(k,pIPLS(k,n),pv),    (1)

其中PIPLS(k,n)为由IPLS在该IPLS的位置pIPLS(k,n)处发出的信号。复 合因子γ(k,pIPLS,pv)表示从pIPLS(k,n)至pv的传播,例如,该复合因子γ 引入合适相位及量值修改。此处,可应用假设:在每个时频点中仅一个IPLS 为有效的。然而,在单一时间实体(single time instance)处,位于不同位 置的多个窄带IPLS也可为有效的。

每个IPLS建模直接声音或清楚的房间反射。该IPLS的位置pIPLS(k, n)可理想地分别对应于位于房间内部的实际声源,或位于外面的镜像声 源。因此,位置pIPLS(k,n)亦可表明声音事件的位置。

请注意,术语“真实声源”表示物理存在于记录环境中的实际声源, 诸如通话器或乐器。相反,我们使用“声源”或“声音事件”或“IPLS” 指有效声源,这些有效声源在某些时刻或在某些时频点为有效的,其中声 源可表示例如真实声源或镜像源。

图28A至图28B示出定位声源的麦克风阵列。定位声源可取决于这 些定位声源的性质具有不同的物理解释。当麦克风阵列接收直接声音时, 这些麦克风阵列能够定位正确声源(例如,通话器)的位置。当麦克风阵列 接收反射时,这些麦克风阵列可定位镜像源的位置。镜像源亦为声源。

图28A示出两个麦克风阵列151及152接收来自实际声源(物理存在 声源)153的直接声音的情境。

图28B示出两个麦克风阵列161、162接收反射声音的情境,其中声 音由墙反射。由于反射,麦克风阵列161、162将看起来声音来自该处的 位置定位在镜像源165的位置,该位置不同于话筒163的位置。

图28A的实际声源153以及镜像源165两者均为声源。

图28C示出两个麦克风阵列171、172接收扩散声音且不能够定位声 源的情境。

在源信号满足W分离正交性(WDO)条件的情况下,亦即,时频重迭 足够小,而该单波模型只有在柔和交混回响环境中为准确的。这对于语音 信号通常为正确的,参见,例如,

[12]S.Rickard and Z.Yilmaz,“On the approximate W-disjoint  orthogonality of speech,”in Acoustics,Speech and Signal Processing,2002. ICASSP2002.IEEE International Conference on,April2002,vol.1.

然而,此模型亦提供对于其它环境的良好估值且因此也适用于那些环 境。

在下文中,阐释了根据一实施方式的位置pIPLS(k,n)的估计。有效IPLS 的位置pIPLS(k,n)处于某一时频点,且因此,经由根据在至少两个不同观 测点测量的声音的抵达方向(DOA)的三角测量来估计时频点中声音事件 的估值。

图17示出几何排列(geometry),其中当前时频槽(time-frequency slot) (k,n)的IPLS被定位于未知位置pIPLS(k,n)。为决定所需DOA信息,使 用具有已知几何、位置及方位的两个真实空间麦克风,此处为两个麦克风 阵列,该两个真实空间麦克风分别放置在位置610及620。向量p1及p2分别指向位置610、620。通过单位向量c1及c2定义阵列方位。对于每个 (k,n),使用例如,如由DirAC分析(参见[2]、[3])所提供的DOA估值算 法,来决定位置610及620中声音的DOA。由此,可提供关于麦克风阵 列的视点的第一视点单位向量及第二视点单位向量(两 者在图17中均未示出)作为DirAC分析的输出。举例而言,当在2D中操 作时,第一视点单位向量得到:

如图17中所示,此处,表示第一麦克风阵列处估计的DOA 的方位角。当在2D中操作且c1=[c1,x,c1,y]T时,可通过应用以下公式计算 关于原点处的整体坐标系统的相应DOA单位向量e1(k,n)及e2(k,n),该 公式如下:

e1(k,n)=R1·e1POV(k,n),

e2(k,n)=R2·e2POV(k,n),---(3)

其中R为坐标变换矩阵,例如,

R1=c1,x-c1,yc1,yc1,x,---(4)

为执行三角测量,方向向量d1(k,n)及d2(k,n)可计算为:

d1(k,n)=d1(k,n)e1(k,n),

d2(k,n)=d2(k,n)e2(k,n),    (5)

其中,d1(k,n)=||d1(k,n)||及d2(k,n)=||d2(k,n)||为IPLS与两个麦克风 阵列之间的未知距离。以下等式

p1+d1(k,n)=p2+d2(k,n)     (6)

可求出d1(k,n)。最后,IPLS的位置pIPLS(k,n)由以下等式获得:

pIPLS(k,n)=d1(k,n)e1(k,n)+p1.      (7)

在另一实施方式中,等式(6)可求出d2(k,n)且使用d2(k,n)类似地计 算pIPLS(k,n)。

除非e1(k,n)与e2(k,n)平行,否则等式(6)总是提供当在2D中操作时 的方案。然而,当使用多于两个麦克风阵列或当在3D中操作时,当方向 向量d不相交时,方案不可获得。根据一实施方式,在此情况下,计算出 最靠近所有方向向量d的点且该结果可用作IPLS的位置。

在一实施方式中,所有观测点p1、p2…应被定位为使得由IPLS发出 的声音落入相同时间块n。当观测点中的任何两者之间的距离Δ小于

Δmax=cnFFT(1-R)fs,---(8)

时,可简单地满足该要求,其中nFFT为STFT时窗长度,0≦R<1指定连 续时间帧之间的重迭且fs为取样频率。举例而言,对于48kHz、具有50% 重迭(R=0.5)的1024点STFT,满足上述要求的阵列之间的最大间隔为Δ =3.65m。

在下文中,更详细地描述根据一实施方式的信息计算模块202,例如, 虚拟麦克风信号及边信息计算模块。

图18示出根据一实施方式的信息计算模块202的示意性总览。信息 计算单元包含传播补偿器500、组合器510及频谱加权单元520。信息计 算模块202接收由声音事件位置估计器所估计的声源位置估值ssp,通过 真实空间麦克风中的一个或多个、真实空间麦克风中的一个或多个的位置 posRealMic,及虚拟麦克风的虚拟位置posVmic,来记录一个或多个音频 输入信号。该信息计算模块202输出表示虚拟麦克风的音频信号的音频输 出信号os。

图19示出根据另一实施方式的信息计算模块。图19图的信息计算模 块包含传播补偿器500、组合器510及频谱加权单元520。传播补偿器500 包含传播参数计算模块501及传播补偿模块504。组合器510包含组合因 子计算模块502及组合模块505。频谱加权单元520包含频谱加权计算单 元503、频谱加权应用模块506及空间边信息计算模块507。

为计算虚拟麦克风的音频信号,将几何信息,例如,真实空间麦克风 121...12N的位置及方位、虚空间麦克风的位置、方位及特征104,及声音 事件的位置估值205馈至信息计算模块202中,特别地,馈至传播补偿器 500的传播参数计算模块501中、馈至组合器510的组合因子计算模块502 中及馈至频谱加权单元520的频谱加权计算单元503中。传播参数计算模 块501、组合因子计算模块502及频谱加权计算单元503计算在传播补偿 模块504、组合模块505及频谱加权应用模块506的音频信号111...11N的 修改中所使用的参数。

在信息计算模块202中,可首先修改音频信号111...11N,以补偿由声 音事件位置与真实空间麦克风之间的不同传播长度造成的效果。然后可将 信号组合以改良,例如,信杂比(SNR)。最后,然后可光谱地加权所得信 号,以将虚拟麦克风的定向拾取模式,以及任何距离依赖增益函数纳入考 虑。下文更详细地论述该三个步骤。

现更详细地阐释传播补偿。在图20的上部部分中,示出出两个真实 空间麦克风(第一麦克风阵列910及第二麦克风阵列920)、时频点(k,n) 的定位声音事件930的位置、及虚空间麦克风940的位置。

图20的下部部分描绘时间轴。假设声音事件在时间t0处发出,然后 传播至真实及虚空间麦克风。抵达时间延迟以及振幅随距离而改变,使得 传播长度越远,振幅越弱且抵达时间延迟越长。

只有当两个真实阵列之间的相对延迟Dt12小时,该两个真实阵列的 信号才为可比较的。否则,两个信号中的一个必须短暂地重新对准以补偿 相对延迟Dt12,且可能需要按比例调整以补偿不同衰减。

补偿虚拟麦克风处的抵达与真实麦克风阵列(真实空间麦克风中的一 者)处的抵达之间的延迟,改变独立于声音事件的定位的延迟,进而使得 对于大多数应用,该补偿为多余的。

回到图19,传播参数计算模块501适于计算各真实空间麦克风及各声 音事件的待校正的延迟。若期望,则该传播参数计算模块501也计算待考 虑补偿不同振幅衰减的增益因子。

传播补偿模块504被配置为使用该信息来据此修改音频信号。若欲将 信号移位少量时间(与滤波器组的时窗相比),则简单的相位旋转足够。若 延迟较大,则需要更复杂地实施。

传播补偿模块504的输出为在初始时频域中表达的修改音频信号。

在下文中,将参照图17描述根据一实施方式的虚拟麦克风的传播补 偿的特定估计,图17特别示出第一真实空间麦克风的位置610及第二真 实空间麦克风的位置620。

在现在阐释的实施方式中,假设至少一个第一记录音频输入信号,例 如,真实空间麦克风(例如,麦克风阵列)中的至少一个的压力信号是可获 得的,例如,第一真实空间麦克风的压力信号。我们将把所考虑麦克风称 为参考麦克风,把该麦克风的位置称为参考位置pref且把该麦克风的压力 信号称为参考压力信号Pref(k,n)。然而,传播补偿不仅可关于仅一个压力 信号进行,而且可关于多个或所有真实空间麦克风的压力信号进行。

由IPLS发出的压力信号PIPLS(k,n)与位于Pref的参考麦克风的参考压 力信号Pref(k,n)之间的关系可以公式(9)表达:

Pref(k,n)=PIPLS(k,n)·γ(k,pIPLS,pref),    (9)

通常,复合因子γ(k,pa,pb)表示由从pa中球面波的原点至pb的球面 波的传播引入的相位旋转及振幅衰减。然而,实践测试表明,与还考虑到 相位旋转相比,仅考虑到γ中的振幅衰减导致虚拟麦克风信号具有明显较 少非自然信号的看似可信的印象。

可在空间中的某一点处测量的声能强烈依赖于距声源(在图6中距声 源的位置pIPLS)的距离r。在许多情况下,可以足够准确度使用熟知物理原 理建模该依赖性,例如,在点源的远场中的声压的1/r衰减。当参考麦克 风,例如,第一真实麦克风,距声源的距离已知时,且当虚拟麦克风距声 源的距离亦已知时,则可由参考麦克风(例如第一真实空间麦克风)的信 号及能量来估计虚拟麦克风的位置处的声能。这意味着可通过将适当增益 施加至参考压力信号来获得虚拟麦克风的输出信号。

假设第一真实空间麦克风为参考麦克风,则pref=p1。在图17中,虚 拟麦克风位于pv。由于详细已知的图17中的几何排列,故可易于决定参 考麦克风(图17:第一真实空间麦克风)与IPLS之间的距离d1(k,n)=||d1(k, n)||,以及虚拟麦克风与IPLS之间的距离s(k,n)=||s(k,n)||,即

s(k,n)=||s(k,n)||=||p1+d1(k,n)-pv||.    (10)

通过将公式(1)及(9)组合,计算虚拟麦克风的位置处的声压Pv(k,n), 产生

Pv(k,n)=γ(k,pIPLS,pv)γ(k,pIPLS,pref)Pref(k,n).---(11)

如上所述,在一些实施方式中,因子γ可仅考虑由于传播造成的振幅 衰减。假设,例如,声压以1/r减小,则:

Pv(k,n)=d1(k,n)s(k,n)Pref(k,n).---(12)

当公式(1)中的模型保持时,例如,当仅存在直接声音时,则公式(12) 可准确地重建量信息。然而,在纯扩散声场的情况下,例如,当不满足模 型假设时,当将虚拟麦克风移动远离传感器阵列的位置时,所提供方法产 生信号的隐性去交混回响。实际上,如以上所论述,在扩散声场中,我们 预期大多数IPLS被定位接近两个传感器阵列。因此,当将虚拟麦克风移 动远离这些位置时,我们可能增加图17中的距离s=||s||。因此,当根据 公式(11)应用加权时,参考压力的量值减少。相应地,当将虚拟麦克风移 动接近于实际声源时,将放大对应于直接声音的时频点,以使得将较少扩 散地感知全部音频信号。通过调整公式(12)中的规则,可随意控制直接声 音放大及扩散声音抑制。

通过进行第一真实空间麦克风的记录音频输入信号(例如,压力信号) 的传播补偿,获得第一经修改音频信号。

在一些实施方式中,可通过进行第二真实空间麦克风的记录第二音频 输入信号(第二压力信号)的传播补偿,获得第二经修改音频信号。

在其它实施方式中,可通过进行另外真实空间麦克风的记录的另外的 音频输入信号(另外的压力信号)的传播补偿,获得另外的音频信号。

现更详细地阐释根据一实施方式的图19图中块502与505的组合。 假设已修改来自多个不同真实空间麦克风的两个或更多音频信号来补偿 不同传播路径,以获得两个或更多经修改音频信号。一旦已修改来自不同 真实空间麦克风的音频信号,以补偿不同传播路径,则可将这些音频信号 组合以改良音频质量。通过如此做,例如,可增加SNR或可减少交混回 响感。

组合的可能方案包含:

-加权平均,例如,考虑SNR,或至虚拟麦克风的距离,或由真实空 间麦克风估计的扩散度。传统方案,例如,可使用最大比值组合(MRC)或 均等增益组合(EQC),或

-线性组合一些或所有修改音频信号,以获得组合信号。修改音频信 号可以线性组合加权,以获得组合信号,或

-选择,例如,取决于例如SNR或距离或扩散度,仅使用一个信号。

模块502的任务为,在适用的情况下,计算用于在模块505中执行的 组合的参数。

现更详细地描述根据一些实施方式的频谱加权。为此,参照了图19 图的块503及506。在该最后步骤处,根据如由输入104所指定的虚空间 麦克风的空间特征和/或根据重建几何排列(在205中给出),将由组合或由 输入音频信号的传播补偿所得的音频信号以时频域加权。

如图21所示,对于每个时频点,几何再建允许我们易于获得相关于 虚拟麦克风的DOA。另外,亦可易于计算虚拟麦克风与声音事件的位置 之间的距离。

然后考虑期望虚拟麦克风的类型,计算时频点的加权。

在定向麦克风的情况下,可根据预定拾取模式计算频谱加权。举例而 言,根据一实施方式,心形麦克风可具有由函数g(theta)定义的拾取模式,

g(theta)=0.5+0.5cos(theta),

其中theta为虚空间麦克风的查看方向(look direction)与来自虚拟麦克风 的视点的声音的DOA之间的角度。

另一可能性为艺术(非物理)衰减函数。在某些应用中,可期望抑制声 音事件远离具有因子大于表征自由场传播的因子的虚拟麦克风。为达此目 的,一些实施方式引入依赖于虚拟麦克风与声音事件之间的距离的额外加 权函数。在一实施方式中,仅应拾取距虚拟麦克风某一距离(例如,以米 计)内的声音事件。

关于虚拟麦克风定向,虚拟麦克风可应用任意定向模式。如此做时, 可将源与复合声音场景分开。

由于可以虚拟麦克风的位置pv计算声音的DOA,即

其中cv为描述虚拟麦克风的方位的单位向量,可实现虚拟麦克风的任意定 向。举例而言,假设Pv(k,n)表明组合信号或传播补偿的经修改音频信号, 则公式:

计算具有心形定向的虚拟麦克风的输出。可潜在地以此方式产生的定向模 式依赖于位置估计的准确度。

在一些实施方式中,除真实空间麦克风外,将一个或多个真实、非空 间麦克风,例如,全向麦克风或诸如心形的定向麦克风,放置在声音场景 中,以进一步改良图8中虚拟麦克风信号105的声音质量。这些麦克风不 用以收集任何几何信息,而是仅用以提供更平整的音频信号。可放置这些 麦克风比空间麦克风更接近声源。在此情况下,根据一实施方式,将真实、 非空间麦克风的音频信号及这些麦克风的位置,而非真实空间麦克风的音 频信号,简单地馈至图19图的传播补偿模块504,进行处理。然后关于一 个或多个非空间麦克风的位置,进行非空间麦克风的一个或多个记录音频 信号的传播补偿。通过此举,使用额外非空间麦克风实现一实施方式。

在另一实施方式中,实现了虚拟麦克风的空间边信息的计算。为计算 麦克风的空间边信息106,图19图的信息计算模块202包含空间边信息计 算模块507,该空间边信息计算模块507适于接收声源的位置205及虚拟 麦克风的位置、方位及特征104作为输入。在某些实施方式中,根据需要 计算的边信息106,亦可将虚拟麦克风的音频信号105作为至空间边信息 计算模块507的输入纳入考虑。

空间边信息计算模块507的输出为虚拟麦克风的边信息106。该边信 息可为,例如,来自虚拟麦克风的视点的每个时频点(k,n)的声音的DOA 或扩散度。另一可能边信息可,例如,为已在虚拟麦克风的位置测量的有 效声音强度向量Ia(k,n)。现将描述如何导出这些参数。

根据一实施方式,实现了虚空间麦克风的DOA估计。如图22所示, 信息计算模块120适于根据虚拟麦克风位置向量及根据声音事件位置向 量,估计虚拟麦克风处的抵达方向作为空间边信息。

图22示出从虚拟麦克风的视点导出声音的DOA的可能方式。可使用 位置向量r(k,n),即声音事件位置向量来描述每个时频点(k,n)的由图19 图中块205所提供的声音事件的位置。类似地,可使用位置向量s(k,n), 即虚拟麦克风位置向量,来描述图19图中作为输入104所提供的虚拟麦 克风的位置。可通过向量v(k,n)描述虚拟麦克风的查看方向。通过a(k, n)给出关于虚拟麦克风的DOA。a(k,n)表示v与声音传播路径h(k,n)之 间的角度。可通过使用以下公式计算h(k,n):

h(k,n)=s(k,n)-r(k,n)。

现可计算各(k,n)的期望DOA a(k,n),例如,经由h(k,n)及v(k, n)的点积的定义,即

a(k,n)=arcos(h(k,n)·v(k,n)/(||h(k,n)||||v(k,n)||)。

如图22图所示,在另一实施方式中,信息计算模块120可适于根据 虚拟麦克风位置向量及根据声音事件位置向量,估计虚拟麦克风处的有效 声音强度作为空间边信息。

由以上所定义的DOA a(k,n),我们可导出虚拟麦克风的位置处的有 效声音强度Ia(k,n)。为此,假设图19中虚拟麦克风音频信号105对应 于全向麦克风的输出,例如,我们假设,虚拟麦克风为全向麦克风。另外, 假设图22中的查看方向v平行于坐标系统的x轴。由于期望有效声音强 度向量Ia(k,n)描述经由虚拟麦克风的位置的能量的净流量,故我们可计 算Ia(k,n),例如,根据以下公式:

Ia(k,n)=-(1/2rho)|Pv(k,n)|2*[cos a(k,n),sin a(k,n)]T

其中,[]T表示转置向量,rho为空气密度,且Pv(k,n)为由虚空间麦克风, 例如,图19中块506的输出105所测量的声压。

若要计算以一般坐标系统表示,但仍处于虚拟麦克风的位置处的有效 强度向量,则可应用以下公式:

Ia(k,n)=(1/2rho)|Pv(k,n)|2h(k,n)/||h(k,n)||。

声音的扩散度表示在给定时频槽中,声场扩散如何(参见,例如[2])。 以值ψ表示扩散度,其中0≦ψ≦1。扩散度1表明声场的总声场能量完全 扩散。例如,在空间声音的再生中,该信息极其重要。传统地,在放置麦 克风阵列的空间中的特定点处计算扩散度。

根据一实施方式,可将扩散度作为可随意放置在声音场景中任意位置 处的虚拟麦克风(VM)的所产生边信息的附加参数来计算。通过此举,由于 可产生DirAC流,即声音场景中任意点处的音频信号、抵达方向及扩散度, 故除计算虚拟麦克风的虚拟位置处的音频信号外,亦计算扩散度的装置可 视为虚拟DirAC前端。可在任意多扬声器配置上进一步处理、存储、传输、 及回放DirAC流。在此情况下,收听者体验声音场景,犹如他或她在由虚 拟麦克风指定的位置且以由虚拟麦克风的方位决定的方向查看。

图23示出根据一实施方式的信息计算块,包含用于计算虚拟麦克风 处的扩散度的扩散度计算单元801。信息计算块202适于接收除图14的输 入外,亦包括真实空间麦克风处的扩散度的输入111至11N。令ψ(SM1)至 ψ(SMN)表示这些值。这些额外输入馈至信息计算模块202。扩散度计算单元 801的输出103为在虚拟麦克风的位置处计算的扩散度参数。

在描绘更多细节的图24中示出出一实施方式的扩散度计算单元801。 根据一实施方式,估计了N个空间麦克风中的每一个处的直接及扩散声音 的能量。然后,使用IPLS的位置处的信息、及空间和虚拟麦克风的位置 处的信息,获得虚拟麦克风的位置处的这些能量的N个估值。最后,可将 估值组合以改良估计准确度且可易于计算虚拟麦克风处的扩散度参数。

令至及至表示由能量分析单元810计算的N个 空间麦克风的直接及扩散声音的能量的估值。若Pi为复合压力信号且ψi为第i空间麦克风的扩散度,则可例如根据以下公式计算能量:

Edir(SMi)=(1-Ψi)·|Pi|2

Ediff(SMi)=Ψi·|Pi|2

在所有位置,扩散声音的能量应相等,因此,虚拟麦克风处的扩散声 音能量的估值可例如在扩散度组合单元820中,例如,根据以下公 式简单地通过将至平均来计算:

Ediff(VM)=1NΣi=1NEdiff(SMi)

可通过考虑估计器的差异,例如,通过考虑SNR,来执行估值至 的更有效组合。

由于传播,直接声音的能量依赖于至源的距离。因此,可修改至 以将此纳入考虑。这可例如通过直接声音传播调整单元830来执行。 举例而言,若假设直接声场的能量随距离平方衰减1,则可根据以下公式 计算第i空间麦克风的虚拟麦克风处的直接声音的估值:

类似于扩散度组合单元820,可例如通过直接声音组合单元840将在 不同空间麦克风处所获得的直接声能的估值组合。结果为例如,在 虚拟麦克风处的直接声能的估值。可例如通过扩散度子计算器850,例如 根据以下公式计算虚拟麦克风处的扩散度ψ(VM)

Ψ(VM)=Ediff(VM)Ediff(VM)+Edir(VM)

如上所述,在一些情况下,声音事件位置估计器来执行的声音事件位 置估计失败,例如,在错误的抵达方向估计的情况下。图25示出该情境。 在这些情况下,不管在不同空间麦克风处所估计的扩散度参数且由于接收 作为输入111至11N,由于不可能有空间连贯再生,虚拟麦克风的扩散度 103可设置为1(亦即,完全扩散)。

另外,可考虑在N个空间麦克风处的DOA估值的可靠性。这可例如 按照DOA估计器的差异或SNR来表示。可由扩散度子计算器850将该信 息纳入考虑,以便在DOA估值不可靠的情况下,可人为地增加VM扩散 度103。实际上,因此,位置估值205亦将是不可靠的。

图1示出根据一实施方式的用于根据包含与一个或多个声源相关的音 频数据的音频数据流,产生至少一个音频输出信号的装置150。

装置150包含用于接收包含音频数据的音频数据流的接收器160。音 频数据包含一个或多个所述声源中的各个声源的一个或多个压力值。另 外,音频数据包含表明所述声源中的各个声源的其中一个声源的位置的一 个或多个位置值。另外,此装置包含合成模块170,该合成模块170用于 根据音频数据流的音频数据的一个或多个压力值中的至少一个及根据音 频数据流的音频数据的一个或多个位置值中的至少一个,产生至少一个音 频输出信号。针对多个时频点中一个时频点定义音频数据。对于所述声源 中的各个声源,至少一个压力值包含在音频数据中,其中至少一个压力值 可为关于例如,源自声源的所发出声波的压力值。压力值可为音频信号的 值,例如,由用于产生虚拟麦克风的音频输出信号的装置产生的音频输出 信号的压力值,其中虚拟麦克风放置在声源的位置。

因此,图1示出可使用于接收或处理所提及音频数据流的装置150, 亦即,可在接收器/合成侧使用的装置150。音频数据流包含音频数据,该 音频数据包含多个所述声源中的各个声源的一个或多个压力值及一个或 多个位置值,亦即,关于记录的音频场景的一个或多个声源的特定声源的 压力值及位置值中的各个位置值。这意味着位置值表明声源而非记录麦克 风的位置。关于压力值,这意味着音频数据流包含所述声源中的各个声源 的一个或多个压力值,亦即,压力值表明关于声源而非关于真实空间麦克 风的记录的音频信号。

根据一实施方式,接收器160可适于接收包含音频数据的音频数据流, 其中音频数据进一步包含所述声源中的各个声源的一个或多个扩散度值。 合成模块170可适于根据一个或多个扩散度值中的至少一个,产生至少一 个音频输出信号。

图2示出根据一实施方式的用于产生包含关于一个或多个声源的声源 数据的音频数据流的装置200。用于产生音频数据流的装置200包含决定 器210,该决定器210用于根据由至少一个空间麦克风记录的至少一个音 频输入信号及根据由至少两个空间麦克风提供的音频边信息,来决定声源 数据。另外,装置200包含用于产生音频数据流,以使得音频数据流包含 声源数据的数据流产生器220。声源数据包含所述声源中的各个声源的一 个或多个压力值。另外,声源数据进一步包含表明所述声源中的各个声源 的声源位置的一个或多个位置值。另外,针对多个时频点中的一个时频点 定义声源数据。

然后可传输由装置200产生的音频数据流。因此,可在分析/发射器侧 使用装置200。音频数据流包含音频数据,该音频数据包含多个所述声源 中的各个声源的一个或多个压力值及一个或多个位置值,亦即,关于记录 的音频场景的一个或多个声源的特定声源的压力值及位置值中的各个位 置值。这意味着关于位置值,位置值表明声源而非记录麦克风的位置。

在另一实施方式中,决定器210可适于根据扩散度信息,通过至少一 个空间麦克风决定声源数据。数据流产生器220可适于产生音频数据流, 以使得音频数据流包含声源数据。声源数据进一步包含所述声源中的各个 声源的一个或多个扩散度值。

图3A示出根据一实施方式的音频数据流。音频数据流包含关于在一 时频点为有效的两个声源的音频数据。特别地,第3a示出时频点(k,n) 的音频数据传输,其中k表示频率索引(frequency index)且n表示时间 索引(time index)。音频数据包含第一声源的压力值P1、位置值Q1及扩 散度值ψ1。位置值Q1包含表明第一声源的位置的三个坐标值X1、Y1及 Z1。另外,音频数据包含第二声源的压力值P2、位置值Q2及扩散度值ψ2。 位置值Q2包含表明第二声源的位置的三个坐标值X2、Y2及Z2。

图3B示出根据另一实施方式的音频流。而且,音频数据包含第一声 源的压力值P1、位置值Q1及扩散度值ψ1。位置值Q1包含表明第一声源 的位置的三个坐标值X1、Y1及Z1。另外,音频数据包含第二声源的压 力值P2、位置值Q2及扩散度值ψ2。位置值Q2包含表明第二声源的位置 的三个坐标值X2、Y2及Z2。

图3C提供音频数据流的另一图示。由于音频数据流提供以几何为基 础的空间音频编码(GAC)信息,故该音频数据流亦称为“以几何为基础的 空间音频编码流”或“GAC流”。音频数据流包含关于一个或多个声源(例 如一个或多个各向同性点状源(IPLS))的信息。如以上已阐释的,GAC流 可包含以下信号,其中k及n表示所考虑时频点的频率索引及时间索引:

·P(k,n):声源(例如,IPLS)处的复合压力。该信号可包含直接声音 (源自IPLS自身的声音)及扩散声音。

·Q(k,n):声源(例如,IPLS)的位置(例如,3D中笛卡儿坐标):例如, 位置可包含笛卡儿坐标X(k,n)、Y(k,n)、Z(k,n)。

·IPLS处的扩散度:ψ(k,n)。该参数与P(k,n)中包含的直接扩散声 音的功率比有关。若P(k,n)=Pdir(k,n)+Pdiff(k,n),则表示扩散度的一 可能性为ψ(k,n)=|Pdiff(k,n)|2/|P(k,n)|2。若已知|P(k,n)|2,则可得其 它等效表示,例如,直接扩散比(DDR)Γ=|Pdir(k,n)|2/|Pdiff(k,n)|2

如前所述,k及n分别表示频率索引及时间索引。如果期望并且如果 分析允许,可在给定时频槽表示多于一个IPLS。此在图3C中描绘为M多 层,以便使用Pi(k,n)表示第i层(亦即,第i IPLS)的压力信号。为方便起 见,IPLS的位置可表示为向量Qi(k,n)=[Xi(k,n),Yi(k,n),Zi(k,n)]T。 不同于目前技术水平,将GAC流的所有参数关于一个或多个声源,例如, 关于IPLS来表示,因此实现了独立于记录位置。在图3C中,以及在图 3A及图3B中,所有图中的量在时频域中考虑;为简单起见,省略(k,n) 标注,例如,Pi是指Pi(k,n),例如Pi=Pi(k,n)。

在下文中,更详细地阐释根据一实施方式的用于产生音频数据流的装 置。如图2的装置一样,图4的装置包含决定器210及可类似于决定器210 的数据流产生器220。由于决定器分析音频输入数据,以决定声源数据, 数据流产生器根据该声源数据产生音频数据流,故决定器及数据流产生器 可共同称为“分析模块”(参见图4的分析模块410)。

分析模块410计算来自N个空间麦克风的记录的GAC流。取决于期 望层的数量M(例如,声源的数量,其中对于特定时频点,信息应包含在 音频数据流中),可想到空间麦克风的类型及数量N、用于分析的不同方 法。在下文给出几个实例。

作为第一实例,考虑每一个时频槽一个声源(例如一个IPLS)的进 行参数估计。在M=1的情况下,可使用对于用于产生虚拟麦克风的音频 输出信号的装置的以上阐释的概念易于获得GAC流,其中虚空间麦克风 可放置在声源的位置,例如,IPLS的位置。此允许计算IPLS的位置处的 压力信号,以及相应位置估值,且可计算扩散度。该三个参数在GAC流 中分在一组且可在传输或存储之前,通过图8中模块102进一步操控。

举例而言,决定器可通过使用对于用于产生虚拟麦克风的音频输出信 号的装置的声音事件位置估计所提出的概念,决定声源的位置。另外,决 定器可包含用于产生音频输出信号的装置且可使用声源的决定位置作为 虚拟麦克风的位置,以计算声源的位置处的压力值(例如,待产生的音频 输出信号的值)及扩散度。

特别地,决定器210(例如,在图4中)被配置为决定压力信号、相应 位置估值及相应扩散度,而数据流产生器220被配置为根据所计算的压力 信号、位置估值及扩散度,产生音频数据流。

作为另一实例,考虑每个时频槽2个声源(例如2个IPLS)地进行 参数估计。若分析模块410估计两个声源每时频点,则可使用以下基于现 有估计器的概念。

图5示出由两个声源及两个均匀线性麦克风阵列组成的声音场景。参 照ESPRIT,参见

[26]R.Roy and T.Kailath.ESPRIT-estimation of signal parameters via  rotational invariance techniques.Acoustics,Speech and Signal Processing, IEEE Transactions on,37(7):984–995,July1989.

可在各阵列处分开使用ESPRIT([26]),以获得各阵列处各时频点的两 个DOA估值。由于配对不确定性(pairing ambiguity),这导致源的位置 的两个可能方案。由图5可见,通过(1,2)及(1’,2’)给出两个可能方案。 为解决该不确定性,可应用以下方案。通过使用以所估计源位置的方向定 向的波束形成器并应用适当因子以补偿传播(例如,乘以波所经受的衰减 的倒数),来估计各源处发出的信号。对于每个可能方案,各阵列处的各 源可执行此估计。我们则可将源的各对(i,j)的估测误差定义为:

Ei,j=|Pi,1-Pi,2|+|Pj,1-Pj,2|,    (1)

其中,(i,j)∈{(1,2),(1’,2’)}(参见图5)且Pi,l代表来自声源i、由阵列 r所看到的补偿信号功率。对于正确声源对,错误为最小的。一旦解决了 配对问题且计算了正确的DOA估值,则将它们连同对应压力信号及扩散 度估值分组为GAC流。可使用对于一声源的参数估计已描述的相同方法, 获得压力信号及扩散度估值。

图6A示出根据一实施方式的用于根据音频数据流产生至少一个音频 输出信号的装置600。装置600包含接收器610及合成模块620。接收器 610包含修改模块630,该修改模块630用于通过修改关于声源中的至少 一个的音频数据的压力值中的至少一个、音频数据的位置值中的至少一个 或音频数据的扩散度值中的至少一个,修改所接收音频数据流的音频数 据。

图6B示出根据一实施方式的用于产生包含关于一个或多个声源的声 源数据的音频数据流的装置660。用于产生音频数据流的装置包含决定器 670、数据流产生器680及另一修改模块690,该另一修改模块690用于通 过修改关于声源中的至少一个的音频数据的压力值中的至少一个、音频数 据的位置值中的至少一个或音频数据的扩散度值中的至少一个,来修改由 数据流产生器产生的音频数据流。

在接收器/合成侧使用图6A图的修改模块610,而在发射器/分析侧使 用图6B图的修改模块660。

由修改模块610、660进行的音频数据流的修改亦可视为声音场景的 修改。因此,修改模块610、660亦可称为声音场景操控模块。

由GAC流提供的声场表示允许音频数据流的不同种类的修改,亦即, 因此,声音场景的操控。本文中一些实例为:

1.扩展声音场景中空间/体积的任意部分(例如,点状声源的扩展,以使 得该点状声源对收听者呈现得较宽);

2.将空间/体积的选定部分转换至声音场景中空间/体积的任何其它任 意部分(转换空间/体积可例如包含需要移动至新位置的源);

3.以位置为基础的滤波,其中增强或部分地/完全地抑制声音场景的 选定区域。

在下文中,假设音频数据流(例如,GAC流)的层包含关于特定时频点 的其中一个声源的所有音频数据。

图7示出根据一实施方式的修改模块。图7图的修改单元包含多路分 配器(demultiplexer)401、操控处理器420及多路复用器(multiplexer) 405。

多路分配器401被配置为分开M层GAC流的不同层且形成M个单 层GAC流。另外,操控处理器420包含单元402、403及404,这些单元 在各GAC流上分开应用。另外,多路复用器405被配置为由被操控的单 层GAC流形成所得M层GAC流。

根据来自GAC流的位置数据及关于实际声源(例如,通话器)的位置的 认识,对于每个时频点,能量可与某一真实声源相关联。压力值P则据此 加权,以修改各自真实声源(例如,通话器)的响度。此需要真实声源(例如, 通话器)的位置的先验信息或估值。

在一些实施方式中,若可得关于真实声源的位置的认识,则根据来自 GAC流的位置数据,对于每个时频点,能量可与某一真实声源相关联。

可在用于产生图6A的至少一个音频输出信号的装置600的修改模块 630处,即在用于产生图6B的音频数据流的装置660的接收器/合成侧和/ 或在修改模块690处,即在发射器/分析侧,发生音频数据流(例如,GAC 流)的操控。

举例而言,可在传输之前,或在传输之后合成之前,修改音频数据流, 即GAC流。

不同于接收器/合成侧的图6A的修改模块630,由于在发射器侧可得 来自输入111至11N(记录的信号)及121至12N(空间麦克风的相对位置及 方位)的额外信息,故发射器/分析侧处的图6B的修改模块690可利用该信 息。使用该信息,可实现根据替代性实施方式的修改单元,在图8中描绘 该修改单元。

图9通过示出系统的示意性总览描绘一实施方式,其中在发射器/分析 侧产生GAC流,其中,选择性地,可通过发射器/分析侧处的修改模块102 修改GAC流,其中可选择性地通过接收器/合成侧处的修改模块103修改 GAC流,且其中GAC流用于产生多个音频输出信号191...19L。

在发射器/分析侧处,在单元101中,由输入111至11N,亦即,使用 N≧2个空间麦克风记录的信号,及由输入121至12N,亦即空间麦克风 的相对位置及方位,来计算声场表示(例如GAC流)。

单元101的输出为上述声场表示,该输出在下文中表示为以几何为基 础的空间音频编码(GAC)流。类似于在下文:

[20]Giovanni Del Galdo,Oliver Thiergart,Tobias Weller,and E.A.P. Habets.Generating virtual microphone signals using geometrical information  gathered by distributed arrays.In Third Joint Workshop on Hands-free Speech  Communication and Microphone Arrays(HSCMA’11),Edinburgh,United  Kingdom,May2011.

的建议以及如对于用于产生可组配虚拟位置处的虚拟麦克风的音频输出 信号的装置的描述,以声源(例如,各向同性点状声源(IPLS))的手段建模 复合声音场景,该声源在以时频表示的特定槽为有效的,诸如由短时间傅 立叶转换(STFT)所提供的时频表示。

可在也可称为操控单元的任选修改模块102中进一步处理GAC流。 修改模块102允许多个应用。然后可传输或存储GAC流。GAC流的参数 性质为高效的。在合成/接收器侧处,可使用又一任选修改模块(操控单 元)103。所得GAC流进入产生扬声器信号的合成单元104。在表示独立于 记录的情况下,再生侧处的终端用户可潜在操控声音场景且在声音场景内 自由判断收听位置及方位。

可通过在模块102中在传输之前,或在合成103之前传输之后,据此 修改GAC流,来在图9中修改模块102和/或103处发生音频数据流(例如, GAC流)的修改/操控。不同于接收器/合成端处的修改模块103,由于在发 射器侧可得来自输入111至11N(由空间麦克风提供的音频数据)及121至 12N(空间麦克风的相对位置及方位)的额外信息,故发射器/分析端处的修 改模块102可利用该信息。图8示出使用该信息的修改模块的替代性实施 方式。

在下文中,参照图7图及图8,描述GAC流的操控的不同概念的实 例。具有相同参考信号的单元具有相同功能。

1.体积扩展

假设场景中某一能量定位于体积V内。体积V可表明环境的预定区 域。Θ表示时频点(k,n)的集合,其中相应声源,例如,IPLS,定位在体 积V内。

若期望体积V扩展至另一体积V’,则这可通过每当(k,n)∈Θ(在 判断单元403中评估)且取代Q(k,n)=[X(k,n),Y(k,n),Z(k,n)]T(为简 明起见,略去索引层)时,将随机项增加至GAC流中的位置数据来实现, 使得图7图及图8中单元404的输出431至43M变成

Q(k,n)=[X(k,n)+Φx(k,n);Y(k,n)+Φy(k,n)Z(k,n)+Φz(k, n)]T     (2)

其中,Φx、Φy及Φz为随机变量,该随机变量的范围取决于新体积V’相对 于初始体积V的几何排列。例如,可使用该概念以使得感知声源较宽。在 该实例中,初始体积V无穷小,亦即,声源(例如IPLS)应定位在相同 点处,对于所有(k,n)∈Θ,Q(k,n)=[X(k,n),Y(k,n),Z(k,n)]T。该 机制可视为位置参数Q(k,n)的抖动形式。

根据一实施方式,所述声源中的各个声源的位置值中的各个位置值包 含至少两个坐标值,且当坐标值表明声源位于环境的预定区域内的位置 时,修改模块适于通过将至少一个随机数增加至坐标值来修改坐标值。

2.体积转换

除体积扩展外,可修改来自GAC流的位置数据,以再设置(relocate) 声场内空间/体积的部分。在此情况下,同样,待操控数据包含定位能量 (localized energy)的空间坐标。

V再次表示应该再设置的体积,且Θ表示所有时频点(k,n)的集合, 其中能量定位于体积V内。此外,体积V可表明环境的预定区域。

可通过修改GAC流来实现体积再设置,以使得对于所有时频点(k, n)∈Θ,在单元404的输出431至43M处以f(Q(k,n))取代Q(k,n),其中 f为描述待执行体积操控的空间坐标(X,Y,Z)的函数。函数f可表示简单 线性转换,诸如,旋转、移位或任何其它复合非线性映射。此技术可用于, 例如,通过确保Θ对应于时频点的设置,在声音场景内将声源从一个位置 移动至另一位置,其中声源定位在体积V内。该技术允许整个声音场景的 其它复合操控,诸如场景成镜像、场景旋转、场景扩大和/或压缩等。举例 而言,通过在体积V上应用合适线性映射,可实现体积扩展的互补效果, 亦即,体积收缩。这可通过将(k,n)∈Θ的Q(k,n)映射至f(Q(k,n))∈V’ 来达成,其中且V’包含显著小于V的体积。

根据一实施方式,当坐标值表明声源位于环境的预定区域内的位置 时,修改模块适于通过在坐标值上应用确定性函数,来修改坐标值。

3.以位置为基础的滤波

以几何为基础的滤波(或以位置为基础的滤波)观念提供一种从声音场 景增强或完全地/部分地移除空间/体积的部分的方法。然而,与体积扩展 及转换技术相比,在此情况下,通过应用合适标量加权,仅修改来自GAC 流的压力数据。

如图8中所描绘,在以几何为基础的滤波中,在发射器侧102与接收 器侧修改模块103之间可制造区别,其中,该发射器侧102可使用输入111 至11N及121至12N,以辅助合适滤波器加权的计算。假设目标为抑制/ 增强源自空间/体积V的选定部分的能量,则可如下应用以几何为基础的 滤波:

对于所有(k,n)∈Θ,在402的输出,将GAC流中复合压力P(k,n) 修改至ηP(k,n),其中η为通过例如单元402计算出的真实加权因子。在 一些实施方式中,模块402亦可适于取决于扩散度,计算加权因子。

可在多个应用中使用以几何为基础的滤波的概念,例如,信号增强及 源分离。一些应用及所要求的先验信息包含:

·去交混回响(dereverberation)。通过已知房间几何排列,空间滤波器 可用于抑制定位在房间边界外、可由多路径传播引起的能量。本应用例如 对于会议室及汽车中的免手持通讯具有好处。注意,为抑制晚期交混回响, 在高扩散度的情况下接近滤波器是足够的,而为抑制早期反射,位置依赖 性滤波器为更有效的。在此情况下,如已提及,需要先前已知房间的几何 排列。

·背景噪声抑制。类似概念亦可用以抑制背景噪声。若已知可设置源 的可能区域(例如,会议室中参与者的椅子或汽车中座位),则定位在这些 区域外的能量与背景噪声相关联且因此通过空间滤波器抑制。本应用需要 根据源的近似位置的GAC流的可得数据的先验信息或估值。

·点状干涉的抑制。若干涉在空间中清楚地定位而非扩散,则可应用 以位置为基础的滤波,以弱化定位在干涉的位置的能量。这要求干涉的位 置的先验信息或估值。

·回音控制。在此情况下,待抑制干涉为扬声器信号。为达此目的, 类似于在点状干涉的情况下,抑制精确定位在扬声器位置或处于扬声器位 置的近邻域处的能量。此需要扬声器位置的先验信息或估值。

·增强的语音检测。与以几何为基础的滤波发明相关联的信号增强技 术可实施为例如,汽车中,常规语音有效性检测系统的预处理步骤。可使 用去交混回响,或噪声抑制作为附加件(add-ons)以改良系统效能。

·监视。仅保留来自某些区域的能量而抑制其余区域的能量是在监视 应用中常使用的技术。该技术需要感兴趣区域的几何排列及位置的先验信 息。

·源分离。在具有多个同时有效源的环境中,可应用以几何为基础的 空间滤波进行源分离。将适当设计的空间滤波器居中放置在源的位置,此 导致其它同时有效源的抑制/衰减。可使用该创新例如作为在SAOC中的 前端。需要源位置的先验信息或估值。

·位置依赖性自动增益控制(AGC)。在电信会议应用中,可使用位置 依赖性加权以例如均衡化不同通话器的响度。

在下文中,描述根据一些实施方式的合成模块。根据一实施方式,合 成模块可适于根据音频数据流的音频数据的至少一个压力值及根据音频 数据流的音频数据的至少一个位置值,来产生至少一个音频输出信号。至 少一个压力值可为压力信号(例如音频信号)的压力值。

GAC合成的操作原理根据对下文中所给出空间声音的感知的假设,

[27]WO2004077884:Tapio Lokki,Juha Merimaa,and Ville Pulkki. Method for reproducing natural or modified spatial impression in multichannel  listening,2006.

特别地,可通过正确地再生各时频点的非扩散声音的一个抵达方向, 来获得正确感知声音场景的空间影像必需的空间信号。因此将图10A所描 绘的合成分成两个阶段。

第一阶段考虑声音场景内收听者的位置及方位,并决定对于各时频 点,哪个M IPLS为支配性的。因此,可计算该支配性M IPLS的压力信 号Pdir及抵达方向θ。在第二压力信号Pdiff中收集剩余源及扩散声音。

第二阶段与[27]中所描述的DirAC合成的后半部分一致。使用产生点 状源的摇摄机制(panning mechanism)再生非扩散声音,而由已经去相关 之后的所有扬声器再生扩散声音。

图10A示出根据一实施方式的说明GAC流的合成的合成模块。

第一阶段合成单元501计算需要不同回放的压力信号Pdir及Pdiff。实 际上,Pdir包含必须在空间中连贯回放的声音,而Pdiff包含扩散声音。第 一阶段合成单元501的第三输出为来自期望收听位置的视点的抵达方向 (DOA)θ505,亦即,抵达方向信息。注意,若2D空间,则抵达方向(DOA) 可表示为方位角,或在3D中为方位角与仰角对。等效地,可使用指向DOA 的单位法线向量。DOA指定信号Pdir会来自哪个方向(关于期望收听位置)。 第一阶段合成单元501采取GAC流作为输入,亦即,声场的参数表示, 且根据由输入141指定的收听者位置及方位计算上述信号。实际上,终端 用户可自由判断由GAC流描述的声音场景内的收听位置及方位。

第二阶段合成单元502根据对扬声器配置131的认识,计算L扬声器 信号511至51L。请注意,单元502与[27]中所描述的DirAC合成的后半 部分一致。

图10B示出根据一实施方式的第一合成阶段单元。提供至块的输入为 由M个层组成的GAC流。在第一步骤中,单元601将M个层多路分配 至各个层的M平行GAC流。

第i GAC流包含压力信号Pi、扩散度ψi及位置向量Qi=[Xi,Yi,Zi]T。 压力信号Pi包含一个或多个压力值。位置向量为位置值。现根据这些值产 生至少一个音频输出信号。

通过应用由扩散度ψi导出的适当因子,由Pi获得直接及扩散声音的 压力信号Pdir,i及Pdiff,i。包含直接声音的压力信号进入传播补偿块602,该 传播补偿块602计算对应于从声源位置(例如IPLS位置)至收听者位置 的信号传播的延迟。除此之外,块亦计算对于补偿不同量衰减所需要的增 益因子。在其它实施方式中,仅补偿不同量衰减,而不补偿延迟。

由表示的补偿压力信号进入块603,该块603输出最强输入的索 引imax

imax=argmaxi|Pdir,i|2---(3)

该机制的要点为在所研究的时频点有效的M个IPLS中,仅最强者(关 于收听者位置)将连贯回放(亦即,作为直接声音)。块604及605从它们的 输入选择由imax定义的输入。块607计算第imaxIPLS关于收听者的位置及 方位(输入141)的抵达方向。块604的输出对应于块501的输出,即 将通过块502回放作为直接声音的声音信号Pdir。扩散声音,即输出504 Pdiff,包含M个分支中所有扩散声音的和以及所有直接声音信号第 imax除外,即jimax.

图10C示出第二合成阶段单元502。如已提及,该阶段与[27]中所提 出的合成模块的后半部分一致。通过例如摇摄将非扩散声音Pdir503再生 为点状源,在块701中根据抵达方向(505)计算该非扩散声音Pdir503的增 益。另一方面,扩散声音,Pdiff,通过L个不同的去相关器(711至71L)。 对于各L个扬声器信号,在通过反向滤波器组(703)之前,增加直接及扩散 声音路径。

图11示出根据一替代性实施方式的合成模块。以时频域考虑图中的 所有量;出于简明考虑,省略(k,n)标注,例如,Pi=Pi(k,n)。为改良再 生的音频质量,在特定复合声音场景,例如,若干源同时有效的情况下, 可,例如,如图11图所示实现合成模块,例如,合成模块104。代替选择 待连贯再生的最支配性的IPLS,图11中的合成分开执行M层中的每一者 的完全合成。来自第i层的L个扬声器信号为块502的输出且以191i至19Li表示。第一合成阶段单元501的输出处的第h扬声器信号19h为19h1至 19hM的和。请注意,不同于图10B,对于M个层中的各层需要执行块607 中的DOA估计步骤。

图26示出根据一实施方式的用于产生虚拟麦克风数据流的装置950。 用于产生虚拟麦克风数据流的装置950包含装置960及装置970,该装置 960用于根据上述实施方式的一个实施方式,例如,根据图12,产生虚拟 麦克风的音频输出信号,且该装置970用于根据上述实施方式的一个实施 方式,例如,根据图2,产生音频数据流,其中由用于产生音频数据流的 装置970产生的音频数据流为虚拟麦克风数据流。

例如,图26中用于产生虚拟麦克风的音频输出信号的装置960包含 如在图12中的声音事件位置估计器及信息计算模块。声音事件位置估计 器适于估计表明环境中声源的位置的声源位置,其中声音事件位置估计器 适于根据由位于环境中第一真实麦克风位置的第一真实空间麦克风提供 的第一方向信息,及根据由位于环境中第二真实麦克风位置的第二真实空 间麦克风提供的第二方向信息,来估计声源位置。信息计算模块适于根据 记录的音频输入信号,根据第一真实麦克风位置及根据经计算麦克风位 置,来产生音频输出信号。

用于产生虚拟麦克风的音频输出信号的装置960被布置为将音频输出 信号提供至用于产生音频数据流的装置970。用于产生音频数据流的装置 970包含决定器,例如,关于图2描述的决定器210。用于产生音频数据 流的装置970的决定器根据由用于产生虚拟麦克风的音频输出信号的装置 960提供的音频输出信号,决定声源数据。

图27示出根据上述实施方式中的一个的用于根据音频数据流产生至 少一个音频输出信号的装置980,例如,根据权利要求1所述的装置,该 装置被配置为根据作为音频数据流的虚拟麦克风数据流,来产生音频输出 信号,该虚拟麦克风数据流由用于产生虚拟麦克风数据流的装置950(例如 图26中的装置950)提供。

用于产生虚拟麦克风数据流的装置980将所产生的虚拟麦克风信号馈 至用于根据音频数据流产生至少一个音频输出信号的装置980中。应注意, 虚拟麦克风数据流为音频数据流。用于根据音频数据流产生至少一个音频 输出信号的装置980,根据作为音频数据流的虚拟麦克风数据流,产生音 频输出信号,例如,如关于图1的装置所描述。

虽然己针对装置描述了一些方面,但是很明显这些方面也表示对应方 法的描述,其中块或设备对应于方法步骤或方法步骤的特征。类似地,已 针对方法步骤描述的方面也表示对应单元或项目或对应装置的特征的描 述。

可将发明的分解信号存储于数字存储介质上或可传送到诸如无线传 输介质的传输介质上或诸如因特网的有线传输介质上。

取决于某些实施要求,本发明的实施方式可以硬件或软件实施。可使 用数字存储介质来执行实施方案,数字存储介质例如为软盘、DVD、CD、 ROM、PROM、EPROM、EEPROM或闪存,数字存储介质上存储有电子 可读取控制信号,这些电子可读取控制信号与可编程计算机系统结合(或 能够结合),以执行各个方法。

根据本发明的一些实施方式包含具有电子可读取控制信号的非瞬态 数据载体,这些电子可读取控制信号能够与可编程计算机系统结合,以执 行本文所述方法之一。

通常,本发明的实施方式可作为具有程序代码的计算机程序产品来实 施,当计算机程序产品在计算机执行上时,该程序代码可操作用于执行方 法之一。程序代码可例如存储于机器可读取载体上。

其它实施方式包含用于执行本文所述方法之一且存储于机器可读取 载体上的计算机程序。

换言之,本发明方法的一实施方式因此为具有程序代码的计算机程 序,当计算机程序在计算机上执行时,计算机程序用于执行本文所述的方 法之一。

因此,本发明方法的又一实施方式为包含用于执行本文所述方法之一 的计算机程序,且记录有计算机程序的数据载体(或数字存储介质,或计 算机可读取介质)。

因此,本发明方法的又一实施方式为表示用于执行本文所述方法之一 的计算机程序的数据流或信号序列。数据流或信号序列可例如被配置为经 由数据通讯连接,例如经由因特网来进行转送。

又一实施方式包含被配置为或适于以执行本文所述方法之一的处理 装置,例如计算机或可编程逻辑设备。

又一实施方式包含安装有用于执行本文所述方法之一的计算机程序 的计算机。

在一些实施方式中,可编程逻辑设备(例如现场可编程门阵列)可用来 执行本文所述方法的功能性中的一些或全部。在一些实施方式中,现场可 编程门阵列可与微处理器结合以执行本文所述方法之一。通常,这些方法 优选由任何硬件装置执行。

上述实施方式仅为说明本发明的原理。应理解,配置的修改及变化及 本文所述的细节对于本领域技术人员将是显而易见的。因此,本发明仅受 本申请权利要求书的范围限制,而不受以描述及阐释本文实施方式的方式 提供的特定细节来限制。

参考文献:

[1]Michael A.Gerzon.Ambisonics in multichannel broadcasting and  video.J.Audio Eng.Soc,33(11):859–871,1985.

[2]V.Pulkki,“Directional audio coding in spatial sound reproduction and  stereo upmixing,”in Proceedings of the AES28th International Conference, pp.251-258,Sweden,June30-July2,2006.

[3]V.Pulkki,“Spatial sound reproduction with directional audio coding,” J.Audio Eng.Soc.,vol.55,no.6,pp.503-516,June2007.

[4]C.Faller:“Microphone Front-Ends for Spatial Audio Coders”,in  Proceedings of the AES125th International Convention,San Francisco,Oct. 2008.

[5]M.Kallinger,H.Ochsenfeld,G.Del Galdo,F.Küch,D.Mahne, R.Schultz-Amling.and O.Thiergart,“A spatial filtering approach for  directional audio coding,”in Audio Engineering Society Convention126, Munich,Germany,May2009.

[6]R.Schultz-Amling,F.Küch,O.Thiergart,and M.Kallinger, “Acoustical zooming based on a parametric sound field representation,”in  Audio Engineering Society Convention128,London UK,May2010.

[7]J.Herre,C.Falch,D.Mahne,G.Del Galdo,M.Kallinger,and O. Thiergart,“Interactive teleconferencing combining spatial audio object coding  and DirAC technology,”in Audio Engineering Society Convention128, London UK,May2010.

[8]E.G.Williams,Fourier Acoustics:Sound Radiation and Nearfield  Acoustical Holography,Academic Press,1999.

[9]A.Kuntz and R.Rabenstein,“Limitations in the extrapolation of wave  fields from circular measurements,”in15th European Signal Processing  Conference(EUSIPCO2007),2007.

[10]A.Walther and C.Faller,“Linear simulation of spaced microphone  arrays using b-format recordings,”in Audio Engineering Society Convention  128,London UK,May2010.

[11]US61/287,596:An Apparatus and a Method for Converting a First  Parametric Spatial Audio Signal into a Second Parametric Spatial Audio  Signal.

[12]S.Rickard and Z.Yilmaz,“On the approximate W-disjoint  orthogonality of speech,”in Acoustics,Speech and Signal Processing,2002. ICASSP2002.IEEE International Conference on,April2002,vol.1.

[13]R.Roy,A.Paulraj,and T.Kailath,“Direction-of-arrival estimation  by subspace rotation methods–ESPRIT,”in IEEE International Conference on  Acoustics,Speech,and Signal Processing(ICASSP),Stanford,CA,USA, April1986.

[14]R.Schmidt,“Multiple emitter location and signal parameter  estimation,”IEEE Transactions on Antennas and Propagation,vol.34,no.3, pp.276-280,1986.

[15]J.Michael Steele,“Optimal Triangulation of Random Samples in the  Plane”,The Annals of Probability,Vol.10,No.3(Aug.,1982),pp.548-553.

[16]F.J.Fahy,Sound Intensity,Essex:Elsevier Science Publishers Ltd., 1989.

[17]R.Schultz-Amling,F.Küch,M.Kallinger,G.Del Galdo,T.Ahonen  and V.Pulkki,“Planar microphone array processing for the analysis and  reproduction of spatial audio using directional audio coding,”in Audio  Engineering Society Convention124,Amsterdam,The Netherlands,May  2008.

[18]M.Kallinger,F.Küch,R.Schultz-Amling,G.Del Galdo,T.Ahonen  and V.Pulkki,“Enhanced direction estimation using microphone arrays for  directional audio coding;”in Hands-Free Speech Communication and  Microphone Arrays,2008.HSCMA2008,May2008,pp.45-48.

[19]R.K.Furness,“Ambisonics-An overview,”in AES8th International  Conference,April1990,pp.181-189.

[20]Giovanni Del Galdo,Oliver Thiergart,TobiasWeller,and E.A.P. Habets.Generating virtual microphone signals using geometrical information  gathered by distributed arrays.In Third Joint Workshop on Hands-free Speech  Communication and Microphone Arrays(HSCMA’11),Edinburgh,United  Kingdom,May2011.

[21]J.Herre,K.,J.Breebaart,C.Faller,S.Disch,H. Purnhagen,J.Koppens,J.Hilpert,J.W.Oomen,K.Linzmeier, K.S.Chong:“MPEG Surround–The ISO/MPEG Standard for Efficient and  Compatible Multichannel Audio Coding”,122nd AES Convention,Vienna, Austria,2007,Preprint7084.

[22]Giovanni Del Galdo,Oliver Thiergart,Tobias Weller,and E.A.P. Habets.Generating virtual microphone signals using geometrical information  gathered by distributed arrays.In Third Joint Workshop on Hands-free Speech  Communication and Microphone Arrays(HSCMA’11),Edinburgh,United  Kingdom,May2011.

[23]C.Faller.Microphone front-ends for spatial audio coders.In Proc.of  the AES125th International Convention,San Francisco,Oct.2008.

[24]Emmanuel Gallo and Nicolas Tsingos.Extracting and re-rendering  structured auditory scenes from field recordings.In AES30th International  Conference on Intelligent Audio Environments,2007.

[25]Jeroen Breebaart,Jonas ,Cornelia Falch,Oliver  Hellmuth,Johannes Hilpert,Andreas Hoelzer,Jeroens Koppens,Werner  Oomen,Barbara Resch,Erik Schuijers,and Leonid Terentiev.Spatial audio  object coding(saoc)-the upcoming mpeg standard on parametric object based  audio coding.In Audio Engineering Society Convention124,52008.

[26]R.Roy and T.Kailath.ESPRIT-estimation of signal parameters via  rotational invariance techniques.Acoustics,Speech and Signal Processing, IEEE Transactions on,37(7):984–995,July1989.

[27]WO2004077884:Tapio Lokki,Juha Merimaa,and Ville Pulkki. Method for reproducing natural or modified spatial impression in multichannel  listening,2006.

[28]Svein Berge.Device and method for converting spatial audio signal. US patent application,Appl.No.10/547,151.

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号