首页> 中国专利> 用于解析到达方向估计的模糊度的设备和方法

用于解析到达方向估计的模糊度的设备和方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

一种用于解析DOA估计（105）中的模糊度的设备（100），包括：DOA模糊分析器（110），用于通过使用偏差信息（101）来分析DOA估计（105）以获得多个模糊分析参数（115）偏差信息（101）表示有偏DOA估计和无偏DOA估计之间的关系以及模糊度解析器（120），用于解析多个模糊分析参数（115）中的模糊度，以获得非模糊解析参数

著录项

公开/公告号CN103180752A

专利类型发明专利
公开/公告日2013-06-26

原文格式PDF
申请/专利权人弗兰霍菲尔运输应用研究公司;
展开▼

申请/专利号CN201180050678.5
发明设计人马库斯·卡琳格尔;乔瓦尼·德尔加尔多;法比安·库奇;奥利弗·蒂尔加特;迪尔克·玛赫内;阿希姆·昆茨;理查德·舒尔茨-阿姆林;
展开▼

申请日2011-08-23
分类号G01S3/802(20060101);H04R3/00(20060101);
代理机构11240 北京康信知识产权代理有限责任公司;
代理人余刚;吴孟秋
地址德国慕尼黑
入库时间 2024-02-19 19:50:28

法律信息

法律状态公告日

法律状态信息

法律状态
2016-08-10

授权

授权
2016-01-13

著录事项变更 IPC(主分类):G01S3/802 变更前: 变更后: 申请日:20110823

著录事项变更
2013-07-24

实质审查的生效 IPC(主分类):G01S3/802 申请日:20110823

实质审查的生效
2013-06-26

公开

公开

说明书

技术领域

本发明通常涉及用于解析到达方向估计的模糊度的设备和方法。本发明的进一步的实施方式涉及增强模糊空间音频参数估计。

背景技术

本发明定位于麦克风前端的空间音频编码的背景中。我们关注参数技术，即，通过伴随着参数侧边信息的一个或多个音频信号来描述空间声音。侧边信息是基于至少两个侧麦克风来获得的。麦克风布置和信号处理架构通常被设计为覆盖所关注的特定频率范围，其中，严格满足所需的规范。在该感兴趣的区域之外，可能会发生所需空间选择性的显著偏差。极端偏差由所谓的空间混叠组成。在音域分析上下文中，空间混叠的最重要的效果是声音的到达方向的估计变得模糊。因此，在一个或多个其他方向，也观察到了仅针对一个特定方向所期望或需要的特定行为。

空间音频编码的目的由通过伴随有参数侧边信息的一些音频信道再生空间声学场景组成。因此，一个普遍问题是，不精确的参数估计将会引起再生过程或使用该空间参数的任何其他处理单元（例如，用于定向过滤）不想要的结果。该考虑适用于上述受影响的频率范围，特别是在发生空间混叠时。

发明内容

因此，本发明的目的是提供用于空间参数处理的改进概念。

该目的是通过根据权利要求1的设备、根据权利要求14的方法、或根据权利要求15的计算机程序来实现的。

根据本发明实施方式，用于解决DOA估计模糊度的设备包括DOA 估计分析器和模糊度解析器。DOA估计分析器被配置为通过使用偏差信息分析DOA估计以获得多个模糊分析参数。这里，偏差信息表示有偏和无偏DOA估计之间的关系。此外，模糊度解析器被配置为解析多个模糊分析参数中的模糊度，以获得非模糊解析参数。

本发明的基本思想在于，如果通过使用偏差信息（偏差信息表示有偏和无偏DOA估计之间的关系）来分析DOA估计以获得多个模糊分析参数，并且如果解析多个模糊分析参数中的模糊度以获得非模糊的解析参数，可以实现改进的空间参数处理。该测量使得可以解析由空间混叠引起的不精确DOA参数估计导致的模糊。

根据另一实施方式，DOA估计分析器被配置为基于偏差函数将DOA 估计与多个模糊无偏DOA估计关联，其中，偏差函数由偏差信息指示。这里，多个模糊无偏DOA估计对应于多个模糊分析参数。此外，模糊度解析器被配置为通过使用一个或多个有效源的先验本地化信息确定多个模糊无偏DOA估计中的非模糊解析参数，这基本上允许从关于声音源的位置的先验信息获得具体或校正的DOA参数。

根据又一实施方式，DOA估计分析器被配置为针对多个模糊分析参数中的每个模糊分析参数生成多个分支，其中，多个分支反映了多个模糊分析参数中的模糊度。这里，DOA估计分析器被配置为从DOA估计中直接获得多个分支，或者进一步处理多个模糊无偏DOA估计以获得多个分支。另外，DOA估计分析器被配置为计算光谱加权操作的增益参数。可选地，DOA估计分析器可以被配置为通过替代方法（例如，加法，减法）或采用与光谱加权操作类似的算法进行光谱调制。此外，模糊度解析器被配置为确定表示模糊分析参数的多个分支中的非模糊解析参数。因此，可以获得光谱加权操作（诸如定向音频编码领域中的呈现或定向过滤）的适当增益参数。此外，通过这种测量，不需要获取先验本地化信息。

在另一实施方式中，DOA估计分析器被配置为在单个处理步骤中获得多个分支，使得提供了在连续执行两个处理步骤时获得的处理结果。特别地，对于多个分支中的每个分支，DOA估计分析器可以包括参数处理单元，其中，参数处理单元可以被配置为使DOA估计与由处理结果指示的预定模糊分析参数相关。这样，当解析了多个模糊分析参数中的模糊度时，可以实现更高的处理效率或计算工作量的减少。

本发明的另一实施方式提供了一种用于解析DOA估计的模糊度的方法。

附图说明

以下，将参照附图说明本发明的实施方式，在附图中：

图1示出了用于解析DOA估计的模糊度的设备的实施方式的框图；

图2示出了用于通过使用先验本地化信息解析DOA估计的模糊度的设备的另一实施方式的框图；

图3示出了利用用于选择非模糊解析参数的选择器来解析DOA估计的模糊度的设备的另一实施方式的框图；

图4示出了利用映射器来解析DOA估计的模糊度的设备的另一实施方式的框图，该映射器用于将多个模糊无偏DOA估计映射至非模糊解析参数；

图5示出了根据图4的具有数字生成器的映射器的实施方式的框图；

图6示出了利用用于提供先验本地化信息的本地化信息提供器来解析DOA估计的模糊度的设备的另一实施方式的框图；

图7示出了用于利用增益参数计算来解析DOA估计的模糊度的设备的另一实施方式的框图；

图8示出了包括模糊无偏DOA估计生成器和参数处理器的用于解析 DOA估计的模糊度的设备的另一实施方式的框图；

图9示出了用于通过在单个步骤中获得处理结果的多个参数处理单元来解析DOA估计的模糊度的设备的另一实施方式的框图；

图10示出了参数空间音频编码器的示意图；

图11示出了参数空间音频解码器的示意图；

图12示出了在中心具有第五个全向麦克风的全向麦克风的方形阵列的示意图；

图13示出了根据本发明实施方式的在4KHz和7kHz之间的频率的方位角估计的示例图；

图14示出了根据本发明实施方式的作为用于3个扬声器设置的DOA 函数的左右平移增益（panning gain）的示例性曲线图；

图15示出了根据本发明实施方式的方向过滤增益函数的示例方向图；

图16示出了解析空间参数估计的模糊度的设备的实施方式的总体结构；

图17示出了根据本发明实施方式的用于校正有偏DOA估计的结构；

图18示出了根据本发明实施方式的作为高于空间混叠频率的无偏 DOA的函数的估计DOA的示例曲线图；

图19示出了根据本发明另一实施方式的作为无偏DOA的函数的估计DOA的示例曲线图；

图20示出了根据本发明实施方式的具有其各自的概率密度函数的两个有效源（active source）的示例曲线图；

图21示出了根据本发明实施方式的作为DOA的函数的定向过滤的示例性设计函数；

图22示出了根据本发明实施方式的调节作为模糊DOA的函数运行的处理单元以生成校正的输出函数的结构。

具体实施方式

图1示出了用于解析DOA估计105的模糊度的设备100的实施方式的框图。DOA估计105可以通过使用DOA估计器从空间音频信号中获得。这里，空间音频信号可以包括全向的和多个不同方向的偶极信号。从空间音频信号获得的DOA估计105可以对应于DirAC参数，并且可以用声音的DOA的角来表示。特别地，DOA估计105可以取决于时间和频率，其中，k表示时间块，m表示频带。另外，DOA估计105，实质上对应于源自一个或多个活动声音源的不精确或模糊DOA估计。参照图1，设备100包括DOA估计分析器110和模糊度解析器120。从图1中可以看出，DOA估计分析器110被配置为用于通过使用偏差信息101分析DOA估计105以获得多个模糊分析参数。这里，偏差信息101 表示有偏DOA估计和无偏DOA估计之间的关系特别指出， DOA估计可以表示有偏或无偏DOA估计。此外，模糊度解析器120被配置为解析多个模糊分析参数115的模糊，以获得非模糊解析参数125。

图2示出了通过使用先验本地化或空间信息211解析DOA估计105 的模糊度的设备200的另一实施方式的框图。如图2所示，设备200包括 DOA估计分析器210，其被配置为基于偏差函数201，使DOA 估计105，与多个模糊无偏DOA估计215，相关。图2中示出的设备200的DOA估计分析器210可以对应于图1中示出的设备100 的DOA估计分析器110。这里，由图2中的DOA估计分析器210使用的偏差函数201可以用图1中的偏差信息101表示，而在图2中的DOA估计分析器210的输出的多个模糊无偏DOA估计215，可以对应于图1中的多个模糊分析参数115。在图2的实施方式中，模糊度解析器120 被配置为通过使用一个或多个有效源的先验本地化信息211，根据多个模糊无偏DOA估计215，确定非模糊解析参数125，这里，先验本地化信息可以表示一个或多个有效源的DOA211，此外，应当注意的是，根据DOA估计获得的DOA估计105，可以源自一个或多个有效源。

这里，还应当指出的是，一般而言，有两种DOA。在实施方式中， DOA的可以对应于相应的源位置，而DOA估计可以对应于“瞬时”DOA（即，DOA涉及相应的时间/频率瓦片）。

图3示出了用于用选择器320解析DOA估计105的模糊度的设备300 的另一实施方式的框图。这里，图3的设备300基本上包括与图2的设备 200相同的块。因此，具有类似的实现和/或功能的相同块用同一标号表示。然而，在图3的实施方式中，模糊度解析器120被配置为用于从多个模糊无偏DOA估计215选择非模糊解析参数325，的选择器320。在实施方式中，选择器320可以被配置为基于对应于多个模糊无偏DOA估计215 的一个或多个有效源的模糊无偏DOA估计和先验本地化估计311之间的距离测量，执行非模糊解析参数325，的选择。这里，在图3中示出的选择器320的输出端处的非模糊解析参数325可以对应于在图2中示出的模糊度解析器120的输出端处的非模糊解析参数125。图3中示出的先验本地化估计311可以对应于一个或多个有效源的DOA的中中的任一个。因此，在实施方式中，非模糊解析参数325，可以对应于选自多个模糊无偏DOA估计215的所选DOA估计，对于所选 DOA估计，相对于一个或多个有效源的距离测量最小。

图4示出了用于用映射器420解析DOA估计105的模糊度的设备400 的另一实施方式的框图。由于图4的设备400基本上包括与图2的设备200 相同的块，因此具有类似实现和/或功能的相同块再次由相同的标号表示。在图4的实施方式中，模糊度解析器120被配置为用于将多个模糊无偏 DOA估计215映射至非模糊解析参数425映射器420，特别地，映射器420可以被配置为：基于对应于多个模糊无偏DOA估计215的模糊无偏DOA估计的本地化估计或者对应于选自多个模糊无偏DOA估计215 的所选DOA估计515的所选本地化估计与一个或多个有效源的先验本地化估计311之间的距离测量，执行多个模糊无偏DOA估计215的映射。如在图3的实施方式中那样，先验本地化估计311可以对应于一个或多个有效源的DOA的中的任一个。

图5示出了根据图4的具有数字生成器540的映射器420的实施方式的框图。特别地，在图5中，示出了映射器420的更多细节。从图5可以看出，映射器420可以包括选择器510、确定器520以及组合器530。选择器510可以被配置为从多个模糊无偏DOA估计215选择相对于一个或多个有效源的距离测量最小的无偏DOA估计515，确定器520 可以被配置为确定一个或多个有效源中相对于所选择的无偏DOA估计 515，的距离测量最小化的DOA525，这里，非模糊解析参数可以对应于一个或多个有效源的所确定的DOA525，

图5中示出的映射器420的数字生成器540可以被实施为用于生成随时间可变数字545，而图5中示出的映射器420的组合器530可以被实施为用于将由数字生成器540提供的可变数字545的数字和对应于一个或多个有效源的确定的DOA525，的预定先验本地化估计相组合，以获得修改的DOA相关值535，这里，非模糊解析参数125，可以对应于修改的DOA相关值535，例如，用于生成随时间可变数字 545的数字生成器540可以被实现为诸如线性反馈移位寄存器的伪随机数生成器。

图6示出了用于利用本地化或空间信息提供器610来解析DOA估计 105的模糊度的设备600的另一实施方式的框图。这里，图6的设备600 基本上包括与图2的设备200相同的块。因此，具有类似实现和/或功能的相同块用相同标号表示。如图6所示，本地化信息提供器610可以被配置为提供一个或多个有效源的先验本地化信息211。在图6的实施方式中示出，本地化信息提供器610可以被配置为基于与DOA估计105不同的输入参数611来提供先验本地化信息211。这意味着，诸如一个或多个有效源的DOA的形式的先验本地化信息211实质上是从不同于DOA估计105，的数据导出的。

图7示出了用于利用增益参数计算解析DOA估计105的模糊度的设备700的另一实施方式的框图。从图7可以看出，设备700包括DOA估计分析器710，其可以被配置为针对多个模糊分析参数115的每个模糊分析参数生成多个分支715，其中，多个分支715反映了多个模糊分析参数 115中的模糊度。在图7的实施方式中，DOA估计分析器710可以被配置为直接从DOA估计105获得多个分支715，或者进一步处理多个模糊无偏DOA估计813以获得多个分支715。特别地，DOA估计分析器710被配置为在定向音频编码的背景中，为诸如呈现或定向过滤的频谱加权操作计算增益参数。如图7所示，包括增益参数计算的DOA估计分析器710 可以接收偏差信息101，以通过考虑DOA估计105的模糊度，生成多个分支715。在图7中还示出，设备700的模糊度解析器720可以被配置为根据表示模糊分析参数115的多个分支715确定非模糊解析参数725，f_res。

根据另一实施方式，设备700的模糊度解析器720可以被配置为用于组合由多个分支715表示的多个模糊分析参数，以获得表示非模糊解析参数725，f_res的组合参数的组合器。

根据另一实施方式，设备700的模糊度解析器720还可以被配置为用于从由多个分支715表示的多个模糊分析参数115中选择非模糊解析参数 725，f_res的选择器。

特别地，图7中示出的设备700的用于执行增益参数计算的DOA估计分析器710以及组合器或选择器形式的模糊度解析器720，可以分别对应于图1中的设备100的DOA估计分析器110和模糊度解析器120。

基本上，图7的设备700可以特别用于指定多个模糊分析参数中的非模糊解析参数，而不需要操作先验本地化信息。在图7的实施方式中，例如，被配置为组合器或选择器的模糊度解析器720可以被实施为选择增益参数的最小值或最大值，或者通过计算平均值来组合增益参数。

图8示出了用于解析DOA估计105的模糊度的设备800的另一实施方式的框图，该设备包括模糊无偏DOA估计生成器812和参数处理器814。这里，图8的设备800基本上对应于图7的设备700，其中，具有类似实现和/或功能的相同块用相同的标号表示。如图8所示，设备800的DOA 估计分析器810可以包括模糊无偏DOA估计生成器812和参数处理器 814。这里，模糊无偏DOA估计生成器812可以被实施为基于偏差函数 201使DOA估计105与多个模糊无偏DOA估计813相关，其中，偏差函数201用偏差信息101表示。此外，参数处理器814可以被实施为进一步处理多个模糊无偏DOA估计813，以获得表示模糊分析参数115的多个分支815。根据实施方式，表示模糊分析参数115的多个分支815可以分别对应于要用于提供操作的一组增益参数（g_p）（诸如三向平摇增益函数）或者可以用于DirAC编码机制中的定向过滤的增益函数（D）。在实施方式中，用于提供操作的对应增益函数g_p或用于不同分支815的定向过滤操作的增益函数D例如可以线性组合，以获得其平均值，或者通过使用模糊度解析720来选择具体增益参数（例如，最小或最大值）。在模糊度解析器720的输出端处，将获得非模糊解析参数725，f_res。

图9示出了用于利用多个参数处理单元913来解析DOA估计105的模糊度的设备900的另一实施方式的框图。这里，图9的设备900可以对应于图7的设备700，其中，具有相似实现和/或功能的相同块可以用相同的标号表示。具体地，在图9的实施方式中，设备900包括DOA估计分析器910，其可以被配置用于在单个处理步骤中获得多个分支915，使得将会提供表示模糊分析参数115的处理结果，该结果会在连续执行两个处理步骤时获得。

这里需要指出，通过DOA估计分析器910获得的处理结果基本上对应于由图8中示出的DOA估计分析器810所获得的处理结果或多个分支 815。这里，通过多个参数处理单元913获得的每个处理参数或输出参数基本上等于由参数处理器814输出的相应增益参数g_p；D。然而，在图9 的实施方式中，可以通过仅使用单个处理步骤来有效地获得这些相同的参数。设备900的DOA估计分析器910因此也可以被称为增强处理器，用于以增强方式处理DOA估计105，以在不需要中间处理步骤的情况下获得处理结果。

此外，在图9的实施方式中，DOA估计分析器910和模糊度解析器 720可以被配置为在单个处理步骤中获得非模糊解析参数725，使得将会提供表示非模糊解析参数725的处理结果，该处理结果会在连续执行至少两个处理步骤时获得。

在实施方式中，可以根据对应的DOA估计105来预定或预计算非模糊解析参数725。这样获得的参数和对应的DOA估计可以被插入到查找表中。包括该预定信息的查找表可以有效地用于避免或至少减少实际处理期间的计算工作量。

特别地，通过使用DOA估计器从空间音频信号估计的DOA估计105 可以首先作为输入值在查找表中寻址，然后可以输出与查找表中的输入值相关联的相应非模糊解析参数725作为输出值。

可选地，参照图9，对于多个分支915中的每个分支，设备900的 DOA估计分析器910可以包括参数处理单元。特别地，多个参数处理单元913的每个参数处理单元914可以被配置为使DOA估计105与对应的模糊分析参数相关。此外，设备900的模糊度解析器720可以后续用于解析表示模糊分析参数915的处理结果中的模糊度，以最终获得非模糊解析参数725。

本发明的实施方式涉及参数空间音频编码和定向音频编码（DirAC）的一些处理单元。DirAC编码机制是有效的空间编码技术，其基于麦克风输入并且用作进一步考虑的示例性基础。以下更详细地给出了处理不精确的空间参数估计的本发明的方法。

本发明的上下文为参数空间音频编码。首先，描述了参数空间音频表示的一些重要实例。我们主要考虑在V.Pulkki.Spatial sound reproduction with directional audio coding.J.Audio Eng.Soc.,55(6):503-516中描述的方法DirAC作为基于麦克风信号的空间音频代码的实例。然而，本发明的基本原理还可以应用于其他空间音频编码机制，其中，例如，可以借助于不同区域的参数估计或通过考虑诸如视频图像的其他额外信息源来解析特定光谱区域中的空间参数估计模糊度。在研究DirAC的具体细节之前，我们考虑通用于所有参数空间编码机制的编码器/解码器结构。

在图10中示出了根据本发明实施方式的参数空间音频编码器10的一般结构。图10示出了参数空间音频编码器的说明。如在V.Pulkki.Spatial sound reproduction with directional audio coding.J.Audio Eng.Soc., 55(6):503-516，June.2007以及C.Faller.Microphone front-ends for spatial audio coders.In125^th AES Convention,San Francisco,USA,Oct.2008中描述的，编码器10将多个音频信道2（例如，麦克风信号）作为输入。编码器10的输出为缩混信号3和对应的侧边信息4。缩混信号3由一个或多个音频信道组成。侧边信息4包括表示所观察的声音域的参数元数据。编码器10的输出，即，缩混信号3和侧边信息4的组合在下文被称为空间音频流或空间音频表示。

在图11中示出了对应的参数空间音频解码器20的一般结构。图11 示出了参数空间音频解码器的图解。解码器20将空间音频流作为输入。基于缩混信号7和侧边信息6中包括的元数据，解码器20计算对应于所需的播放所配置的扬声器或耳机信号。例如，在ISO/IEC23003-1： 2007.Information technology-MPEG Audio technologies-Part1:MPEG Surround.International Standards Organization,Geneva,Switzerland,2007中描述了典型的扬声器设置。

定向音频编码（DirAC）使用音场的参数表示，音场使用瞬时到达方向（DOA）和声音在频率子带中的扩散性，即，其仅考虑与人类听觉有关的特征。DirAC方法基于以下假设：如果正确地再生了声场的DOA，则正确地感知了双耳时间差（ITD）和双耳水平差（ILD）。对应地，如果正确地再生了声场的扩散性，则假设正确地感知了双耳间一致性参数（IC）。以此方式，再生侧仅需要方向和扩散性参数以及单声道麦克风信号来生成与以任意的扬声器集合在给定的收听位置对空间音频的人类感知相关联的特征。

应当注意的是，在下文中，假设点状声音源引起了宽频率范围中的特定声音DOA。一个实例是，希望单个说话的人引起整个语音频谱的特定声音DOA。如果两个人同时说话，则我们希望通过对应于在该具体频带 “发出最高声音能量”的最有优势的源的DOA来确定每个频带的DOA。

以下，描述了DirAC中的参数估计的DirAC分析。在DirAC中，基于B-格式麦克风信号，如同在V.Pulkki.Spatial sound reproduction with directional audio coding.J.Audio Eng.Soc.,55(6):503-516，June.2007中描述的，在DirAC中，可以经由有声场的能量分析，确定所需的参数，即，声音的DOA----e_DOA（k,m）以及每个在每个频带m和时间块索引k中的扩散性Ψ(k,m)。B-格式麦克风信号由全向信号W(k,m)和对应于Cartesian 坐标系统的x-，y-方向的两个双极信号（U_x(k,m)和U_y(k,m)）组成。如在 E.Benjamin and T.Chen.The native B-format microphone:Part I.In119^th AES Convention,Paper6621,New York,Oct.2005中描述的，B-格式信号可以使用例如特定的B-格式麦克风直接测量，或者可选地，如同在J.Merima. Applications of a3-D microphone array.In112^th AES Convention,Paper5501, Munich,May2002中描述的，使用全向麦克风阵列来直接测量B格式信号。对于后一种，有一个基本假设是，声音信号的波长远远长于全向麦克风的间距。在该假设不成立的高频率，有一个关于DOA估计的系统性有偏。在非常低的频率下，麦克风的自有噪声的影响增大。因此，通过设计间隔非常靠近的阵列，并不能简单地解决高频率的问题。在以下的段落中解决了关于DOA估计的细节和先前描述的高频率的问题。

空间音频编码中（例如，DirAC）中的一个基本基础是，正确地估计 DOA。为了执行该项任务，研究时/频域表示的活动强度矢量的方向：

${\vec{I}}_{a} (k, m) = \frac{1}{\sqrt{2} ρ_{0} c} Re {W (k, m) {[U_{x} (k, m) U_{y} (k, m)]}^{H}} - - - (1)$

上标H表示共轭转置。ρ₀表示空气的平均密度，并且c是声音的速度。最终，I_a(k,m)的相反方向指向声音的DOA：

其中，表示DOA的方位角。上标T表示转置。

可以通过麦克风用八向图来提供两个双极信号U_x(k,m)和U_y(k,m)。如在G.W.Elko.Superdirectional microphone arrays.In S.L.Gay和J.Benesty, editors,Acoustic Signal Processing for Telecommunication,chapter10,pages 181-235.Kluwer Academic Publishers,2000中描述的，节约成本的替代方案将会使用全向麦克风的一阶差分阵列。然而，这两种选择通常在非常低和高的频率下都有所需的八向图的偏差。通过高质量的定向麦克风，相比于一阶差分阵列，该有偏可以小的多。虽然需要通过测量来描述定向麦克风中的有偏，但是可以分析性地制定基于阵列的DOA估计的偏差。在M. Kallinger,F.Kueth,R.Schulta-Amling,G.Del Galdo,J.Ahonen和V.Pulkki. Analysis and Adjustment of Planar Microphoe Arrays for Application in Directional Audio Coding.In124^th AES Convention,Paper734,Amsterdam, the Netherlands,May2008中，可以找到特定阵列几何形状的探讨。一个实例是，图13示出了不精确的DOA估计105作为间隔为d=4cm的五个麦克风阵列的实际DOA的函数（见图12）。对于该实例，该偏差可以如下表示：

在低频f时，我们可以应用近似值：sinx≈x，获得几乎没有偏差的估计靠近特定极限，例如，在5kHz，我们从可以使用等式（3）表示的无偏差的估计来观察清楚的偏差。从图13可以看出，通过以高达所谓的混叠频率f_alias反转映射曲线201，可以去除偏差。在所考虑的实例中，f_alias≈6kHz。超过了该极限，例如，对于f>f_alias，则估计（DOA估计105，不再能够分配到单个无偏差的在该实例中，有三个候选115，至其中，只有一个是正确的DOA。根据M.Kallinger, F.Kuech,R.Schultz-Amling,G.Del Galdo,J.Ahonen,and V.Pulkki.Analysis and Adjustment of Planar Microphone Arrays for Application in Directional Audio Coding.In124^th AES Convertion,Paper7374,Amsterdam,the Netherlands,May2008，非模糊DOA估计的上限频率被表示为：

$f_{alias} = \sqrt{\frac{1}{2}} \frac{c}{d} - - - (4)$

我们将其称为DirAC的空间混叠频率。在M.Kallinger,F.Kuech,R. Schultz-Amling,G.Del Galdo,J.Ahonen,and V.Pulkki.Analysis and Adjustment of Planar Microphone Arrays for Application in Directional Audio Coding.In124^th AES Convertion,Paper7374,Amsterdam,the Netherlands, May2008中，描述了f_alias以下的系统有偏的补偿。然而，本发明包含解析 f_alias以上的模糊度的方法。值得注意的是，解析模糊度还可应用于任何系统偏差校正。

具体地，图12示出了全向麦克风的方形阵列，其中，中心为第五个全向麦克风。相邻麦克风的间距为d/2。此外，图13示出了在频率4和7kHz 之间的方位角估计灰线9表示无偏的角度估计。在7kHz，可以清楚地观察到由于空间混叠引起的模糊度，即，一个示例性估计不能被分配到单个无偏的估计。有三个候选至需要从中选择无偏估计。

接下来，描述作为DirAC中的定向过滤和呈现的处理原则的频谱加权。在DirAC分析之后，即，在已经计算了所有DirAC参数（由和伴随有缩混信号W(k,m)的声音的扩散性表示的DOA）之后，我们可以使用这些参数来呈现任意扬声器排列的扬声器信号。可选地，我们可以在DirAC参数域中执行定向过滤。呈现和定向过滤都基于频谱加权的原理。它们受可能的模糊DOA估计的影响。在以下的两个段落中，描述了每个处理单元的基本功能，特别地，空间加权函数的计算。

参照DirAC合成，在再生侧，基于与DOA一起的单缩混信号和DirAC 的扩散参数，计算不同的扬声器信号。扬声器信号分别由对应于直接（即，连贯）和扩散声音的信号成分组成。扩散声音成分不依赖于DOA。因此，这里不做处理。第p个扬声器信号的连贯部分根据如下来计算：

S_p(k,m)＝g_p(k,m)W(k,m) (5)

平移增益g_p(k,m)或增益参数（815）取决于声音的DOA或（105）、扬声器的数量、以及第p个扬声器相对于所需的收听位置的位置。图14描述了一些示例性增益函数作为三个扬声器在-60°(g₁(k,m))、 0°(g₂(k,m))、60°(g₃(k,m))的设置的DOA的函数。换句话说，图14分别示出了如下实例，平移增益作为在-60°(g₁(k,m))、0°(g₂(k,m))、 60°(g₃(k,m))的三个扬声器的设置的的函数。每个增益函数都确定了DOA对频谱增益的分配。使用损坏的DOA可能导致失真的空间图像。

参照定向过滤，在DirAC分析和同步的处理链中，可以选择应用额外的处理步骤，例如，以执行空间过滤。目的是保存从特定方向到达的声音，同时衰减来自其他方向的声音。原则上，该技术可以认为是DirAC参数域中的一种“束形成。”在M.Kallinger,H.Ochsenfeld,G.Del Galdo,F. Kuech,D.Mahne,R.Schultz-Amling,and O.Thiergart.A spatial filtering approach for directional audio coding.In126^th AES Convention,Paper7653, Munich,Germany,May2009中，提出了称为定向过滤的这种技术：基本上，定向过滤将增益函数应用于时/频表示的缩混信号W(k,m)，以获得输出信号频谱。

W_df(k,m)＝D(k,m)W(k,m) (6)

下标df表示“定向过滤”。增益函数D(k,m)或增益参数（815）设计为DOA或（105）以及扩散性的函数。设计原则可以通过图15来说明。

特别地，图15示出了定向过滤增益函数的定向模式。增益函数的设计可以通过将瞬间（极坐标中的方位）分配到对应增益（极坐标中的半径）来实现。如果扩散性增大，则方向性价款。假设所需的源位于30°，在此处，增益函数等于零。

极坐标表示作为在每个时间块k和频点m的的函数的时间-和频率-依赖增益D(k,m)的设计函数。如果扩散性Ψ(k,m)增大，则设计函数加宽。值得注意的是，本身对应于M.Kallinger,H.Ochsenfeld,G.Del Galdo,F.Kuech,D.Mahne,R.Schultz-Amling,and O.Thiergart.A spatial filtering approach for directional audio coding.In126^th AES Convention, Paper7653,Munich,Germany,May2009的设计函数是频率不变的。

接下来，描述了源定位技术。为了定向过滤和本发明实施方式，有必要了解所需源的数量和位置。在具有微型麦克风布置的二维透视图中，位置信息可以用方位角来表示。Thiergart et al.(O.Thiergart,R.Schultz-Amling, G.Del Galdo,D.Mahne,and F.Kuech.Localization of sound sources in reverberant environments based on directional audio coding arameters.In128^thAES Convention,Paper7853,New York City,NY,USA,Oct.2009)提出了用于通过DirAC参数对声音源计数和定位的稳健方法。该原则是基于以下假设，即，每个瞬间DOA，即，时间-和频率-依赖DOA，表示有不确定性的实际源的可能方向，这源于估计的某些变量。将DOA视为随机变量。通过平均和集群操作，我们可以分别减少变量并获得关于有效源的位置的知识。

该方法基于DOA的直方图，其通过缩混信号的功率谱密度（PSD）加权并且仅在低扩散性的时/频铺叠时计算。实际上，可以将低扩散性参数解释为DOA的可靠性测量。该技术依赖于时/频表示中的语音信号的稀疏度。Thiergart的方法还提供用于定位的关于参数的统计信息。例如，在先前描述的图5的实施方式中，可能对DOA的变动有兴趣。

应当注意的是，在实施方式中，还可以结合DirAC和定向过滤来执行不同源定位技术。有大量的源定位方法，其还可以考虑不同于声音线索的其他线索，诸如基于图像或视频输入数据的面部或身体定位。

本发明实施方式给出了一种解析非唯一性的有效方法，其会发生空间音频编码技术的空间参数的估计。在一些参数估计器中，诸如DirAC的 DOA估计器，模糊与有偏有关。在类似情况下，如在先前实施方式中描述的，解析模糊隐含地调用了有偏补偿。

此外，图16中描述了本发明方法的概念结构。例如，就模糊来分析由方位角估计表示的DOA参数估计。这可以基于测量或关于阵列几何形状的信息来执行。后者的实例通过根据等式（3）的关系给出。结果，我们可以获得所需的DOA的多个候选，至通常，当前DOA估计用作后续处理步骤的输入参数。函数f(·)表示一般形式的单元。由于还没有确定适当的DOA候选，因此可能需要并行的考虑N个处理单元。最终，我们可以以适当方式组合输出参数至即，我们可以仅选择一个输出参数或者计算其适当的组合。如果适用的话，我们可以额外地在“选择或组合”步骤中引入先验信息，以提高模糊解析度。例如，该信息可以是关于声音源的潜在位置的知识。

具体地，图16示出了解析空间参数估计至的模糊的本发明的总体结构。可以通过选择最合适的候选或者通过组合后续参数至来执行解析。如果可用，先验信息进入操作，以支持选择。

如果我们考虑图16的概念结构的更具体的实现，根据本发明实施方式，我们可以派生出两种策略。在一个实施方式中，可以设置即，目标是校正DOA参宿，而不管任何后续操作。因此，我们可以在后续阶段选择适当的DOA。这里，组合多个DOA，例如，取平均，不太可能导致所需的结果。适当DOA的选择是基于关于源的位置的先验信息。实际上，我们可以从多个DOA选择DOA，其距有效源的位置具有最小距离。在图2至4的实施方式中给出了本公开的更具体描述。

第二策略是基于DOA通常被分析以用作后续处理单元的输入参数这一事实。如上所述，这种单元通常生成频谱增益参数作为其输出。在模糊 DOA的驱动下，我们获得多个输出参数。在图16中，这些参数通过至来描述。与DOA本身相反，根据应用，已经认识到，可以将输出参数组合，例如，以取最大值、最小值、平均值等。该过程的优点包括，我们不需要获取先验信息。该策略形成了在图7-9中更详细的说明的另一实施方式。

图17给出了旨在校正DOA估计的所有程序的功能概述。从对应的估计器11获得DOA估计105，在模糊考虑之后，获得超过空间混叠频率的实际校正的DOA的多个候选，至对“适当”候选的选择基于对有效源的物理DOA的近似。这里，我们有两种策略来决定最终校正的DOA125，我们可以选择候选至中到一个有效源DOA具有最小距离的候选（见图3），或者我们可以将“最近候选”直接映射到有效源的DOA。图4的实施方式说明了该操作。

具体地，如果通过校正的估计的模糊度来完成本发明，则图17示出了用于校正有偏的DOA估计的结构。从多个校正的估计选择适当候选，是基于对活动声音源的定位。基于校正的DOA，的后处理是可选的。

图3的实施方式涉及从多个DOA选择一个候选。这里，我们考虑活动声音源的当前DOA。这些DOA是宽带参数，通常，相比于瞬间DOA，它们没有快速地变化。为了解析f_alias以上的时/频谱跌的DOA估计的非唯一性，我们假设各时/频铺叠的观察的/估计的瞬间DOA是有源引起的，该源的位置已经通过先验知识311或通过定位技术知道。

图18中示出了校正超过空间混叠频率的模糊度和有偏的参数估计的示例性程序。在图18中，分析瞬时DOA105，例如，考虑到模糊，我们获得实际瞬间DOA的三个候选215，和与此并行地，源定位技术已经分析了位于Q₁＝75°的一个有效源（本地化估计 311）。在校正的DOA的空间中的三个候选中，具有到的Q_I的最短欧氏距离，单位为[°]。因此，瞬间DOA可以校正为值得注意的是，仍然可以看作是随机变量。

具体地，在图18中示出了估计的作为超过空间混叠频率的无偏的函数。瞬间估计被分配到三个校正的、瞬间DOA，至源定位技术已经找到有效源Q_I。因此，我们将三个候选至中的一个分配到具有到Q_I的最小距离的校正的、瞬间

根据另一实施方式，还有用一个以上的有效源执行瞬间校正的方法。还可以有一次有一个以上的源起作用的情况。之前描述的示例性源定位技术能够对多个源计数并定位。先前描述的偏差和非唯一性解决方案程序可以扩展用于一个以上的有效源的操作。因此，我们首先执行在图3的实施方式中描述的步骤。我们为一个估计的获得校正DOA的多个候选。现在我们分析这些候选到一个以上的实际源而不是一个实际源的距离。在图19中，是由两个有效源Q₁和Q₂的实例的草图。因为我们假设超出空间混叠的估计的DOA对应于一个有效源，因此我们可以将校正的DOA 分配到在校正的DOA的空间中距任一个有效源最近的这些候选。

具体地，图19示出了作为无偏的函数的估计如果源定位技术分析一个以上的有效源，则我们将一个可能校正的、瞬间DOA 分配到距任一个有效源（这里，Q₁）最近的无偏、瞬间DOA。

让我们考虑源的DOA的估计作为随机变量。在每个源的DOA估计的独立、相同、对称分布的情况下，该程序是可选的。如果每个源的DOA 的分布不满足这些要求，则我们可以采用更合适的距离测量。以下给出了这种情况的处理。

描述了有效源的DOA的一般分布。在O.Thiergart,R.Schultz-Amling, G.Del Galdo,D.Mahne,and F.Kuech.Localization of sound sources in reverberant environments based on directional audio coding parameters.In 128^th AES Convention,Paper7853,New York City,NY,USA,Oct.2009中提出的源定位技术，使用受噪声和偏差的影响可以忽略不计的瞬间DOA在所有频带下的概率密度函数（pdf）。如果对应的分布是独立的、相同的、并且对称的，则以上勾画的实例返回模糊DOA的适当分配。常规分布可以用作每个源的pdf的可行近似。图20勾画了具有两个有效源Q₁和Q₂的示例性场景（311）。其DOA没有相同的分布。在模糊考虑之后，我们获得校正的瞬间DOA的三个候选，至根据进一步的实施方式，可以选择作为适当的候选，这是因为其具有到任意有效源的最小马氏距离。即使在该情况下到Q₂的欧氏距离更短，但是Q₁是统计意义上的最近源。

具体地，图20示出了在Q₁=60°和Q₂=100°具有其相应的pdf的两个有效源。对于校正后的瞬间DOA，有三个候选，至选择作为适当的候选，这是因为其具有到任意有效源（在该情况下，Q₁）的最小马氏距离。

马氏距离为更一般的距离测量的一个实例；这对于正态分布是最优的。如果以不同方式分配DOA，则也可以进行其他适当的距离测量。

图4的实施方式涉及将瞬间DOA映射到有效源的DOA。如前面提到的，瞬间DOA可以用一定平均值周围的一定变量从随机过程被建模为随机变量。通过考虑瞬间DOA的偏差，我们修改相关过程的平均值和变量，但是我们维持其随机性质。当我们解析模糊度时，一种选择适当候选的可选方法包括，用最近的有效源（例如，Q₁）的DOA替换瞬间DOA 估计。这意味着，通过这种量化步骤，显著地改变了瞬间DOA的随机特征。如果连续的应用程序要求覆盖空间参数的更逼真的随机性质，则我们进行响应，向有效源的DOA添加随机变量。一个实例是：事实证明，如果在DOA参数估计中引入了一些随机性（见图5），则DirAC合成后的感知的空间音频质量提高。且不失一般性地，我们将该随机变量η(k,m)定义为具有零平均和单位变量。我们定义转向变量以恢复瞬间DOA变量：

转向变量可以定义为瞬间DOA和DirAC的扩散性参数Ψ的函数。两个参数本身都有时间-频率依赖性。为了更好的可读性，省略了时间和频率指数。最终，和的平均值和变量应当匹配。这里，等式7的Q_i和σ_st;η可以分别对应于图5的实施方式中示出的和可变数字545。

值得注意的是，例如在O.Thiergart,R.Schulta-Amling,G.Del Galdo,D. Mahne,and F.Kuech.Localization of sound sources in reverberant environments based on directional audio coding parameters.In128^th AES Convention,Paper7853,New York City,NY,USA,Oct,2009中描述的，通过特定源定位算法类分析DOA估计的方差，因此，其可以用于调整抖动量。

图7至图9的实施方式涉及调整后续处理单元。如上所述，空间音频代码的所有参数都可以用于运行后续处理阶段，例如，DirAC合成和定向过滤。如果例如瞬间DOA的参数以任何方式被损坏，则实现最终高质量输出的一种方式是，在后续处理步骤之前校正这些参数。在图2至4的实施方式中已经描述了用于校正空间参数的方法。一种替代方案是，我们可以将后续处理步骤调整到预期的偏差和模糊度。让我们基于图16中的一般结构来回顾一下有关步骤。在该情况下，例如，函数f(·)表示定向过滤操作。

基本上，通过将频谱增益乘以信号频谱来进行定向过滤（见等式（6））。零相位传输函数的设计可以通过图21来说明。瞬间DOA被映射到零和一之间的增益。可以对每个时间块k和频带m执行该程序。

具体地，图21示出了用于定向过滤的示例性设计函数作为DOA的函数。在每个时间块k和频带m应用该函数。在Q₁=280°具有所需的有效源的假设下，该设计函数“被操纵”。

重要的是，要注意设计规则依赖于校正的瞬间然而，没有了对模糊度的考虑，我们可以基于主要估计来运行设计规则。

如图16所示，相对于模糊度来分析DOA参数估计105，结果，我们可以获得所需DOA的多个候选至对于每个候选计算对应的增益函数或增益参数815，例如，用于实际定向过滤操作的所需的增益函数可以通过适当地组合由不同候选函数至提供的值来获得。这通过块“选择或组合”来表示（被配置为选择器或组合器的模糊度解析器120）。适当的组合规则包括不同增益值的线性组合（例如，平均值）或对应于选择的非线性组合（例如，最大值或最小值）。

从上面的讨论可以看出，在定向过滤应用或空间音频合成阶段，不需要关于当前源的位置的先验信息。事实证明，再改情况下，可以以有效的方式合并过滤操作和模糊度考虑。图22中描述了该方法并且总结如下：

跟前面一样，函数f(·)描述了定向过滤增益函数的设计作为校正的函数：

我们已经知道，需要用对应的估计代替，我们可以期待超过空间混叠频率的定向过滤增益函数的不正确行为。考虑到DOA 估计中的模糊度，我们可以引入增强的设计函数910，至其被选择为使得反映DOA估计的模糊度和潜在偏差。关于图16和22，我们有：

i＝I,...,N。

在实施方式中，可以通过适当地组合不同的候选增益值至来获得增强的增益函数

具体地，图22给出了调整处理单元的结构，其作为模糊DOA的函数运行，以生成校正的输出参数相对于所需的应用而不是相对于实际DOA来解析模糊度。与图17中勾画的系统相反，不需要源定位单元。

以下，我们给出了实例，以说明如何解析处理阶段中的模糊度，其随 DOA估计器11之后，允许省略源定位单元。让我们考虑图21：我们假设有效源位于Q₁,；其被分配给增益一。如果能够如图3的实施方式描述的那样进行，则被分配到大约0.8的距其最近，这将是所选择的候选。这里，我们可以组合可能的输出增益。在实施方式中，如果定向过滤的主要目标是保存所需的源信号的质量，则我们通常可以选择所有可能增益中的最大的：

相反地，根据进一步的实施方式，如果我们想要尽可能多的抑制干扰，我们可以选择最小的增益，

根据实际应用场景，组合N个函数f_enh,i(·)（例如，取平均）的不同策略也是可选的。考虑图21中的实例，应当指出，实际DOA候选至的组合不代表解析定向过滤上下文中的DOA模糊度的适当方法。

值得注意的是，基于阵列几何形状和所需的定向参数，可以有效地预计算函数f_enh,i(·)的组合（见图15）。因此，由于本方法的输出由估计的 DOA的函数而不是对应的校正版本组成，因此在算法的运行期间，没有生成额外的计算负荷。

总结先前的实施方式，本发明的技术/概念可以包括以下步骤：首先，可以记录来自麦克风阵列的信号。然后，可以根据这些麦克风信号估计到达方向（DOA）。然后，可以在关于活动声音源的位置的信息的帮助下，解析DOA的模糊度。该信息可以提前获得和/或在操作期间估计。可选地，可以不是相对于DOA而是相对于后续处理步骤的参数（例如，频谱增益）来解析模糊度。最终，可以应用后续处理阶段（例如，定向过滤）。

尽管已经在设备的上下文中描述了一些方面，但是很明显，这些方面还表示相应方法的描述，其中，块或装置对应于方法步骤或方法步骤的特征。类似地，在方法步骤的上下文中描述的方面还表示对应设备的对应块或项目或特征的描述。方法步骤的一些或全部可以通过（或使用）硬件设备来执行，例如，微处理器、可编程计算机、或电子电路。在一些实施方式中，可以通过这种设备来执行某个或多个最重要的方法步骤。

本发明的参数可以存储在数字存储介质上或者可以在诸如无线传输介质或有线传输介质（诸如互联网）的传输介质上传输。

根据特定实现要求，本发明的实施方式可以在硬件或软件中实现。可以使用诸如软盘、DVD、蓝牙、CD、ROM、PROM、EPROM、EEPROM、或闪存的数字存储介质来实现本发明实施方式，该数字存储介质上存储有电可读控制信号，其与可编程计算机系统协作（或者能够与其协作），使得执行相应方法。因此，数字存储介质可以是计算机可读的。

根据本发明的一些实施方式包括具有电可读控制信号的数据载体，其能够与可编程计算机系统协作，使得执行这里描述的方法之一。

一般地，本发明的实施方式可以作为具有程序代码的计算机程序产片来实现，当计算机程序产品在计算机上运行上，该程序代码可操作用于执行方法之一。例如，程序代码可以存储在机器可读载体上。

其他实施方式包括存储在机器可读载体上的用于执行这里描述的方法之一的计算机程序。

换句话说，因此，本方法的实施方式是具有程序代码的计算机程序，当计算机程序在计算机上运行时，程序代码用于执行这里描述的方法之一。

因此，本发明的另一实施方式是数据载体（或数字存储介质、或计算机可读介质），包括上面记录的用于执行这里描述的方法之一的计算机程序。数据载体、数字存储介质、或记录的介质通常是有形的和/或非过渡的。

因此，本发明方法的另一实施方式是数据流或信号序列，其表示用于执行这里描述的方法之一的计算机程序。例如，数据流或信号序列可以配置为经由数据通信连接来传输，例如，经由互联网。

进一步的实施方式包括处理装置，例如，计算机或可编程逻辑器件，配置为或适于执行这里描述的方法之一。

根据本发明的另一实施方式包括配置为将用于执行这里描述的方法之一的计算机程序传输到接收器的设备或系统。例如，接收器可以是计算机、移动装置、存储器装置等。设备或系统例如可以包括用于将计算机程序传输到接收器的文件服务器。

在一些实施方式中，可编程逻辑器件（例如，场可编程门阵列）可以用于这里描述的方法的一些或全部功能。在一些实施方式中，场可编程门阵列可以与微处理器协作，以执行这里描述的方法之一。一般地，优选地通过任何硬件设备来执行该方法。

上述实施方式仅用于说明本发明的原理。应当理解，对于本领域普通技术人员来说，这里描述的布置和细节可以有修改和改变。因此，旨在通过所附权利要求的范围限定，而不是通过文中的实施方式的描述和说明所给出的具体细节来限定。

总而言之，本发明包括解析由空间混叠引起的模糊度的策略。该模糊度可以相对于空间参数或者在采用该空间参数作为其输入的后续处理单元中被解析。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 用于解析到达方向估计的模糊度的设备和方法 [P] . 中国专利： CN103180752B . 2016.08.10
2. 用于解析到达方向估计的模糊度的设备和方法 [P] . 中国专利： CN103180752A . 2013-06-26
3. ARRIVAL DIRECTION ESTIMATING DEVICE, MODEL LEARNING DEVICE, ARRIVAL DIRECTION ESTIMATING METHOD, MODEL LEARNING METHOD, AND PROGRAM [P] . WO2021044551A1 . 2021-03-11

机译：到达方向估计设备，模型学习设备，到达方向估计方法，模型学习方法和程序
4. ARRIVAL DIRECTION ESTIMATION DEVICE, MODEL LEARNING DEVICE, ARRIVAL DIRECTION ESTIMATION METHOD, MODEL LEARNING METHOD, AND PROGRAM [P] . WO2021044647A1 . 2021-03-11

机译：到达方向估计设备，模型学习设备，到达方向估计方法，模型学习方法和程序
5. Direction of arrival estimation apparatus , terminal equipment , wireless communication systems and the direction of arrival estimation method . [P] . 日本专利： JP5641720B2 . 2014-12-17

机译：到达方向估计装置，终端设备，无线通信系统和到达方向估计方法。