首页> 中国专利> 用以基于下混信号表示型态而提供上混信号表示型态的装置、用以提供表示多声道音频信号的位流的装置、方法、计算机程序及利用线性组合参数表示多声道音频信号的位流

用以基于下混信号表示型态而提供上混信号表示型态的装置、用以提供表示多声道音频信号的位流的装置、方法、计算机程序及利用线性组合参数表示多声道音频信号的位流

摘要

一种用以基于音频内容的位流表示型态中所包括的下混信号表示型态及对象相关参数信息并依使用者指定渲染矩阵来提供上混信号表示型态的装置,该装置包含失真限制器,其被配置为依线性组合参数利用使用者指定渲染矩阵与目标渲染矩阵的线性组合来获得经修改渲染矩阵。该装置也包含信号处理器,其被配置为使用该经修改渲染矩阵、基于该下混信号表示型态及该对象相关参数信息来获得上混信号表示型态。该装置也被配置为评估表示该线性组合参数的位流元素以便获得该线性组合参数。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-12-30

    专利权人的姓名或者名称、地址的变更 IPC(主分类):G10L19/008 变更前: 变更后: 申请日:20101116

    专利权人的姓名或者名称、地址的变更

  • 2014-11-05

    授权

    授权

  • 2012-11-28

    实质审查的生效 IPC(主分类):G10L19/00 申请日:20101116

    实质审查的生效

  • 2012-10-03

    公开

    公开

说明书

技术领域

依据本发明的实施方式,涉及种用以基于音频内容的位流表示型态中 所包括的下混信号表示型态及对象相关参数信息,且根据使用者指定渲染 矩阵来提供上混信号表示型态的装置。

依据本发明的其它实施方式,涉及种用以提供表示多声道音频信号的 位流的装置。

依据本发明的其它实施方式,涉及种用以基于音频内容的位流表示型 态中所包括的下混信号表示型态及对象相关参数信息,且依据使用者指定 渲染矩阵来提供上混信号表示型态的方法。

依据本发明的其它实施方式,涉及种用以提供表示多声道音频信号的 位流的方法。

依据本发明的其它实施方式,涉及种用以执行该等方法之一的计算机 程序。

依据本发明的其它实施方式,涉及种表示多声道音频信号的位流。

背景技术

在音频处理、音频传输与音频储存领域,愈益期望处理多声道内容以 便提高听觉印象。多声道音频内容的使用为使用者带来显著的改进。举例 而言,可获得3维听觉印象,其在娱乐应用中提高使用者的满意度。然而, 多声道音频内容在例如电话会议应用的专业环境中也是有用的,因为扬声 器可懂度可通过使用多声道音频播放来提高。

然而,也期望在音频质量与位率要求之间有良好折衷,从而避免低成 本或专业多声道应用中的过度资源消耗。

最近,已提出了针对包含多个音频对象的音频场景的位率有效率传输 及/或储存的参数技术。例如,已提出在例如参考文献[1]中描述的双耳线 索编码、在例如参考文献[2]中描述的音频源的参数联合编码。此外,已提 出在例如参考文献[3]及[4]中描述的MPEG空间音频对象编码(SAOC)。 MPEG空间音频对象编码目前正在标准化当中,且在未预先公开的参考文 献[5]中描述。

这些技术旨在感官上重建期望的输出音频场景而非通过波形匹配。

然而,结合接收侧的使用者交互性,若执行极度对象渲染,这种技术 可导致输出音频信号的低音频质量。这在例如参考文献[6]中描述。

下面将描述这种系统,且需要注意的是,基本概念也适用于本发明的 实施方式。

图8示出了这种系统(这里:MPEG SAOC)的系统概述。图8中所 示的MPEG SAOC系统800包含SAOC编码器810及SAOC译码器820。 SAOC编码器810接收多个对象信号x1至xn,该信号可被表示为(例如) 时域信号或时间-频率-域信号(例如,为傅立叶类型变换的组变换系数的 形式,或为QMF子频带信号的形式)。SAOC编码器810典型地也接收与 对象信号x1至xn相关联的下混系数d1至dn。独立的诸组下混系数可用于 下混信号的每声道。SAOC编码器810典型地被配置通过依据相关联的下 混系数d1至dn来组合对象信号x1至xn而获得下混信号的声道。通常,下 混声道比对象信号x1至xn少。为了在SAOC译码器820侧(至少近似) 容许分离(或分开处理)对象信号,SAOC编码器810提供个或多个下混 信号(标示为下混声道)812及旁侧信息814二者。旁侧信息814描述对 象信号x1至xN的特性以便容许译码器侧特定对象处理。

SAOC译码器820被配置为接收该个或多个下混信号812及旁侧信息 814二者。再者,SAOC译码器820典型地被配置为接收描述期望的渲染 设置的使用者互动信息及/或使用者控制信息822。举例而言,使用者互动 信息/使用者控制信息822可描述扬声器设置及提供对象信号x1至xN的对 象的期望空间布局。

SAOC译码器820被配置为提供(例如)多个译码上混声道信号至上混声道信号可(例如)与多扬声器渲染布置的单独扬声器相关 联。SAOC译码器820可(例如)包含对象分离器820a,该对象分离器被 配置为基于个或多个下混信号812及旁侧信息814来至少近似地重建对象 信号x1至xN,从而获得重建对象信号820b。然而,重建对象信号820b 可能略偏离原始对象信号x1至xN,例如,原因在于由于比特流限制使得 旁侧信息814对于进行完美重建并不十分足够。SAOC译码器820可进步 包含混合器820c,该混合器可被配置为接收重建对象信号820b及使用者 互动信息/使用者控制信息822,进而基于它们来提供上混声道信号至 混合器820可被配置为使用使用者互动信息/使用者控制信息822来 判定个别重建对象信号820b对上混声道信号至的贡献。使用者互动 信息/使用者控制信息822可(例如)包含渲染参数(也被表示为渲染系数), 该等渲染参数判定个别重建对象信号822对上混声道信号至的贡献。

然而,应注意的是,在许多实施方式中,由图8中对象分离器820a 指出的对象分离以及由图8中混合器820c指出的混合在单步骤中执行。 为实现此目的,可计算描述个或多个下混信号812到上混声道信号至 的直接映射的总参数。这些参数可基于旁侧信息及使用者互动信息/使 用者控制信息820来计算。

现在参考图9a、图9b及图9c,将描述用以基于下混信号表示型态及 对象相关旁侧信息来获得上混信号表示型态的不同装置。图9a示出了包 含SAOC译码器920的MPEG SAOC系统900的方块示意图。SAOC译码 器920包含作为分离功能区块的对象译码器922及混合器/渲染器926。对 象译码器922依下混信号表示型态(例如,为在时域或时间-频率-域中表 示的个或多个下混信号的形式)及对象相关旁侧信息(例如,为对象元数 据的形式)来提供多个重建对象信号924。混合器/渲染器924接收与N个 对象相关联的重建对象信号924并基于它们提供个或多个上混声道信号 928。在SAOC译码器920中,对象信号924的提取与混合/渲染分开执行, 这允许将对象译码功能与混合/渲染功能分离但带来相当高的计算复杂度。

现在参考图9b,将简要讨论另MPEG SAOC系统930,该MPEG SAOC 系统包含SAOC译码器950。SAOC译码器950依下混信号表示型态(例 如,为个或多个下混信号的形式)及对象相关旁侧信息(例如,为对象元 数据的形式)提供多个上混声道信号958。SAOC译码器950包含组合的 对象译码器与混合器/渲染器,其被配置为在联合混合处理中获得上混声道 信号958而无需将对象译码与混合/渲染分开,其中针对该联合上混处理的 参数取决于对象相关旁侧信息与渲染信息二者。联合上混处理也取决于被 视为对象相关旁侧信息的部分的下混信息。

综上所述,可在个步骤处理或两个步骤处理中执行上混声道信号 928、958的提供。

现在参考图9c,将描述MEPG SAOC系统960。SAOC系统960包 含SAOC至MPEG环绕转码器而非SAOC译码器。

SAOC至MPEG环绕转码器包含旁侧信息转码器982,其被配置为接 收对象相关旁侧信息(例如,为对象元数据的形式)及可选地关于个或多 个下混信号的信息及渲染信息。旁侧信息转码器也被配置为基于接收数据 来提供MPEG环绕旁侧信息(例如,为MPEG环绕位流的形式)。因此, 旁侧信息转码器982被配置为,在考虑渲染信息及可选地有关个或多个下 混信号内容的信息的情况下将自对象编码器出来的对象相关(参数)旁侧 信息转换成声道相关(参数)旁侧信息。

可选地,SAOC至MPEG环绕转码器980可被配置为操控例如由下 混信号表示型态所描述的个或多个下混信号,从而获得经操控的下混信号 表示型态988。然而,下混信号操控器986可省略,使得SAOC至MPEG 环绕转码器980的输出下混信号表示型态988与SAOC至MPEG环绕转 码器的输入下混信号表示型态相同。下混信号操控器986在例如声道相关 MPEG环绕旁侧信息984基于SAOC至MPEG环绕转码器980的输入下 混信号表示型态可能不能提供期望的听觉印象时可使用,这在些渲染群集 (rendering constellation)中可能如此。

因此,SAOC至MPEG环绕转码器980提供下混信号表示型态988 及MPEG环绕位流984,使得可使用MPEG环绕译码器(其接收MPEG 环绕位流984与下混信号表示型态988)来产生多个上混声道信号(其依 据输入至SAOC至MPEG环绕转码器980的渲染信息来表示音频对象)。

综上所述,可使用用以译码SAOC编码音频信号的不同概念。在某 些情况中,使用SAOC译码器,该SAOC译码器依下混信号表示型态及 对象相关参数旁侧信息来提供上混声道信号(例如,上混声道信号928、 958)。在图9a与图9b中可见到此概念的范例。可替换地,SAOC编码音 频信息可被转码以获得下混信号表示型态(例如,下混信号表示型态988) 及声道相关旁侧信息(例如,声道相关MPEG环绕位流984),它们可被 MPEG环绕译码器使用来提供期望的上混声道信号。

在图8中给出系统概述的MPEG SAOC系统800中,一般处理是以 频率选择方式来完成且在每个频带内可描述如下:

●作为SAOC编码器处理的一部分,下混N个输入音频对象信号 x1至xN。对于单声道下混,用d1至dN来表示下混系数。此外,SAOC编 码器810提取描述输入音频对象的特性的旁侧信息814。对于MPEG SAOC,彼此间对象功率的关系是这种旁侧信息的最基本形式。

●传输及/或储存下混信号812及旁侧信息814。为此目的,下混音 频信号可使用已知的感知音频编码器来压缩,诸如MPEG-1层II或III(也 称为“.mp3”)、MPEG高级音频编码(AAC)、或任何其它音频编码器。

●在接收端,SAOC译码器820概念上尝试使用经传输的旁侧信息 814(当然还有一个或多个下混信号812)来恢复原始对象信号(“对象分 离”)。接下来,使用渲染矩阵将这些近似对象信号(也标示为重建对象信 号820b)混合至由M个音频输出声道表示(例如可用上混声道信号至 表示)的目标场景。

●实际上,对象信号的分离很少执行(或甚至从不执行),因为分 离步骤(用对象分离器820a指出)与混合步骤(用混合器820c指出)组 合成单一转码步骤,这通常极大地降低计算复杂度。

已发现此方案在传输位率(仅需传输几个下混声道外加一些旁侧信息 而不是N个离散对象音频信号或离散系统)以及计算复杂度(处理复杂度 主要涉及输出声道数目而非音频对象数目)方面都极其有效率。对接收端 使用者而言的进一步好处包括选择他/她选择的渲染设置(单声道、立体声、 环绕、虚拟化耳机播放等)的自由以及使用者交互性特征:渲染矩阵,及 因而,输出场景可由使用者随意愿、个人偏好或其它准则来互动地设置及 改变。举例而言,可能从共同在一个空间区域中的一个组中定位演讲者, 从而使得与其他剩余演讲者的辨别度最大化。此交互性通过提供译码器使 用者接口来实现:

对于每个传输声音对象,其相对等级及(对于非单声道渲染)渲染的 空间位置可被调整。这可随使用者改变相关联的图形使用者接口(GUI) 滑动块的位置而实时发生(例如,对象等级=+5dB,对象位置=-30deg)。

然而,已发现的是,用以提供上混信号表示型态(例如,上混声道信 号至)的参数的译码器侧选择在某些情况中带来可闻降级。

鉴于此情况,本发明的目的是产生一种在提供上混信号表示型态(例 如,为上混声道信号至的形式)时容许减小或甚至避免可闻失真的 概念。

发明内容

依据本发明的实施方式,产生一种用以基于音频内容的位流表示型态 中所包括的下混信号表示型态及对象相关参数信息并依使用者指定渲染 矩阵来提供上混信号表示型态的装置。该装置包含:失真限制器,其被配 置为依线性组合参数使用使用者指定渲染矩阵与目标渲染矩阵的线性组 合来获得经修改渲染矩阵。该装置也包含:信号处理器,其被配置为使用 该经修改渲染矩阵、基于该下混信号表示型态及该对象相关参数信息来获 得上混信号表示型态。该装置被配置为评估表示该线性组合参数的位流元 素以便获得该线性组合参数。

依据本发明的该实施方式是基于下列核心思想:通过依自从音频内容 的位流表示型态中所提取的线性组合参数来执行使用者指定渲染矩阵与 目标渲染矩阵的线性组合能以低计算复杂度减小或甚至避免上混信号表 示型态的可闻失真,因为线性组合可有效率执行,及因为确定线性组合参 数的所需任务的执行可在音频信号编码器侧执行,其中音频信号编码器侧 通常比音频信号译码器(用以提供上混信号表示型态的装置)侧有更多可 用的计算能力。

因此,上面讨论的概念允许获得经修改渲染矩阵,其甚至对使用者指 定渲染矩阵的不当选择也会带来减小的可闻失真而不对用以提供上混信 号表示型态的装置增加任何显著的复杂度。特别地,在与没有失真限制器 的装置比较时,其甚至可不必修改信号处理器,因为经修改渲染矩阵算作 信号处理器的输入量且仅仅替换使用者指定渲染矩阵。此外,本发明概念 带来以下优点:音频信号编码器可依据在编码器侧指定的要求通过仅设定 音频内容的位流表示型态中所包括的线性组合参数而调整在音频信号译 码器侧应用的失真限制方案。因此,音频信号编码器通过适当地选择线性 组合参数可逐渐提供对于译码器(用于提供上混信号表示型态的装置)的 使用者选择渲染矩阵或多或少的自由。这允许音频信号译码器适应使用者 对给定服务的期望,因为对于一些服务,使用者可能期望最高质量(这暗 示降低使用者随意调整渲染矩阵的可能性),而对于其它服务,使用者通 常会期望最大自由度(这暗示增加使用者指定渲染矩阵对线性组合结果的 影响)。

综上所述,本发明概念以简单实施可能性而不必修改信号处理器在译 码器侧组合高计算效率(这对于可携式音频译码器尤其重要),并且还提 供对音频信号编码器的高度控制(这对于完成使用者对不同类型音频服务 的期望可能是重要的)。

在较佳实施方式中,失真限制器被配置为获得该目标渲染矩阵使得该 目标渲染矩阵是无失真目标渲染矩阵。这带来具有此播放情形的可能性: 没有失真或至少几乎没有任何失真是由对渲染矩阵的选择而引起的。此 外,已发现的是,在一些情况中能以很简单方式来执行对无失真目标渲染 矩阵的计算。此外,已发现的是,介于使用者指定渲染矩阵与无失真目标 渲染矩阵之间选择的渲染矩阵通常引起良好听觉印象。

在较佳实施方式中,失真限制器被配置为获得目标渲染矩阵使得目标 渲染矩阵是下混类似目标渲染矩阵。已发现的是,下混类似目标渲染矩阵 的使用带来很低或甚至最小失真程度。此外,这种下混类似目标渲染矩阵 能以很低的计算付出来获得,因为下混类似目标渲染矩阵可通过用公共比 例因子缩放下混矩阵的项并加入一些额外零项来获得。

在较佳实施方式中,失真限制器被配置为使用能量正规化标量缩放延 伸下混矩阵,以获得目标渲染矩阵,其中该延伸下混矩阵是下混矩阵的延 伸形态(该下混矩阵的行描述多个音频对象信号对该下混信号表示型态的 一个或多个声道的贡献),该下混矩阵以零元素的行延伸使得该延伸下混 矩阵的行数等于由该使用者指定渲染矩阵所描述的渲染群集。因而,延伸 下混矩阵是利用将下混矩阵的值复制到延伸下混矩阵、添加零矩阵项、及 所有矩阵元素与相同能量正规化标量的标量相乘来获得。所有这些元运算 可很有效率地执行,使得即使在很简单音频译码器中也可快速获得目标渲 染矩阵。

在较佳实施方式中,失真限制器被配置为获得目标渲染矩阵,使得该 目标渲染矩阵是尽力目标渲染矩阵。尽管此方法在计算上比使用下混类似 目标渲染矩阵稍微更苛求,但使用该尽力目标渲染矩阵提供了对使用者期 望渲染情形的更好考虑。使用该尽力目标渲染矩阵,在不引入失真或显著 失真的情况下尽可能在决定目标渲染矩阵时考虑期望渲染矩阵的使用者 定义。特别地,尽力目标渲染矩阵考虑使用者对多个扬声器(或上混信号 表示型态的声道)的期望响度。因此,在使用尽力目标渲染矩阵时可产生 改进听觉印象。

在较佳实施方式中,失真限制器被配置为获得目标渲染矩阵,使得目 标渲染矩阵取决于下混矩阵及使用者指定渲染矩阵。因此,目标渲染矩阵 相对接近于使用者期望但仍提供实质上无失真的音频渲染。因而,线性组 合参数决定使用者期望渲染的近似量与可闻失真的最小量之间的折衷,其 中考虑使用者指定渲染矩阵来计算目标渲染矩阵,在即使线性组合参数指 出目标渲染矩阵应支配线性组合时也提供对使用者期望的良好满意度。

在较佳实施方式中,失真限制器被配置为,计算包含用以提供上混信 号表示型态的装置的多个输出音频声道的声道个别能量正规化值的矩阵, 使得装置的指定输出音频声道的能量正规化值至少近似地描述以下事项, 多个音频对象的使用者指定渲染矩阵中与指定输出音频声道相关联的能 量渲染值的总和与多个音频对象的能量下混值的总和之间的比率。因此, 在某种程度上可满足使用者对装置的不同输出声道的响度的期望。

在此情况中,失真限制器被配置为使用相关联的声道个别能量正规化 值来缩放一组下混值,以获得目标渲染矩阵的与给定输出声道相关联的一 组渲染值。因此,给定音频对象对装置的输出声道的相对贡献与该给定音 频对象对下混信号表示型态的相对贡献相同,这允许大体上避免由修改音 频对象的相对贡献而引起的可闻失真。因此,装置的各输出声道大体上未 失真。然而,即使哪里放置哪个音频对象及/或如何改变音频对象彼此间的 相对强度的细节不被考虑(至少在某种程度上),也考虑使用者对多个扬 声器(或上混信号表示型态的声道)的响度分布的期望,以便避免由对音 频对象的过分骤然分离或对音频对象的相对强度的过度修改而可能引起 的失真。

因而,即使下混信号表示型态可包含较少声道,评估多个音频对象的 使用者指定渲染矩阵中与给定输出声道相关联的能量渲染值(例如,量级 渲染值的平方)的总和,与多个音频对象的能量下混值的总和之间的比率, 允许考虑所有输出音频声道,同时仍避免由音频对象的空间重新分布或由 不同音频对象的相对响度的过分改变而引起的失真。

在较佳实施方式中,失真限制器被配置为依使用者指定渲染矩阵及下 混矩阵来计算以下矩阵,即,描述用以提供上混信号表示型态的装置的多 个输出音频声道的声道个别能量正规化的矩阵。在此情况中,失真限制器 被配置为应用描述声道个别能量正规化的该矩阵,以获得该目标渲染矩阵 的与该装置的给定输出音频声道相关联的一组渲染系数,作为与该下混信 号表示型态的不同声道相关联的下混值(即,描述缩放的值,该缩放应用 于不同音频对象的音频信号以获得下混信号的声道)组的线性组合。使用 此概念,即使下混信号表示型态包含多于一个的音频声道也可获得十分适 于期望的使用者指定渲染矩阵的目标渲染矩阵,同时仍基本上避免失真。 已发现的是,形成下混值组的线性组合产生通常仅导致小可闻失真的一组 渲染系数。然而,已发现的是,使用此获取目标渲染矩阵的方法来近似使 用者期望是可能的。

在较佳实施方式中,该装置被配置为,从音频内容的位流表示型态读 取表示线性组合参数的指数值,并使用参数量化表来将该指数值映射至线 性组合参数。已发现的是,这是用以获取线性组合参数的计算上特别有效 的概念。还发现的是,与执行复杂计算而非对1维映射表的评估的其它可 能概念相比,此方法带来使用者满意度与计算复杂度间的较好折衷。

在较佳实施方式中,量化表描述非一致量化,其中线性组合参数的较 小值(其描述使用者指定渲染矩阵对于经修改渲染矩阵的较强贡献)用相 对较高分辨率来量化,及线性组合参数的较大值(其描述使用者指定渲染 矩阵对于经修改渲染矩阵的较小贡献)用相对较低分辨率来量化。已发现 的是,在许多情况中,仅渲染矩阵的极限设定带来显著可闻失真。因此, 已发现的是,对线性组合参数的精细调整在使用者指定渲染矩阵对目标渲 染矩阵有较强贡献的区域中进行是更重要的,以便获得设定,该设定允许 在实现使用者渲染期望与最小可闻失真间的最佳折衷。

在较佳实施方式中,该装置被配置为评估描述失真限制模式的位流元 素。在此情况中,失真限制器较佳地被配置为选择性获得目标渲染矩阵使 得目标渲染矩阵是下混类似目标渲染矩阵,或使得目标渲染矩阵是尽力目 标渲染矩阵。已发现的是,对于大量不同音频件,这种可切换概念提供用 以获得在实现使用者渲染期望与最小可闻失真间的良好折衷的有效可行 性。此概念也允许音频信号编码器对译码器侧的实际渲染的良好控制。因 此,可满足对各种各样不同音频服务的需要。

依据本发明的另一实施方式,创造一种用以提供表示多声道音频信号 的位流的装置。

该装置包含下混器,其被配置为基于多个音频对象信号来提供下混信 号。装置也包含旁侧信息提供器,其被配置为提供对象相关参数旁侧信息 (其描述音频对象信号及下混参数的特性)及线性组合参数(其描述使用 者指定渲染矩阵以及目标渲染矩阵对经修改渲染矩阵的贡献)。用以提供 位流的装置也包含位流格式器,其被配置为提供包含下混信号、对象相关 参数旁侧信息及线性组合参数的表示型态的位流。

用以提供表示多声道音频信号的位流的装置十分适于与上面讨论用 以提供上混信号表示型态的装置合作。用以提供表示多声道音频信号的位 流的装置允许依据其对音频对象信号的认识来提供线性组合参数。因此, 音频编码器(即,用以提供表示多声道音频信号的位流的装置)可对由评 估线性组合参数的音频译码器(即,上面讨论的用以提供上混信号表示型 态的装置)所提供的渲染质量有强烈影响。因此,用以提供表示多声道音 频信号的位流的装置对渲染结果有很高层级的控制,这在许多不同情形中 提供改进的使用者满意度。因此,确实是服务提供器的音频编码器使用线 性组合参数来提供对于冒可闻失真的风险是否应当允许使用者使用极限 渲染的指导。因而,通过使用上述音频编码器可避免使用者失望以及相对 应的不利经济后果。

依据本发明的另一实施方式产生一种用以基于音频内容的位流表示 型态中所包括的下混信号表示型态及对象相关参数信息并依使用者指定 渲染矩阵来提供上混信号表示型态的方法。该方法是基于与上述装置相同 的核心思想。

依据本发明的另一方法产生一种用以提供表示多声道音频信号的位 流的方法。该方法是基于与如上述装置相同的发现。

依据本发明的另一实施方式产生一种用以执行上面方法的计算机程 序。

依据本发明的另一实施方式产生一种表示多声道音频信号的位流。该 位流包含,在描述音频对象的特性的对象相关参数旁侧信息中组合多个音 频对象的音频信号的下混信号表示型态。该位流也包含线性组合参数,其 描述使用者指定渲染矩阵及目标渲染矩阵对经修改渲染矩阵的贡献。该位 流允许音频信号编码器侧对译码器侧渲染参数的一定程度控制。

附图说明

依据本发明的实施方式将随后参考附图描述,其中:

图1a示出了依据本发明的实施方式的用以提供上混信号表示型态的 装置的方块示意图;

图1b示出了依据本发明的实施方式的用以提供表示多声道音频信号 的位流的装置的方块示意图;

图2示出了依据本发明的另一实施方式的用以提供上混信号表示型 态的装置的方块示意图;

图3a示出了依据本发明的实施方式的表示多声道音频信号的位流的 示意表示型态;

图3b示出了依据本发明的实施方式的SAOC特定配置信息的详细语 法表示型态;

图3c示出了依据本发明的实施方式的SAOC帧信息的详细语法表示 型态;

图3d示出了在SAOC位流内可使用的位流元素“bsDcuMode”中失 真控制模式的编码的示意表示型态;

图3e示出了位流指数idx与线性组合参数“DcuParam[idx]”的值之 间的关联的表格表示型态,其在SAOC位流中可用来编码线性组合信息;

图4示出了依据本发明的另一实施方式的用以提供上混信号表示型 态的装置的方块示意图;

图5a示出了依据本发明的实施方式的SAOC特定配置信息的语法表 示型态;

图5b示出了位流指数idx与线性组合参数Param[idx]间的关联的表格 表示型态,其在SAOC位流中可用来编码该线性组合参数;

图6a示出了描述收听试验条件的表格;

图6b示出了描述收听试验的音频项的表格;

图6c示出了描述针对立体声至立体声SAOC解码情形的测试下混/ 渲染条件的表格;

图7示出了针对立体声至立体声SAOC情形的失真控制单元(DCU) 收听试验结果的图形表示型态;

图8示出了参考MPEG SAOC系统的方块示意图;

图9a示出了使用分离的译码器及混合器的参考SAOC系统的方块示 意图;

图9b示出了使用整合的译码器及混合器的参考SAOC系统的方块示 意图;以及

图9c示出了使用SAOC至MPEG转码器的参考SAOC系统的方块 示意图。

具体实施方式

1.依据图1a的用以提供上混信号表示型态的装置

图1示出了依据本发明的实施方式的用以提供上混信号表示型态的 装置的方块示意图。

装置100被配置为接收下混信号表示型态110及对象相关参数信息 112。装置100也被配置为接收线性组合参数114。下混信号表示型态110、 对象相关参数信息112及线性组合参数114均被包含于音频内容的位流表 示型态中。例如,线性组合参数114由该位流表示型态的位流元素描述。 装置100也被配置为接收渲染信息120,其定义使用者指定渲染矩阵。

装置100被配置为提供上混信号表示型态130,例如,个别声道信号 或与MPEG环绕旁侧信息结合的MPEG环绕下混信号。

装置100包含失真限制器140,其被配置为依例如可用gDCU标示的线 性组合参数146使用使用者指定渲染矩阵144(其由渲染信息120直接或 间接描述)与目标渲染矩阵的线性组合来获得经修改渲染矩阵142。

例如,装置100可被配置为评估表示线性组合参数146的位流114, 以便获得线性组合参数。

装置100也包含信号处理器148,其被配置为使用经修改渲染矩阵142 基于下混信号表示型态110及对象相关参数信息112获得上混信号表示型 态130。

因此,装置100能够使用(例如)SAOC信号处理器148或任何其它 对象相关信号处理器148来提供具有良好渲染质量的上混信号表示型态。 经修改渲染矩阵142由失真限制器140改写,使得在大部分或所有情况中 实现具有十分小失真的足够好听觉印象。经修改渲染矩阵通常处于使用者 指定(期望)渲染矩阵与目标渲染矩阵“之间”,其中经修改渲染矩阵与 使用者指定渲染矩阵及与目标渲染矩阵间的类似程度由线性组合参数决 定,从而允许调整可实现渲染质量及/或上混信号表示型态130的最大失真 层级。

信号处理器148例如可以是SAOC信号处理器。因此,信号处理器 148可被配置为评估对象相关参数信息112以获得描述由下混信号表示型 态110以下混形式所表示的音频对象的特性的参数。此外,信号处理器148 可获得(例如,接收)描述下混程序的参数,该下混程序在提供音频内容 的位流表示型态的音频编码器侧使用以便通过组合多个音频对象的音频 对象信号来获取下混信号表示型态110。因而,信号处理器148可例如评 估对象层级差信息OLD(其描述针对给定音频帧与一个或多个频带的多 个音频对象间的层级差)及对象间相关性信息IOC(其描述针对给定音频 帧与针对一个或多个频带的多对音频对象的音频信号的相关性)。此外, 信号处理器148也可评估描述下混的下混信息DMG、DCLD,该下混在 例如以一个或多个下混增益参数DMG及一个或多个下混声道层级差参数 DCLD的形式提供音频内容的位流表示型态的音频编码器侧执行。

此外,信号处理器148接收经修改渲染矩阵142,其指出上混信号表 示型态130中的哪个音频声道应包含不同音频对象的音频内容。因此,信 号处理器148被配置为使用其对音频对象的认识(自OLD信息及IOC信 息获得)以及其对下混处理的认识(自DMG信息及DCLD信息获得)来 判定不同音频对象对下混信号表示型态110的贡献。此外,信号处理器提 供上混信号表示型态使得经修改渲染矩阵142被考虑。

因此,信号处理器148履行SAOC译码器的功能,其中下混信号表 示型态110取代一个或多个下混信号812,其中对象相关参数信息112取 代旁侧信息814,及其中经修改渲染矩阵142取代使用者互动/控制信息 822。声道信号至发挥上混信号表示型态130的作用。因此,参考对 SAOC译码器820的说明。

类似地,信号处理器148可发挥译码器/混合器920的作用,其中下 混信号表示型态110发挥一个或多个下混信号的作用,其中对象相关参数 信息112发挥对象元数据的作用,及其中经修改渲染矩阵142发挥输入至 混合器/渲染器926的渲染信息的作用,及其中声道信号928发挥上混信号 表示型态130的作用。

可替换地,信号处理器148可执行整合译码器及混合器950的功能, 其中下混信号表示型态110可发挥一个或多个下混信号的作用,其中对象 相关参数信息112可发挥对象元数据的作用,其中经修改渲染矩阵142可 发挥输入至对象译码器外加混合器/渲染器950的渲染信息的作用,及其中 声道信号958可发挥上混信号表示型态130的作用。

可替换地,信号处理器可执行SAOC至MPEG环绕转码器980的功 能,其中下混信号表示型态110可发挥一个或多个下混信号的作用,其中 对象相关参数信息112可发挥对象元数据的作用,其中经修改渲染矩阵 142可发挥渲染信息的作用,及其中一个或多个下混信号988连同MPEG 环绕位流984可发挥上混信号表示型态130的作用。

因此,欲求信号处理器148的功能的详情,参考对SAOC译码器820、 分离的译码器与混合器920、整合的译码器与混合器950、及SAOC至 MPEG环绕转码器980的说明。也参考例如有关信号处理器148的功能的 文献[3]及[4],其中在依据本发明的实施方式中,经修改渲染矩阵142而 非使用者指定渲染矩阵120发挥输入渲染信息的作用。

有关失真限制器140的功能的进一步详情将在下面描述。

2.依据图1b的用以提供表示多声道音频信号的位流的装置

图1b示出了用以提供表示多声道音频信号的位流的装置150的方块 示意图。

装置150被配置为接收多个音频对象信号160a至160N。装置150进 一步被配置为提供表示由音频对象信号160a至160N描述的多声道音频信 号的位流170。

装置150包含下混器180,其被配置为基于多个音频对象信号160a 至160N来提供下混信号182。装置150也包含旁侧信息提供器184,其被 配置为提供对象相关参数旁侧信息186,该对象相关参数旁侧信息描述音 频对象信号160a至160N与下混器180所使用的下混参数的特性。旁侧信 息提供器184也被配置为提供线性组合参数188,其描述(期望的)使用 者指定渲染矩阵及目标(低失真)渲染矩阵对经修改渲染矩阵的期望贡献。

对象相关参数旁侧信息186可例如包含对象层级差信息(OLD),其 描述音频对象信号160a至160N的对象层级差(例如,按逐频带方式)。 对象相关参数旁侧信息也可包含对象间相关性信息(IOC),其描述音频对 象信号160a至160N间的相关性。此外,对象相关参数旁侧信息可描述下 混增益(例如,按逐对象方式),其中下混增益值由下混器180使用以便 获得使音频对象信号160a至160N组合的下混信号182。对象相关参数旁 侧信息186可包含下混声道层级差信息(DCLD),其描述下混信号182 的多个声道的下混层级间的差(例如,如果下混信号182是多声道信号)。

线性组合参数188可例如为0与1间的数值,描述仅使用使用者指定 下混矩阵(例如,对于参数值0)、仅使用目标渲染矩阵(例如,对于参数 值1)或介于这些极限之间的使用者指定渲染矩阵与目标渲染矩阵的任何 给定组合(例如,对于0与1间的参数值)。

装置150也包含位流格式器190,其被配置为提供位流170使得该位 流包含下混信号182、对象相关参数旁侧信息186及线性组合参数188的 表示型态。

因此,装置150执行依据图8的SAOC编码器810或依据图9a至图 9c的对象编码器的功能。音频对象信号160a至160N与例如由SAOC编 码器810接收的对象信号x1至xn等价。下混信号182可例如与一个或多 个下混信号812等价。对象相关参数旁侧信息186可例如与旁侧信息814 或对象元数据等价。然而,除了该1声道下混信号或多声道下混信号182 及该对象相关参数旁侧信息186之外,位流170也可编码线性组合参数 188。

因此,可视为音频编码器的装置150通过适当地设定线性组合参数 188对失真限制器140所执行的失真控制方案的译码器侧处理有影响,使 得装置150预期由接收位流170的音频译码器(例如,装置100)提供足 够的渲染质量。

例如,旁侧信息提供器184可依自装置150的可选使用者接口199 接收的质量要求信息来设定线性组合参数。可替换地或附加地,旁侧信息 提供器184也可考虑音频对象信号160a至160N以及下混器180的下混参 数的特性。例如,装置150可评估在一个或多个最差情况使用者指定渲染 矩阵的假设下在音频译码器获得的失真度,且可调整线性组合参数188使 得在考虑此线性组合参数的情况下预期由音频信号译码器获得的渲染质 量被旁侧信息提供器184仍视为是充足的。例如,如果旁侧信息提供器184 发现上混信号表示型态的音频质量即使在存在极限使用者指定渲染设定 的情况下也不严重降级,装置150可将线性组合参数188设为以下值,即, 允许对经修改渲染矩阵有强使用者影响(使用者指定渲染矩阵的影响)的 值。例如,在音频对象信号160a至160N足够类似时可能是此种情况。相 比之下,如果旁侧信息提供器184发现极限渲染设定会导致强可闻失真的 话,旁侧信息提供器184可将线性组合参数188设为允许对使用者(或使 用者指定渲染矩阵)有相对小影响的值。例如,在音频对象信号160a至 160N显著不同时可能是此种情况,使得在音频译码器侧清晰分离音频对 象是困难的(或与可闻失真有关)。

这里应指出的是,装置150可使用用以设定仅在装置150侧可用而在 音频译码器侧(例如,装置100)不可用的线性组合参数188的认识,诸 如举例而言,经由使用者接口输入至装置150的期望渲染质量信息,或关 于由音频对象信号160a至160N所表示的独立音频对象的详细认识。

因此,旁侧信息提供器184能以很有意义的方式来提供线性组合参数 188。

3.依据图2的具有失真控制单元(DCU)的SAOC系统

3.1SAOC译码器结构

下面将参考图2描述由失真控制单元(DCU处理)所执行的处理, 图2示出了SAOC系统200的方块示意图。具体而言,图2示出了在总 SAOC系统内的失真控制单元DCU。

参考图2,SAOC译码器200被配置为接收下混信号表示型态210, 其例如表示1声道下混信号或2声道下混信号,或甚至具有多于两个声道 的下混信号。SAOC译码器200被配置为接收SAOC位流212,其包含对 象相关参数旁侧信息,诸如举例而言,对象层级差信息OLD、对象间相 关性信息IOC、下混增益信息DMG、及可选地、下混声道层级差信息 DCLD。SAOC译码器200也被配置为获得线性组合参数214,其也用gDCU标示。

通常,下混信号表示型态210、SAOC位流212及线性组合参数214 被包括于音频内容的位流表示型态中。

SAOC译码器200也被配置为例如自使用者接口接收渲染矩阵输入 220。例如,SAOC译码器200可接收以矩阵Mren形式的渲染矩阵输入220, 其定义多个Nobj音频对象对(上混表示型态的)1、2或甚至更多输出音频 信号声道的(使用者指定、期望)贡献。渲染矩阵Mren可例如为来自使用 者接口的输入,其中该使用者接口可将期望渲染设置的表示型态的不同使 用者指定形式转化成渲染矩阵Mren的参数。例如,使用者界面可使用某映 射而将为层级滑动值及音频对象位置信息的形式的输入转化成使用者指 定渲染矩阵Mren

这里应注意的是,在本说明全文中,定义参数时隙的指数i及定义处 理频带的指数m有时为了清楚起见而省略。但是,应牢记的是,对于具有 指数1的多个后续参数时隙及对于具有频带指数m的多个频带,可个别地 执行处理。

SAOC译码器200也包含失真控制单元DCU 240,其被配置为接收使 用者指定渲染矩阵Mren、SAOC位流信息212的至少一部分(如将在下面 详细描述)及线性组合参数214。失真控制单元240提供经修改渲染矩阵 Mren,lim

音频译码器200也包含SAOC译码/转码单元248,其可视为信号处 理器,且其接收下混信号表示型态210、SAOC位流212及经修改渲染矩 阵Mren,lim。SAOC译码/转码单元248提供一个或多个输出声道的表示型态 230,其可视为上混信号表示型态。一个或多个输出声道的表示型态230 例如可采用个别音频信号声道的频域表示型态、参数多声道表示型态或个 别音频声道的时域表示型态的形式。例如,上混信号表示型态230可采用 MPEG环绕表示型态的形式,其包含MPEG环绕下混信号及MPEG环绕 旁侧信息。

应注意的是,SAOC译码/转码单元248可包含与信号处理器148相 同的功能,且可与SAOC译码器820、分离的编码器及混合器920、整合 的译码器及混合器950、及SAOC至MPEG环绕转码器980等效。

3.2对SAOC译码器操作的介绍

下面将给出对SAOC译码器200的操作的简要介绍。

在总的SAOC系统中,失真控制单元(DCU)被包含于渲染接口(例 如,使用者指定渲染矩阵、或可获取使用者指定渲染矩阵的信息被输入的 使用者接口)与实际SAOC译码/转码单元之间的SAOC译码器/转码器处 理链中。

失真控制单元240使用来自渲染接口的信息(例如,经由渲染接口或 使用者接口而直接或间接输入的使用者指定渲染矩阵输入)及SAOC数据 (例如,来自SAOC位流212的数据)提供经修改渲染矩阵Mren,lim。欲求 更多详情,参考图2。经修改渲染矩阵Mren,lim可由反映实际有效渲染设定的 应用(例如,SAOC译码/转码单元248)存取。

基于由具有元素的(使用者指定)渲染矩阵所表示的使用者 指定渲染情形,DCU通过产生包含受限渲染系数的经修改矩阵来防 止极限渲染设定,受限渲染系数将由SAOC渲染引擎使用。对于SAOC 的所有运算模式,最终(DCU处理的)渲染系数将依据下式来计算:

Mren,liml,m=(1-gDCU)Mrenl,m+gDCUMren,tarl,m.

也标示为线性组合参数的参数gDCU∈[0,1]用来定义自使用者定义渲染 矩阵向无失真目标矩阵转变的程度。

参数gDCU依据下式由位流元素“bsDcuParam”导出:

gDCU=DcuParam[bsDcuParam]。

因此,依线性组合参数gDCU形成使用者指定渲染矩阵Mren与无失真目 标矩阵间的线性组合。线性组合参数gDCU获自于位流元素,使得不会 难以计算所需的该线性组合参数gDCU(至少在译码器侧)。此外,从包括 下混信号表示型态210、SAOC位流212及表示线性组合参数的位流元素 的位流获取线性组合参数gDCU,这给予音频信号编码器机会来部分控制在 SAOC译码器侧执行的失真控制机制。

无失真目标矩阵有适合不同应用的两种可能形态。其由位流元 素“bsDcuMode”控制:

●(“bsDcuMode”=0):“下混类似(downmix-similar)”渲染,其中对应于能量正规化下混矩阵。

●(“bsDcuMode”=1):“尽力(best effort)”渲染,其中定义为下 混与使用者指定渲染矩阵二者的函数。

总之,有称为“下混类似”渲染和“尽力”渲染的两种失真控制模式, 它们可依据位流元素“bsDcuMode”而选择。这两种模式在它们的目标渲 染矩阵的计算方式上有所不同。下面将详细描述在“下混类似”渲染与“尽 力”渲染两种模式下有关目标渲染矩阵的计算的详情。

3.3“下混类似”渲染

3.3.1介绍

“下混类似”渲染方法在下混是艺术高质量的重要参照的情况中通常 可使用。“下混类似”渲染矩阵如下计算:

Mren,DSl=Mren,tarl=NDSlDDSl,

其中表示能量正规化标量(对于每参数隙l)及是以零元素的 行扩展的下混矩阵Di使得的行的数目及顺序与的群集对应。

例如,在SAOC立体声至多声道转码模式中,NMPS=6。因而,大小为NMPS×N(其中,N描绘输入音频对象的数目),及其表示前左及右 输出声道的行等于Di(或Di的相对应行)。

为促进理解上面内容,应考虑下面对渲染矩阵及下混矩阵的定义。

应用于输入音频对象S的(经修改)渲染矩阵Mren,lim决定目标渲染输 出为Y=Mren,lim S。具有元素mi,j的(经修改)渲染矩阵Mren,lim将所有输 入对象i(即,具有对象指数i的输入对象)映射至期望输出声道j(即, 具有声道指数j的输出声道)。(经修改)渲染矩阵Mren,lim由下式给出 Mren,lim=m0,Lf···mN-1,Lfm0,Rf···mN-1,Rfm0,C···mN-1,Cm0,Lfe···mN-1,Lfem0,Ls···mN-1,Lsm0,Rs···mN-1,Rs,对于5.1输出配置 Mren,lim=m0,L···mN-1,Lm0,R···mN-1,R,对于立体声输出配置

Mren,lim=(m0,C...mN-1,C),      对于单声道输出配置。

相同维数通常也应用于使用者指定渲染矩阵Mren及目标渲染矩阵 Mren,tar.

应用于输入音频对象S(在音频译码器中)的下混矩阵D决定下混信 号为X=DS。

对于立体声下混情况,由DMG及DCLD参数获得具有元素 di,j(i=0,1;j=0,...,N-1)大小为2×N的下混矩阵D(也用标示,以示出了可 能的时间依赖性)为

d0,j=100.05DMGi100.1DCLDi1+100.1DCLDj,d1,j=100.05DMGi11+100.1DCLDj.

对于单声道下混情况,由DMG参数获得具有元素 di,j(i=0,1;j=0,...,N-1)大小为1×N的下混矩阵D,为 d0,j=100.05DMGi.

下混参数DMG及DCLD是自SAOC位流212获得。

3.3.2针对所有译码/转码SAOC模式的能量正规化标量的计算

对于所有译码/转码SAOC模式,使用下列方程式计算能量正规化标 量

NDSl=trace(Mrenl,m(Mrenl,m)*)+ϵtrace(Dl(Dl)*)+ϵ.

3.4“尽力”渲染

3.4.1介绍

“尽力”渲染方法通常在目标渲染是重要参照的情况中使用。

“尽力”渲染矩阵描述目标渲染矩阵,其取决于下混及渲染信息。能 量正规化由大小为NMPS×M的矩阵表示,因而它对每个输出声道提供个 别值。这需要对在下面概述的不同SAOC操作模式不同地计算“尽 力”渲染矩阵如下计算

对于下面的SAOC模式“x-1-1/2/5/b”、 “x-2-1/b”

Mren,BEl=Mren,tarl=NBElDl,对于下面的SAOC模式“x-2-2/5”。

这里,Di是下混矩阵并且表示能量正规化矩阵。

上面方程式中的平方根运算符标示按元素平方根形成。

下面将详细描述对值的计算,值在SAOC单声道至单声道译 码模式中可能是能量正规化标量及在其它译码模式或转码模式中可能是 能量正规化矩阵。

3.4.2SAOC单声道至单声道(“x-1-1”)译码模式

对于单声道下混信号被译码以获得单声道输出信号(作为上混信号表 示型态)的(“x-1-1”)SAOC模式,能量正规化标量使用下面方程式 来计算

NBEl,m=Σj=0N-1(mj,0l,m)2+ϵΣj=0N-1(djl)2+ϵ.

3.4.3SAOC单声道至立体声(“x-1-2”)译码模式

对于单声道下混信号被译码以获得立体声(2声道)输出(作为上混 信号表示型态)的(“x-1-2”)SAOC模式,大小为2×1的能量正规化矩 阵使用下面方程式来计算

NBEl,m=(Σj=0N-1(mj,0l,m)2+ϵΣj=0N-1(djl)2+ϵ,Σj=0N-1(mj,1l,m)2+ϵΣj=0N-1(djl)2+ϵ)T.

3.4.4SAOC单声道至双耳(“x-1-b”)译码模式

对于单声道下混信号被译码以获得双耳渲染输出信号(作为上混信号 表示型态)的(“x-1-b”)SAOC模式,大小为2×1的能量正规化矩阵使用下面方程式来计算

NBEl,m=(Σj=0N-1aj,1l,m(aj,1l,m)*+ϵΣj=0N-1(djl)2+ϵ,Σj=0N-1aj,2l,m(aj,2l,m)*+ϵΣj=0N-1(djl)2+ϵ)T.

元素包含(或取自)目标双耳渲染矩阵Ai,m

3.4.5SAOC立体声至单声道(“x-2-1”)译码模式

对于两声道(立体声)下混信号被译码以获得一个声道(单声道)输 出信号(作为上混信号表示型态)的(“x-2-1”)SAOC模式,大小为1× 2的能量正规化矩阵使用下面方程式来计算

NBEl,m=Mrenl,m(Dl)*Jl,

其中是大小为1×N的单声道渲染矩阵。

3.4.6SAOC立体声至立体声(“x-2-2”)译码模式

对于立体声下混信号被译码以获得立体声输出信号(作为上混信号表 示型态)的(“x-2-2”)SAOC模式,大小为2×2的能量正规化矩阵使 用下面方程式来计算

NBEl,m=Mrenl,m(Dl)*Jl,

其中是大小为2×N的立体声渲染矩阵。

3.4.7SAOC立体声至双耳(“x-2-b”)译码模式

对于立体声下混信号被译码以获得双耳渲染输出信号(作为上混信号 表示型态)的(“x-2-b”)SAOC模式,大小为2×2的能量正规化矩阵使用下列方程式来计算

NBEl,m=Al,m(Dl)*Jl,

其中Ai,m是大小为2×N的双耳渲染矩阵。

3.4.8SAOC单声道至多声道(“x-1-5”)转码模式

对于单声道下混信号被转码以获得5声道或6声道输出信号(作为上 混信号表示型态)的(“x-1-5”)SAOC模式,大小为NMPS×1的能量正规化 矩阵使用下面方程式来计算

NBEl,m=(Σj=0N-1(mj,0l,m)2+ϵΣj=0N-1(djl)2+ϵ,···,Σj=0N-1(mj,NMPS-1l,m)2+ϵΣj=0N-1(djl)2+ϵ)T.

3.4.9SAOC立体声至多声道(“x-2-5”)转码模式

对于立体声下混信号被转码以获得5声道或6声道输出信号(作为上 混信号表示型态)的(“x-2-5”)SAOC模式,大小为NMPS×2的能量正规化 矩阵使用下面方程式来计算

NBEl,m=Mrenl,m(Dl)*Jl.

3.4.10Ji的计算

为避免在计算3.4.5、3.4.6、3.4.7、及3.4.9中的Ji=(Di(Di)*)-1项时遇到 的数值问题,在一些实施方式中修改Ji。首先计算Ji的特征值λ1,2,求解 det(J-λ1,2I)=0。

特征值以降序(λ1≥λ2)排列,并且对应于最大特征值的特征向量依据 上面方程式来计算。确保位于正x平面上(第一元素必须为正)。第二特 征向量由第一特征向量旋转-90度而获得:

J=(v1v2)λ100λ2(v1v2)*.

3.4.11针对增强音频对象(EAO)的失真控制单元(DCU)应用

下面将描述有关失真控制单元的应用的一些可选延伸,其可在依据本 发明的一些实施方式中实施。

对于译码残余编码数据及因而支持对EAO的处理的SAOC译码器, 提供对允许利用通过使用EAO而提供的增强音频质量的DCU的第二参数 化可以是有意义的。这可通过译码及使用可选择的第二组DCU参数(即, bsDcuMode及bsDcuParam2)来实现,第二组DCU参数作为包含残余数 据(即,SAOCExtensionConfigData()及SAOCExtensionFrameData())的数 据结构的一部分来额外传输。应用在其译码残余编码数据及在严格的EAO 模式中操作时可利用此第二参数组,其中,严格的EAO模式由唯有EAO 可随意修改而所有非EAO只经历单一公共修改的条件定义。具体而言, 该严格的EAO模式需要满足下列两个条件:

下混矩阵及渲染矩阵具有相同的维数(暗指,渲染声道数目等于下混 声道数目)。

应用仅对各常规对象(即,非EAO)使用渲染系数,该各常规对象 以单一公共比例因子与它们相对应的下混系数相关。

4.依据图3a的位流

下面将参考图3a描述表示多声道音频信号的位流,图3a示出了这种 位流300的图形表示型态。

位流300包含下混信号表示型态302,其是使多个音频对象的音频信 号组合的下混信号的表示型态(例如,编码表示型态)。位流300也包含 描述音频对象的特性的对象相关参数旁侧信息304及通常也描述在音频编 码器中执行的下混的特性。对象相关参数信息304较佳地包含对象层级差 信息OLD、对象间相关性信息IOC、下混增益信息DMG及下混声道层级 差信息DCLD。位流300也包含线性组合参数306,其描述使用者指定渲 染矩阵及目标渲染矩阵对经修改渲染矩阵(将要由音频信号译码器应用) 的期望贡献。

下面将参考图3b及图3c描述有关位流300的进一步可选详情,位流 300可由装置150作为位流170提供,及可输入装置100中以获得下混信 号表示型态110、对象相关参数信息112及线性组合参数140,或输入至 200中以获得下混信息210、SAOC位流信息212及线性组合参数214。

5.位流语法详情

5.1SAOC特定配置语法

图3b示出了SAOC特定配置信息的详细语法表示型态。

依据图3b的SAOC特定配置310例如可以是依据图3a的位流300 的报头的一部分。

SAOC特定配置例如可包含采样频率配置,其描述要由SAOC译码 器所应用的采样频率。SAOC特定配置也包含低延迟模式配置,其描述应 使用信号处理器148或SAOC译码/转码单元248的低延迟模式抑或高延 迟模式。SAOC特定配置也包含频率分辨率配置,其描述要由信号处理器 148或由SAOC译码/转码单元248所使用的频率分辨率。此外,SAOC特 定配置可包含帧长度配置,其描述要由信号处理器148或由SAOC译码/ 转码单元248所使用的音频帧的长度。再者,SAOC特定配置通常包含对 象数目配置,其描述要由信号处理器148或由SAOC译码/转码单元248 所处理的音频对象的数目。对象数目配置也描述对象相关参数信息112或 SAOC位流212中所包括的对象相关参数的数目。SAOC特定配置可包含 对象关系配置,其标示具有常见对象相关参数信息的对象。SAOC特定配 置也可包含绝对能量传输配置,其指出绝对能量信息是否自音频编码器传 输至音频译码器。SAOC特定配置信息也可包含下混声道数目配置,其指 出是否仅有一个下混声道、是否有两个下混声道、或可选地是否有多于两 个的下混声道。此外,SAOC特定配置在一些实施方式中可包含额外配置 信息。

SAOC特定配置也可包含后处理下混增益配置信息“bsPdgFlag”,其 定义是否传输针对可选的后处理的后处理下混增益。

SAOC特定配置也包含标记“bsDcuFlag”(其例如可以是1位标记), 其定义位流中是否传输值“bsDcuMode”及“bsDcuParam”。如果此标记 “bsDcuFlag”取值“1”,标为“bsDcuMandatory”的另一标记及标记 “bsDcuDynamic”被包括于SAOC特定配置310中。标记 “bsDcuMandatory”描述失真控制是否必须由音频译码器应用。如果标记 “bsDcuMandatory”等于1,则使用如在位流中传输的参数“bsDcuMode” 及“bsDcuParam”必须应用失真控制单元。如果标记“bsDcuMandatory” 等于0,则在位流中传输的失真控制单元参数“bsDcuMode”及 “bsDcuParam”仅是推荐值并且也可使用其它失真控制单元设定。

换言之,音频编码器可启用标记“bsDcuMandatory”以便迫使在标准 兼容音频译码器中使用失真控制机制,及可停用该标记以便将是否应用失 真控制单元的决策留给音频译码器作出,并且倘若如此,该等参数用于失 真控制单元。

标记“bsDcuDynamic”启用值“bsDcuMode”及“bsDcuParam”的 动态信令。如果标记“bsDcuDynamic”停用,参数“bsDcuMode”及 “bsDcuParam”被包括于SAOC特定配置中,不然,参数“bsDcuMode” 及“bsDcuParam”被包括于SAOC帧中,或至少被包括于一些SAOC帧 中,如将随后讨论。因此,音频信号编码器可在一次信令(每条音频,其 包含单一SAOC特定配置及通常多个SAOC帧)与一些或所有SAOC帧 中诸参数的动态传输之间切换。

参数“bsDcuMode”依据图3d的表来定义失真控制单元(DCU)的 无失真目标矩阵类型。

参数“bsDcuParam”依据图3e的表来定义失真控制单元(DCU)算 法的参数值。换言之,4位参数“bsDcuParam”定义指数值idx,其可由 音频信号译码器映射至线性组合值gDCU(也用“DcuParam[ind]”或 “DcuParam[idx]”标示)。因而,参数“bsDcuParam”以量化方式表示线 性组合参数。

如在图3b可见,如果标记“bsDcuFlag”取“0”值(该值指出不传 输失真控制单元参数),参数“bsDcuMandatory”、“bsDcuDynamic”、 “bsDcuMode”及“bsDcuParam”设为默认值“0”。

SAOC特定配置也可选地包含一个或多个字节对齐位“ByteAlign()” 以将SAOC特定配置引至期望长度。

此外,SAOC特定配置能可选地包含SAOC延伸配置 “SAOCExtensionConfig()”,其包含额外配置参数。然而,该配置参数 在本发明中是不相关的,使得这里因简洁起见而省略讨论。

5.2SAOC帧语法

下面将参考图3c描述SAOC帧的语法。

SAOC帧“SAOCFrame”通常包含如前讨论的编码对象层级差值 OLD,其可针对多个频带(“逐频带”)及多个音频对象(每音频对象)包 括于SAOC帧数据中。

SAOC帧也可选地包含编码绝对能量值NRG,其可针对多个频带(逐 频带)包括进来。

SAOC帧也可包含编码对象间相关性值IOC,其针对多个音频对象组 合包括于SAOC帧数据中。IOC值通常以逐频带方式包括进来。

SAOC帧也包含编码下混增益值DMG,其中,每SAOC帧每音频对 象通常有一个下混增益值。

SAOC帧也可选地包含编码下混声道层级差DCLD,其中每音频对象 及每SAOC帧通常有一个下混声道层级差值。

再者,SAOC帧通常可选地包含编码后处理下混增益值PDG。

此外,SAOC帧在一些情况中也可包含一个或多个失真控制参数。如 果包括于SAOC特定配置部分中的标记“bsDcuFlag”等于“1”,指出在 位流中使用失真控制单元信息,及如果SAOC特定配置中的标记 “bsDcuDynamic”也取值“1”,指出使用动态(逐帧)失真控制单元信息, 失真控制信息被包括于SAOC帧中但有条件是SAOC帧是所谓的“独立” SAOC帧(其中标记“bsIndependencyFlag”是有效的或标记 “bsDcuDynamicUpdate”是有效的)。

这里应注意的是,如果标记“bsIndependencyFlag”无效,标记 “bsDcuDynamicUpdate”仅被包括于SAOC帧中,并且标记 “bsDcuDynamicUpdate”定义是否对值“bsDcuMode”及“bsDcuParam” 进行更新。更确切的说,“bsDcuDynamicUpdate”==1意思是,在目前帧 中更新值“bsDcuMode”及“bsDcuParam”,而“bsDcuDynamicUpdate” ==0意思是,保留先前所传输的值。

因此,如果启动失真控制单元参数的传输及也启动失真控制单元数据 的动态传输及启动标记“bsDcuDynamicUpdate”,上面已阐述的参数 “bsDcuMode”及“bsDcuParam”被包括于SAOC帧中。此外,如果SAOC 帧是“独立”SAOC帧、启动失真控制单元数据的传输并且也启动失真控 制单元数据的动态传输,参数“bsDcuMode”及“bsDcuParam”也被包括 于SAOC帧中。

SAOC帧也可选地包含填充数据“byteAlign()”以将SAOC帧填充 至期望长度。

可选地,SAOC帧可包含标示为“SAOCExt或ExtensionFrame()” 的额外信息。然而,此可选额外SAOC帧信息在本发明中是不相关的,及 为了简洁因而这里将不讨论。

关于完整性,应指出的是,标记“bsIndependencyFlag”指出是否目 前SAOC帧的无损编码是独立于前SAOC帧而执行,即,是否目前SAOC 帧可在没有对前SAOC帧的认识的情况下编码。

6.依据图4的SAOC译码器/转码器

下面将描述用于SAOC中的失真控制的渲染系数限制方案的进一步 实施方式。

6.1概述

图4示出了依据本发明的实施方式的音频译码器400的方块示意图。

音频译码器400被配置为接收下混信号410、SAOC位流412、线性 组合参数414(也用Λ标示),及渲染矩阵信息420(也用R标示)。音频 译码器400被配置为接收上混信号表示型态,例如为多个输出声道130a 至130M的形式。音频译码器400包含失真控制单元440(也用DCU标示), 其接收SAOC位流412的SAOC位流信息的至少一部分、线性组合参数 414及渲染矩阵信息420。失真控制单元提供经修改信息Rlim,其可以是经 修改渲染矩阵信息。

音频译码器400也包含SAOC译码器及/或SAOC转码器448,其接 收下混信号410、SAOC位流412及经修改渲染信息Rlim并基于它们提供 输出声道130a至130M。

下面将详细讨论使用依据本发明的一个或多个渲染系数限制方案的 音频译码器400的功能。

一般的SAOC处理以时间/频率选择方式来实施且可描述如下。SAOC 编码器(例如,SAOC编码器150)提取数个输入音频对象信号的心理声 学特性(例如,对象功率关系及相关性)并接着将它们下混成组合单声道 或立体声声道(例如,下混信号182或下混信号410)。此下混信号及提取 的旁侧信息(例如,对象相关参数旁侧信息或SAOC位流信息412)是使 用已知的感知音频编码器以压缩格式来传输(或储存)。在接收端,SAOC 译码器418使用传输的旁侧信息412来概念上尝试恢复原始对象信号(即, 分离的下混对象)。接着使用渲染矩阵,将这些近似对象信号混合成目标 场景。例如R或Rlim的渲染矩阵由指定用于每个传输音频对象及上混设置 扬声器的渲染系数(RC)组成。这些RC确定所有分离的/渲染的对象的 增益和空间位置。

事实上,对象信号的分离很少或甚至从不执行,因为分离及混合在单 一组合处理步骤中执行,这大大降低计算复杂度。此方案在传输位率(仅 需要传输一个或两个下混声道182、410外加一些旁侧信息186、188、412、 414而非若干个别对象音频信号)及计算复杂度(处理复杂度主要有关于 输出声道数目而非音频对象数目)方面都极为有效。SAOC译码器将对象 增益及其它旁侧信息直接转换(在参数层面上)成转码系数(TC),其应 用于下混信号182、414以产生针对渲染输出音频场景(或针对进一步解 码操作的预处理下混信号,即,典型地多声道MPEG环绕渲染)的相对应 信号130a至130M。

渲染输出场景的主观上感知音频质量可通过应用如在[6]中所述的失 真控制单元DCU(例如,渲染矩阵修改单元)来改进。此改进能以接受 对目标渲染设定的适度动态修改为代价来实现。修改渲染信息可时间及频 率变化地完成,这在特定情况下可导致不自然的声色及/或时间波动人工因 素。

在总的SAOC系统中,DCU能以简单方式并入SAOC译码器/转码器 处理链中。即,通过控制RC、R而置于SAOC的前端,见图4。

6.2基本假设

间接控制方法的基本假设考虑失真层级与下混中RC与它们相对应 对象层级的偏差之间的关系。这是基于此观测结果:RC相对其它对象对 特定对象所应用的特定降低/升高越多,要由SAOC译码器/转码器所执行 的对传输下混信号的积极修改就越多。换言之:彼此间的“对象增益”值 偏差越高,出现不可接受失真的机会就越高(假定相同的下混系数)。

6.3受限渲染系数的计算

基于由大小为Nch×Nob(即,行对应于输出声道130a至130M,列对 应于输入音频对象)的矩阵R的系数(RC)所表示的使用者指定渲染情 形,DCU通过产生包含受限渲染系数的经修改矩阵Rlim来防止极限渲染设 定,受限渲染系数事实上由SAOC渲染引擎448使用。不失般性,在后续 说明中,RC被假定为频率不变的从而简化符号。对于SAOC的所有操作 模式,受限渲染系数可如下获取:

Rlim=(1-Λ)R+ΛR~.

这意味着,通过包含交叉衰减参数Λ∈[0,1](也标示为线性组合参数), 可实现(使用者指定)渲染矩阵R朝目标矩阵的混合。换言之,受限矩 阵Rlim表示渲染矩阵R与目标矩阵的线性组合。一方面,目标渲染矩阵可 以是具有正规化因子的下混矩阵(即,下混声道通过转码器448)或是导 致静态转码矩阵的另一静态矩阵。尽管该“下混类似渲染”完全不考虑初 始渲染系数,但确保目标渲染矩阵不引入任何SAOC处理人工因素及因而 表示音频质量方面的最佳渲染点。

然而,如果应用需要特定渲染情形或使用者对他/她的初始渲染设置 而设定高值(特别地,例如一个或多个对象的空间位置),下混类似渲染 无法充当目标点。另一方面,在考虑下混及初始渲染系数(例如,使用者 指定渲染矩阵)时,此点可解释为“尽力渲染”。对目标渲染矩阵的第二 定义的目的是以最可能方式来保留指定渲染情形(例如,由使用者指定渲 染矩阵定义),但同时将由于过度对象操控而引起的可闻降级保持在最小 层级上。

6.4下混类似渲染

6.4.1介绍

大小为Ndmx×Nob的下混矩阵D由编码器(例如,音频编码器150)决 定且包含有关输入对象如何被线性组合于传输至译码器的下混信号中的 信息。例如,对于单声道下混信号,D减至单行向量,及在立体声下混情 况中Ndmx=2。

“下混类似渲染”矩阵RDS如下计算

R~(=RDS)=NDSDR,

其中NDS表示能量正规化标量,及DR为由零元素的行扩展的下混矩 阵,使得DR的行的数目及顺序对应于R的群集。例如,在SAOC立体声 至多声道转码模式(x-2-5)中,Ndmx=2及Nch=6。因此,DR大小为Nch×Nob及其表示前左及右输出声道的行等于D。

6.4.2所有译码/转码SAOC模式

对于所有译码/转码SAOC模式,能量正规化标量NDS可使用下列方程 式来计算

DDS=trace(RR*)+ϵtrace(DD*)+ϵ,

其中,运算符trace(X)暗指矩阵X的所有对角元素的和。(*)暗指复共 轭转置运算符。

6.5尽力渲染

6.5.1介绍

尽力渲染方法描述取决于下混及渲染信息的目标渲染矩阵。能量正规 化由大小为Nch×Ndmx的矩阵NBE表示,因此,其对每个输出声道(假设有多 于一个的输出声道)提供个别值。这需要对在后续部分中概述的不同SAOC 操作模式不同地计算NBE

“尽力渲染”矩阵如下计算

R~(=RBE)=NBED,

其中,D是下混矩阵及NBE表示能量正规化矩阵。

6.5.2SAOC单声道至单声道(“x-1-1”)译码模式

对于“x-1-1”SAOC模式,能量正规化标量NBE可使用下列方程式计 算

NBE=Σj=1Nobr1,j2+ϵΣj=1Nobd1,j2+ϵ.

6.5.3SAOC单声道至立体声(“x-1-2”)译码模式

对于“x-1-2”SAOC译码模式,大小为2×1的能量正规化矩阵NBE可 使用下列方程式计算

NBE=[Σj=1Nobr1,j2+ϵΣj=1Nobd1,j2+ϵ,Σj=1Nobr2,j2+ϵΣj=1Nobd1,j2+ϵ]T.

6.5.4SAOC单声道至双耳(“x-1-b”)译码模式

对于“x-1-b”SAOC模式,大小为2×1的能量正规化矩阵可使用下列 方程式来计算

NBE=[Σj=1Nobr1,j2+ϵΣj=1Nobd1,j2+ϵ,···,Σj=1Nobr2,j2+ϵΣj=1Nobd1,j2+ϵ]T.

应进一步注意的是,这里r1及r2考虑/合并双耳HRTF参数信息。

也应注意的是,对于上面的所有3个方程式,必须取NBE的平方根, 即

R~(=RBE)=NBED

(参见前面说明)。

6.5.5SAOC立体声至单声道(“x-2-1”)译码模式

对于“x-2-1”SAOC模式,大小为1×2的能量正规化矩阵NBE可使用 下列方程式来计算

NBE=R1D*(DD*)-1

其中大小为1×Nob的单声道渲染矩阵R1如下定义

R1=r1,1···r1,Nob.

6.5.6SAOC立体声至立体声(“x-2-2”)译码模式

对于“x-2-2”SAOC模式,大小为2×2的能量正规化矩阵NBE可使用 下列方程式来计算

NBE=R2D*(DD*)-1

其中大小为2×Nob的单声道渲染矩阵R2如下定义

R2=r1,1···r1,Nobr2,1···r2,Nob.

6.5.7SAOC单声道至双耳(“x-2-b”)译码模式

对于“x-2-b”SAOC模式,大小为2×2的能量正规化矩阵NBE可使用 下列方程式来计算

NBE=R2D*(DD*)-1

其中大小为2×Nob的双耳渲染矩阵R2如下定义

R2=r1,1···r1,Nobr2,1···r2,Nob.

应进步注意的是,这里r1,n及r2,n考虑/合并双耳HRTF参数信息。

6.5.8SAOC单声道至多声道(“x-1-5”)转码模式

对于“x-1-5”SAOC模式,大小为Nch×1的能量正规化矩阵NBE可使 用下列方程式来计算

NBE=[Σj=1Nobr1,j2+ϵΣj=1Nobd1,j2+ϵ,···,Σj=1NobrNab,j2+ϵΣj=1Nobdab,j2+ϵ]T.

再次,推荐或甚至在某些情况中需要取每个元素的平方根。

6.5.9SAOC立体声至多声道(“x-2-5”)转码模式

对于“x-2-5”SAOC模式,大小为Nch×2的能量正规化矩阵NBE可使 用下列方程式来计算

NBE=RD*(DD*)-1

6.5.10(DD*)-1的计算

对于项(DD*)-1的计算,可应用正则化方法来防止不适定矩阵结果。

6.6渲染系数限制方法的控制

6.6.1位流语法的范例

下面将参考图5a描述SAOC特定配置的语法表示型态。SAOC特定 配置“SAOCSpecificConfig()”包含常规的SAOC配置信息。再者,SAOC 特定配置包含DCU特定添加内容510,其将在下面更详细描述。SAOC 特定配置也包含一个或多个填充位“ByteAlign()”,其可用来调整SAOC 特定配置的长度。此外,SAOC特定配置能可选地包含SAOC扩展配置, 其包含进一步的配置参数。

依据图5a的位流语法元素“SAOCSpecificConfig()”的DCU特定 添加内容510是所提出DCU方案的位流信令的范例。这涉及在依据参考 文献[8]的起草SAOC标准的子条款“5.1 payloads for SAOC”中所描述的 语法。

下面将给出一些参数的定义。

“bsDcuFlag”定义DCU的设定是否由SAOC编码器或译码器/转码 器决定。更准确而言,“bsDcuFlag”=1意味着,由SAOC编码器在 SAOCSpecificConfig()中指定的值“bsDcuMode”及“bsDcuParam” 被应用于DCU,而“bsDcuFlag”=0意味着,变量“bsDcuMode”及 “bsDcuParam”(由默认值初始化)可由SAOC译码器/转码器应用或使 用者来进一步修改。

“bsDcuMode”定义DCU的模式。更准确而言,“bsDcuMode”=0 意味着由DCU应用“下混类似”渲染模式,而“bsDcuMode”=1意味着 由DCU算法应用“尽力”渲染模式。

“bsDcuParam”定义DCU算法的混合参数值,其中图5b的表示出 了“bsDcuParam”参数的量化表。

可能的“bsDcuParam”值在此范例中是具有用4位表示的16个项 的表的一部分。当然,可使用任何更大或更小的表格。值间的间隔可以是 对数上的,以便对应于按分贝计的最大对象分离。但值也可以是线性隔开 的,或对数的与线性的混合组合,或任何其它种类的尺度。

位流中的“bsDcuMode”参数使得在编码器侧可能选择针对该情况 的最佳DCU算法。这可能会非常有用,因为一些应用或内容可能自“下 混类似”渲染模式受益,而其它可能自“尽力”渲染模式受益。

通常,“下混类似”渲染模式会是,向后/向前兼容性是重要的及下混 具有需要保留的重要艺术质量的应用的期望方法。另一方面,“尽力”渲 染模式在不是此情况的情况中会有更好性能。

有关本发明的这些DCU参数当然可以在SAOC位流的任何其它部分 中传送。可替换位置会是使用“SAOCExtensionConfig()”容器,其中可 使用某扩展ID。此两部分可位于SAOC报头中,确保最小数据率开销。

另一替代方案是在有效载荷数据(即,SAOCFrame())中传送DCU 数据。这会允许时变信令(例如,信号适应性控制)。

灵活方法是定义DCU数据的针对报头(即,静态信令)与有效载荷 数据(即,动态信令)二者的位流信令。然后,SAOC编码器自由选择两 信令方法之一。

6.7处理策略

在DCU设定(例如,DCU模式“bsDcuMode”及混合参数设定 “bsDcuParam”)由SAOC编码器明确指定的情况(例如,“bsDcuFlag” =1)中,SAOC译码器/转码器将这些值直接应用于DCU。如果DCU设定 不明确指定(例如,“bsDcuFlag”=0),SAOC译码器/转码器使用默认值 并允许SAOC译码器/转码器应用或使用者来修改它们。第一量化指数(例 如,idx=0)可用来禁用DCU。可替换地,DCU默认值(“bsDcuParam”) 可为“0”(即,禁用DCU)或“1”(即,完全限制)。

7.性能评估

7.1收听试验设计

已进行主观收听试验来评估所提出DCM概念的感知性能并将其与常 规SAOC RMM解码/转码处理的结果进行比较。与其它收听试验相比,此 测试的任务是考虑极限渲染情况(“独奏对象”、“不发音对象”)中关于两 个质量方面的最佳可能再现质量:

1.实现渲染目标(目标对象的良好降低/升高)

2.总场景声音质量(考虑失真、人工因素、非自然性…)

请注意,未经修改SAOC处理可实现方面#1但不实现方面#2,而仅 使用传输下混信号可实现方面#2但不实现方面#1。

进行收听试验,向听众仅呈现真实选择,即,仅有在译码器侧作为信 号真正可用的材料。因而,所呈现的信号是常规(DCU未处理)SAOC 译码器的输出信号,证明SAOC及SAOC/DCU输出的基准性能。此外, 与下混信号对应的轻微渲染情况在收听试验中呈现。

图6a的表描述收听试验条件。

由于所提出的DCU使用常规SAOC数据及下混来操作且不依赖残余 信息,没有核心编码器应用于相对应的SAOC下混信号。

7.2收听试验项

下述项以及极限与临界渲染已被选定用于始于CfP收听试验材料的 目前收听试验。

图6b的表描述收听试验的音频项。

7.3下混及渲染设定

在图6c的表中描述的渲染对象增益已应用于所考虑的上混情形。

7.4收听试验指令

主观收听试验在声学上隔离的收听房间内进行,该房间被设计成允许 高质量收听。使用耳机(带有Lake-People D/A转换器及STAX SRM监视 器的STAX SR lambda pro)来进行播放。

测试方法符合在空间音频验证测试中使用的程序,类似于用以对适度 质量音频[2]进行主观评估的“Multiple Stimulus with Hidden Reference and Anchors”MUSHRA)方法。测试方法已如上所述来修改以便评估所提出 的DCU的感知性能。听众被指示为遵守下列收听试验指令:

“应用情形:设想你是互动音乐重混音系统的使用者,该互动音乐重 混音系统允许你对音乐材料作出专用重混音。系统提供混合桌面样式滑动 块以供每个乐器改变其层级、空间位置等。由于系统的本质,一些极限声 音混合可导致降低总声音质量的失真。另一方面,具有类似乐器层级的声 音混合倾向于产生更好的声音质量。

此测试的目的是评估不同处理算法,该等不同处理算法有关它们对声 音修改强度与声音质量的影响。

在此测试中没有“参照信号”!取代其的是,下面给出对期望声音混 合的说明:

对于每个音频项,请:

-首先读对你作为系统使用者想实现的期望声音混合的说明

项“BlackCoffee”:声音混合中的轻柔铜管乐部分

项“VoiceOverMusic”:轻柔背景音乐

项“Audition”:强人声音及轻柔音乐

项“LovePop”:声音混合中的轻柔弦乐部分

-接着使用共同等级来对信号评级以描述以下两者

-实现期望声音混合的渲染目标

-总场景声音质量(考虑失真、人工因素、非自然性、空间失真、…)

总共8听众参与所执行测试中的每个测试。所有主体可视为有经验听 众。对每个测试项及对每个听众,自动地随机化测试条件。主观响应在范 围为0至100的尺度上由基于计算机的收听试验程序来记录,其中五区间 以与MUSHRA尺度相同的方式来标记。允许待测试项间的瞬时切换。

7.3收听试验结果

在图7的图形表示型态中所示的图示出了每项对所有听众而言的平 均分,及所有评估项连同关联95%信赖区间的统计均值。

基于进行的收听试验的结果可作出如下观测结果:对于所进行的收听 试验,所获得MUSHRA分数证实,所提出的DCU功能在总统计均值的 意义上较常规SAOC RM系统提供显著更好性能。人们应注意的是,由常 规SAOC译码器所产生的所有项的质量(在所考虑极限渲染条件下显出强 音频人工因素)被评为与下混相同渲染设定的质量一样低的等级,其根本 无法满足期望渲染情形。因此,可以得出结论,所提出的DCU方法对所 有考虑的收听试验情形都引起对主观信号质量的相当大的改进。

8.结论

综上讨论,已描述用于SAOC中的失真控制的渲染系数限制方案。 依据本发明的实施方式可结合用于对包含多个音频对象的音频场景的位 率有效率传输/储存的参数技术来使用,其最近已提出(例如,参见参考文 献[1]、[2]、[3]、[4]及[5])。

结合接收侧的使用者交互性,在执行极限对象渲染时,此类技术按照 惯例(在不使用发明渲染系数限制方案的情况下)可造成输出信号的低质 量(例如,参见参考文献[6])。

本说明书关注空间音频对象编码(SAOC),空间音频对象编码 (SAOC)提供用以使用者接口的手段来选择期望播放设置(例如,单声 道、立体声、5.1、等等),及通过依据个人偏好或其它准则控制渲染矩阵 来对期望输出渲染场景进行互动实时修改。然而,发明通常也可适于参数 技术。

由于下混/分离/基于混合的参数方法,渲染音频输出的主观质量取决 于渲染参数设定。选择使用者选择的渲染设定的自由必然伴有使用者选择 不适当对象渲染选项的风险,诸如总声音场景中对象的极限增益操控。

对于商品,因使用者接口上的任何设定而产生欠佳声音质量及/或音 频人工因素必定是不可接受的。为了控制所产生SAOC音频输出的过度劣 化,已描述数个计算测度,它们是基于计算渲染场景的感知质量的测度, 并根据该测度(及可选地,其它信息)来修改实际所应用的渲染系数(参 见,例如,参考文献[6])的构想。

本文档描述用于保障渲染SAOC场景的主观声音质量的可替换构想, 在该等可替换构想中,所有处理完全在SAOC译码器/转码器中实施,而 不涉及对渲染声音场景的感知音频质量的复杂测度的明确计算。

这些构想因而可在SAOC译码器/转码器框架中以结构上简单且极其 有效的方式来实施。所提出的失真控制单元(DCU)算法旨在限制SAOC 译码器的输入参数,即渲染系数。

综上所述,依据本发明的实施方式产生如上所述的音频编码器、音频 译码器、编码方法、译码方法、及用以编码或译码的计算机程序、或编码 的音频信号。

9.实施替换方案

虽然在装置的上下文中已描述了一些方面,但显然这些方面也表示对 相对应方法的说明,其中区块或装置对应于方法步骤或方法步骤的特征。 类似地,在方法步骤的上下文中所描述的方面也表示对相对应装置的相对 应区块或项或特征的说明。一些或所有方法步骤可由(或使用)硬件装置 来执行,如举例而言,微处理器、可编程计算机或电子电路。在一些实施 方式中,某个或多个最重要方法步骤可由此装置来执行。

发明的编码音频信号可被储存于数字储存介质上或能以传输介质传 输,诸如无线传输介质或诸如互联网的有线传输介质。

视某些实施需求而定,本发明实施方式能够以硬件或软件实施。使用 储存有电子可读取控制信号的数字储存介质,例如软盘、DVD、蓝光、 CD、ROM、PROM、EPROM、EEPROM或闪存可执行该实施,该等电子 可读取控制信号与可编程计算机系统合作(或能够合作)使得各自的方法 被执行。因此,该数字储存介质可以是计算机可读的。

依据本发明的一些实施方式包含具有电子可读取控制信号的数据载 体,该等电子可读取控制信号能够与可编程计算机系统合作使得本文所描 述的方法之一被执行。

大体上,本发明的实施方式可作为具有程序代码的计算机程序产品而 被实施,当该计算机程序产品运行于计算机上时,该程序代码可操作用于 执行该等方法之一。该程序代码可例如被储存于机器可读载体上。

其它实施方式包含储存于机器可读载体上、用于执行本文所描述方法 之一的计算机程序。

换言之,发明方法的实施方式因而是计算机程序,具有当该计算机程 序运行于计算机上时用以执行本文所描述的方法之一的程序代码。

发明方法的进一步实施方式因而是数据载体(或数字储存介质或计算 机可读介质),其包含记录于其上用以执行本文所描述方法之一的计算机 程序。数据载体、数字储存介质或记录介质通常是有形的及/或非过渡的。

发明方法的进一步实施方式因而是数据串流或信号序列,表示用于执 行本文所描述方法之一的计算机程序。该数据串流或该信号序列可例如被 被配置为经由数据通信连接(例如经由互联网)来传递。

进一步的实施方式包含处理装置,例如计算机,或可编程逻辑装置, 其被被配置为或适于执行本文所描述的方法之一。

进一步的实施方式包含上面安装有用以执行本文所描述的方法之一 的计算机程序的计算机。

在一些实施方式中,可编程逻辑装置(例如,现场可编程门阵列)可 被用来执行本文所描述的方法的一些或所有功能。在一些实施方式中,现 场可编程门阵列可与微处理器合作以便执行本文所描述的方法之一。大体 上,该等方法较佳地被任何硬件装置执行。

上述实施方式仅仅是为了说明本发明的原理。要明白的是,对本文所 描述的安排与细节的修改或改变对于本领域技术人员而言将是显而易见 的。因而,意图是仅受后附的所附权利要求的范围的限制而不受以本文实 施方式的说明与阐述方式呈现的特定细节限制。

参考文献

[1]C.Faller and F.Baumgarie,“Binaural Cue Coding-Part II:Schemes and  applicalions”,IEEE Trans.on Specch and Acdio Proc,vol.11,no.6,Nov, 2003.

[2]C.Faller,“Parametric Jaint-Coding of Audio Sources”,120th AES Convcntion, Paris,2006,Preprint 6752.

[3]J.Herrc,S.Diseh,J.Hilpert,O,Heilmuth:“From SAC To SAOC-Recent  Developments in Parametric Coding of Spatial Audio”,22nd Regional UK AES  Conterencc,Cambridge,UK,April 2007.

[4]J.B.Resch,C,Falch,O.Heilmuth,I.Hilpert,A,L. Terenliev,J.Breebaart,J.Koppcns,E.Schuijers and W.Oomen:“Spatial Audio  Object Coding(SAOC).The Upcoming MPEG Standard on Parametrie Object  Bared Audio Coding”,124th AES Convention,Amsterdam 2008,Preprint 7377.

[5]ISO/IEC,“MPEG audio technologies-Part 2:Spatial Audio Object Coding  (SAOC),”ISO/IEC JTC1/SC29/WG11(MPEG)FCD 23003-2.

[6]US patent applicetion 61/173,456,METHODS,APPARATUS,AND  COMPUTER PROGRAMS FOR DISTORTION AVOIDING AUDO SIGNAL  PROCESSING

[7]EBU Technical recommendation:“MUSHRA-EBU Method for Subjective  Listening Tests of Intermediate Audio Quailly”,Dec.B/AIM022,October 1999.

[8]ISO/IEC JTC1/SC29/WG1l(MPEG),Document N10843,“Study on ISO/IEC 23003-2:200x Spatial Audio Object Coding(SAOC)”,89th MPEG Meeting, London,UK,July 2009

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号