首页> 中国专利> 用于提高三维音频空间感距离感的参数编解码方法及系统

用于提高三维音频空间感距离感的参数编解码方法及系统

摘要

本发明提供了用于提高三维音频空间感距离感的参数编解码方法及系统,编码时输入三维音频的音频信号和三维音频的空间边信息,将有向性音频信号下混并提取相应的下混边信息,对无向性散射音频信号、下混后的有向性音频信号、提取的下混边信息、及输入的空间边信息分别进行编码;解码时提取空间边信息的码流等分别进行相应解码并还原。本发明采用音频信号的强度参数和距离参数来共同表达声像距离,提高三维音频的空间感和距离感,可以得到更好的三维音频重放效果。

著录项

  • 公开/公告号CN104064194A

    专利类型发明专利

  • 公开/公告日2014-09-24

    原文格式PDF

  • 申请/专利权人 武汉大学;

    申请/专利号CN201410310341.9

  • 申请日2014-06-30

  • 分类号G10L19/02(20130101);

  • 代理机构武汉科皓知识产权代理事务所(特殊普通合伙);

  • 代理人严彦

  • 地址 430072 湖北省武汉市武昌区珞珈山武汉大学

  • 入库时间 2023-12-17 01:34:31

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-04-26

    授权

    授权

  • 2014-10-22

    实质审查的生效 IPC(主分类):G10L19/02 申请日:20140630

    实质审查的生效

  • 2014-09-24

    公开

    公开

说明书

技术领域

本发明涉及数字音频领域,针对提高三维音频空间感和距离感的需求,尤其涉及一种提 高三维音频空间感和距离感的参数编解码技术方案。

背景技术

2009年底,三维电影《阿凡达》在全球三十多个国家登上票房榜首,到2010年9月初, 全球累计票房超过27亿美元。《阿凡达》之所以能取得如此辉煌的票房成绩,在于它所采用 了全新的三维特效制作技术带给人们感官上的震撼效果。要想达到更好的视听体验,还需要 有与三维视频内容同步的三维声场听觉效果,才能真正达到身临其境的视听感受。

在目前已有的编码技术中,MPEG surround编码技术能产生水平面的环绕感,但三维空 间的空间感仍然不够强,DirAC、S3AC编码技术能产生较好的整个空间的方向感,但在距离 感上仍然欠缺。这些编码技术的距离参数仍然是采用强度来表达的,虽然强度和距离的平方 成反比关系,但采用强度来表达距离信息还需要人类对声音强度的经验信息,而强度在不同 情况下又是多变的,而且近场情况下人体对距离变得更为敏感,距离参数对头相关传递函数 的贡献也变得更为明显。综上可知,只采用强度来表达距离感仍然存在不足之处。

发明内容

本发明的目的在于针对上述现有技术在表达三维音频的空间感和距离感上存在的问题, 提供一种提高三维音频空间感和距离感的参数编解码技术方案。

本发明的技术方案提供一种用于提高三维音频空间感距离感的参数编解码方法,包括编 码过程和解码过程,

所述编码过程包括以下步骤,

步骤C1,输入三维音频的音频信号和三维音频的空间边信息,将三维音频的时域信号变 换到频域,得到三维音频的频域信号,实现如下,

设三维音频的时域信号为s(t),s(t)由s1(t)、s2(t)、…、sK(t)、diffu(t)构成,三维音频的 空间边信息构成;将三维音频的时域信号s(t) 变换到频域,得到三维音频的频域信号S(n,f),S(n,f)由S1(n,f)、S2(n,f)、…、SK(n,f)、Diffu(n,f) 构成;

其中,sk(t)为第k个有向性音频信号的时域表达,diffu(t)为无向性散射音频信号的时域表达, t表示时间;Sk(n,f)为第k个有向性音频信号的频域表达,Diffu(n,f)为无向性散射音频信号的 频域表达,n代表帧索引,f代表频率索引;表示第k个有向性音频信号对应的空间 边信息,θ为水平角,为高度角,r为距离边信息;k的取值为1,2,…,K,K为原有的有向 性音频信号的总数;

步骤C2,将K个有向性音频信号下混为m个有向性音频信号,并提取相应的下混边信 息3D_OLD,下混边信息为音频信号间强度差;K>m,K和m都为自然数,且m大于等于1;

步骤C3,对无向性散射音频信号、下混后的m个有向性音频信号及提取的下混边信息分 别进行编码,实现如下,

对无向性散射音频信号进行编码,生成无向性散射音频信号的码流Diffu_code;

对下混后的m个有向性音频信号进行编码,生成下混后的有向性音频信号码流Dmix_code;

对下混边信息3D_OLD进行编码,生成下混边信息的码流3D_OLD_code;

步骤C4,对K个有向性音频信号的空间边信息进行编码,生成空间边信息码流SI_code;

步骤C5,将步骤C3和步骤C4得到的码流合并,得到三维音频码流3DAudio_code;

所述解码过程包括以下步骤,

步骤D1,根据三维音频码流3DAudio_code,提取空间边信息的码流SI_code进行解码, 还原出K个有向性音频信号的空间边信息

步骤D2,对无向性散射音频信号码流Diffu_code、下混后的有向性音频信号码流 Dmix_code及下混边信息码流3D_OLD_code分别进行解码,实现如下,

根据三维音频码流3DAudio_code,提取无向性散射音频信号码流Diffu_code,解码还原出无 向性散射音频信号Diffu’(n,f),Diffu’(n,f)是Diffu(n,f)经过编解码后的信号;

根据三维音频码流3DAudio_code,提取下混后的有向性音频信号码流Dmix_code,解码还原 出m个下混后的有向性音频信号;

根据三维音频码流3DAudio_code,提取下混边信息码流3D_OLD_code,还原出下混边信息 3D_OLD;

步骤D3,根据步骤D2得到的m个下混后的有向性音频信号和下混边信息3D_OLD,将 m个下混后的有向性音频信号上混为K个有向性音频信号S’1(n,f),S’2(n,f),…,S’K(n,f),其中 S’k(n,f)是Sk(n,f)经过编解码后的信号,K个有向性音频信号与步骤D2所得无向性散射音频 信号Diffu’(n,f)共同组成解码后的三维音频的音频信号的频域表达;

步骤D4,将音频信号的频域表达S’(n,f)变换到时域,得到音频信号的时域表达s’(t),S’(n,f) 是S(n,f)经过编解码后的信号,s’(t)是s(t)经过编解码后的信号;音频信号的时域表达s’(t)和步 骤D1所得空间边信息构成解码后的三维音频的音频信号和空间边信息。

而且,步骤C2中,将K个有向性音频信号下混为m个有向性音频信号时,采用逐级下 混的方式实现,每两个信号下混为一个信号。

而且,步骤C4中,对K个有向性音频信号的空间边信息进行编码时,采用非均匀的空 间量化点来表达空间方位信息和距离信息,进行空间方位信息和距离信息编码,所述空间方 位信息为水平角θ和高度角所述距离信息为距离边信息r;所述非均匀的空间量化点按以 下规则进行量化,

当高度角固定时,相应水平面上水平角按照等差数列的数列和的大小进行变化如下,

an=a1+(n-1)d,n=1,2,…,N>

Sn=n×a1+n×(n-1)×d2,n=1,2,...,N---(2)

其中,a1是该等差数列的最小值,也是水平角的最小取值,而aN为等差数列的最大值,an为 等差数列的第n个值,d为等差数列的差值,N为该水平面上空间量化点的点数;

基于a1和aN的取值,根据式(1)和式(2)得到相应点数N以及等差数列的差值d,进 而求出各个数列和Sn,n=1,2,…,N,Sn为该水平面上水平角所取的第n个值,而SN=180°;

步骤D1中,根据以上量化规则对空间边信息码流SI_code进行相应解码。

本发明还相应提供一种用于提高三维音频空间感距离感的参数编解码系统,包括编码器 和解码器,

所述编码器包括以下模块,

时频变换模块,用于输入三维音频的音频信号和三维音频的空间边信息,将三维音频的 时域信号到频域,得到三维音频的频域信号,实现如下,

设三维音频的时域信号为s(t),s(t)由s1(t)、s2(t)、…、sK(t)、diffu(t)构成,三维音频的 空间边信息由构成;将三维音频的时域信号s(t) 变换到频域,得到三维音频的频域信号S(n,f),S(n,f)由S1(n,f)、S2(n,f)、…、SK(n,f)、Diffu(n,f) 构成;

其中,sk(t)为第k个有向性音频信号的时域表达,diffu(t)为无向性散射音频信号的时域表达, t表示时间;Sk(n,f)为第k个有向性音频信号的频域表达,Diffu(n,f)为无向性散射音频信号的 频域表达,n代表帧索引,f代表频率索引;表示第k个有向性音频信号对应的空间 边信息,θ为水平角,为高度角,r为距离边信息;k的取值为1,2,…,K,K为原有的有向 性音频信号的总数;

下混模块,用于将K个有向性音频信号下混为m个有向性音频信号,并提取相应的下混 边信息3D_OLD,下混边信息为音频信号间强度差;K>m,K和m都为自然数,且m大于等 于1;

综合编码模块,用于对无向性散射音频信号、下混后的m个有向性音频信号及提取的下 混边信息分别进行编码,实现如下,

对无向性散射音频信号进行编码,生成无向性散射音频信号的码流Diffu_code;

对下混后的m个有向性音频信号进行编码,生成下混后的有向性音频信号码流Dmix_code;

对下混边信息3D_OLD进行编码,生成下混边信息的码流3D_OLD_code;

空间边信息编码模块,用于对K个有向性音频信号的空间边信息进行编码,生成空间边 信息码流SI_code;

码流合并模块,用于将综合编码模块和空间边信息编码模块得到的码流合并,得到三维 音频码流3DAudio_code;

所述解码器包括以下模块,

空间边信息解码模块,用于根据三维音频码流3DAudio_code,提取空间边信息的码流 SI_code进行解码,还原出K个有向性音频信号的空间边信息

综合解码模块,用于对无向性散射音频信号码流Diffu_code、下混后的有向性音频信号 码流Dmix_code及下混边信息码流3D_OLD_code分别进行解码,实现如下,

根据三维音频码流3DAudio_code,提取无向性散射音频信号码流Diffu_code,解码还原出无 向性散射音频信号Diffu’(n,f);

根据三维音频码流3DAudio_code,提取下混后的有向性音频信号码流Dmix_code,解码还原 出m个下混后的有向性音频信号;

根据三维音频码流3DAudio_code,提取下混边信息码流3D_OLD_code,还原出下混边信息 3D_OLD;

上混模块,用于根据综合解码模块得到的m个下混后的有向性音频信号和下混边信息 3D_OLD,将m个下混后的有向性音频信号上混为K个有向性音频信号S’1(n,f),S’2(n,f),…, S’K(n,f),K个有向性音频信号S’1(n,f),S’2(n,f),…,S’K(n,f)与综合解码模块所得无向性散射音 频信号Diffu’(n,f)共同组成解码后的三维音频的音频信号的频域表达;

时频反变换模块,用于将音频信号的频域表达S’(n,f)变换到时域,得到音频信号的时域 表达s’(t);音频信号的时域表达s’(t)和空间边信息解码模块所得空间边信息构成解码 后的三维音频的音频信号和空间边信息。

而且,下混模块中,将K个有向性音频信号下混为m个有向性音频信号时,采用逐级下 混的方式实现,每两个信号下混为一个信号。

而且,空间边信息编码模块中,对K个有向性音频信号的空间边信息进行编码时,采用 非均匀的空间量化点来表达空间方位信息和距离信息,进行空间方位信息和距离信息编码, 所述空间方位信息为水平角θ和高度角所述距离信息为距离边信息r;所述非均匀的空间 量化点按以下规则进行量化,

当高度角固定时,相应水平面上水平角按照等差数列的数列和的大小进行变化如下,

an=a1+(n-1)d,n=1,2,…,N(1)

Sn=n×a1+n×(n-1)×d2,n=1,2,...,N---(2)

其中,a1是该等差数列的最小值,也是水平角的最小取值,而aN为等差数列的最大值,an为 等差数列的第n个值,d为等差数列的差值,N为该水平面上空间量化点的点数;

基于a1和aN的取值,根据式(1)和式(2)得到相应点数N以及等差数列的差值d,进 而求出各个数列和Sn,n=1,2,…,N,Sn为该水平面上水平角所取的第n个值,而SN=180°;

空间边信息解码模块中,根据以上量化规则对空间边信息码流SI_code进行相应解码。

本发明在编码端通过在边信息中引入音频信号的距离参数来提高三维音频的空间感和距 离感,生成的码流由音频信号码流和对应的空间边信息码流构成,音频信号码流由K个有向 性音频信号下混成的m个有向性音频信号和一个无向性散射音频信号构成,空间边信息码流 由方位参数和距离参数构成;这样采用音频信号的强度参数和距离参数来共同表达音频信号 的距离感,其中强度参数来自音频信号码流,距离参数来自空间边信息码流。解码端对编码 的音频信号和添加了距离参数的空间边信息进行解码,得到三维音频的音频信号、空间边信 息,利用它们可以还原出空间感和距离感更强的三维音频,并通过扬声器配置或耳机可以进 行三维音频的重建。因此,本发明通过增加声像的距离参数,解决了以往只采用声音的强度 来表达距离而造成空间感和距离感不够强的缺陷,可以得到更好的三维音频重放效果。

附图说明

图1是本发明实施例的编码端的流程图。

图2是本发明实施例的解码端的流程图。

图3是本发明实施例空间量化规则的示意图。

具体实施方式

以下结合附图和实施例详细说明本发明技术方案(其中步骤C1至步骤C5为编码过程, 步骤D1至步骤D4为解码过程)。

参见图1,本发明实施例的编码端执行以下流程:

步骤C1,将三维音频的时域信号s(t)变换到频域,得到三维音频的频域信号S(n,f)。

编码端的输入为:三维音频的音频信号和三维音频的空间边信息。三维音频的音频信号 的时域表达为s(t),s(t)由s1(t)、s2(t)、…、sK(t)、diffu(t)构成,t表示时间;三维音频的空间 边信息,也即每个时频点对应的空间边信息由构成。其中,sk(t)为第k个有向性音频信号的时域表达,diffu(t)为无向性散射音频信号的时域 表达,表示第k个有向性音频信号对应的空间边信息,空间边信息由方位边信息(水 平角θ,高度角)和距离边信息r构成。k的取值为1,2,…,K,K为原有的有向性音频信号 的总数。

可以将三维音频的时域信号s(t)采用短时傅里叶变换(STFT)变换到频域,得到三维音 频的频域信号S(n,f),S(n,f)由S1(n,f)、S2(n,f)、…、SK(n,f)、Diffu(n,f)构成。其中,Sk(n,f)为 第k个有向性音频信号的频域表达,Diffu(n,f)为无向性散射音频信号的频域表达,n代表帧索 引,f代表频率索引。具体实施时,也可采用MDCT或希尔伯特黄等其他方法进行变换。

步骤C2,将K个有向性音频信号下混为m个有向性音频信号,并提取相应的下混边信 息3D_OLD。

K>m,K和m都为自然数,且m大于等于1。下混边信息3D_OLD为音频信号间强度差。

实施例中K=4,m=2。将4个有向性音频信号下混为2个有向性音频信号,并提取相应 的下混边信息3D_OLD。4个有向性音频信号的频域信号(S1(n,f),S2(n,f),S3(n,f),S4(n,f))对应的 空间边信息为:这里采用两个信号下混为一个信号 的逐级下混的方式来进行下混,每下混一次产生一组边信息3D_OLD。下混4个有向性音频 信号为2个有向性音频信号,S1(n,f)和S2(n,f)下混得到S12(n,f)和边信息3D_OLD12,S3(n,f)和 S4(n,f)下混得到S34(n,f)和边信息3D_OLD34。因此下混边信息3D_OLD包括边信息3D_OLD12和边信息3D_OLD34

步骤C3,对无向性散射音频信号、下混后的m个有向性音频信号及提取的下混边信息分 别进行编码。

实施例进行步骤C3时,分别执行了以下三种操作:

a.对无向性散射音频信号进行编码,生成无向性散射音频信号的码流Diffu_code;具体实 施时,可采用现有编码器技术进行,例如采用AAC编码器;

b.对下混后的2个有向性音频信号进行编码,生成由2个有向性音频信号构成的码流, 即下混后的有向性音频信号码流Dmix_code;具体实施时,可采用现有编码器技术进行,例 如采用AAC编码器;

c.对下混边信息3D_OLD进行编码:对下混时生成的边信息3D_OLD12和3D_OLD34进行 编码,生成下混边信息的码流3D_OLD_code。具体实施时,可采用现有编码器技术进行,例 如采用Huffman编码方法。

步骤C4,对K个有向性音频信号的空间边信息进行编码,生成空间边信息码流SI_code。

实施例对4个有向性音频信号的空间边信息进 行编码,生成4个有向性音频信号的空间边信息码流SI_code。考虑到人类听觉系统对前方的 声源要敏感一些和对较近的声源要敏感一些这两个特性,本发明进一步提出设计非均匀的空 间量化点来表达空间方位信息和距离信息,进行空间方位信息和距离信息编码。空间边信息 中,所述空间方位信息为水平角θ和高度角所述距离信息为距离边信息r。具 体而言,参见图3,本发明的空间非均匀量化点按以下规则进行量化。

当高度角固定,即在一个水平面上时,水平角按照等差数列的数列和的大小进行变化, 参见式(1)和式(2)。

an=a1+(n-1)d,n=1,2,…,N>

Sn=n×a1+n×(n-1)×d2,n=1,2,...,N---(2)

其中,a1是该等差数列的最小值,也是水平角的最小取值,而aN为等差数列的最大值,an为 等差数列的第n个值,d为等差数列的差值,而N即该水平面上空间量化点的点数。具体实 施时,本领域技术人员可以自行预设a1和aN的取值。由于a1和aN是已知的,则根据式(1)和 式(2)可得相应量化点数N以及等差数列的差值d,进而可以求出各个数列和Sn(n=1,2,…,N), 而Sn即该水平面上水平角所取的第n个值,而SN=180°。如图3中,水平面上从0°开始到180°, 被分割出的角度有a1=a1、a2=a1+d、a3=a1+2d、a4=a1+3d、…、aN=a1+(N-1)d,而 SN=a1+a2+…+aN=180°。

由于等差数列的数列和会随着n的增大而非均匀增加,会使得后面的角度越来越大,即 可以保证一个平面上空间量化点的非均匀分布,从正前方到正后方越来越稀疏。实施例中, 高度角按照每隔10°(低精度)或5°(高精度)取值来进行量化,距离参数则按照序列(20cm, 30cm,40cm,50cm,75cm,100cm,130cm,160cm)来进行量化,而对于每个固定的高度角,取一 对a1、aN值。例如高度角为10°,求水平角时a1可取为2°、aN可取为5°,高度角为20°, 求水平角时a1可取为3°、aN可取为7°。一般高度角越大,a1、aN值设定的取值会相应增大。 这样可以保证水平角θ的精度在赤道上是最高的(即赤道上的量化点最多),且水平角θ随着 高度角向两极变化而精度逐渐降低(即量化点数逐渐减少),从而保证球面上的量化点是相 对均匀的,不至于两极的量化点过于密集。

步骤C5,将步骤C3和步骤C4得到的码流合并,得到三维音频码流3DAudio_code。三 维音频码流3DAudio_code包含无向性散射音频信号码流Diffu_code、有向性音频信号码流 Dmix_code、下混边信息码流3D_OLD_code、空间边信息码流SI_code。

参见图2,本发明实施例的解码端执行以下流程:

步骤D1,对空间边信息码流SI_code进行解码。

解码端的输入为:三维音频码流3DAudio_code,该码流由编码端生成并传输到解码端, 包含无向性散射音频信号码流Diffu_code、有向性音频信号码流Dmix_code、下混边信息码流 3D_OLD_code、空间边信息码流SI_code。

实施例根据三维音频码流3DAudio_code,提取空间边信息的码流SI_code,根据步骤C4 的量化规则,对SI_code进行解码,还原出K个有向性音频信号的空间边信息实施 例还原出4个有向性音频信号的空间边信息也即 三维音频的空间边信息。

步骤D2,对无向性散射音频信号码流Diffu_code、下混后的有向性音频信号码流 Dmix_code及下混边信息码流3D_OLD_code分别进行解码。

实施例进行步骤D2时,具体执行了以下步骤:

D21:根据三维音频码流3DAudio_code,提取无向性散射音频信号码流Diffu_code,对 其进行解码,还原出无向性散射音频信号Diffu’(n,f)。Diffu’(n,f)是Diffu(n,f)经过编解码后的信 号。

D22:根据三维音频码流3DAudio_code,提取下混后的有向性音频信号码流Dmix_code, 对其进行解码,还原出m=2个下混后的有向性音频信号S’12(n,f),S’34(n,f)。S’12(n,f)和S’34(n,f) 是S12(n,f)和S34(n,f)经过编解码后的信号。

D23:根据三维音频码流3DAudio_code,提取下混边信息码流3D_OLD_code,还原出下 混边信息3D_OLD,包括下混边信息3D_OLD12和3D_OLD34

步骤D3,将m个有向性音频信号上混为K个有向性音频信号。

根据步骤D2得到的m个下混后的有向性音频信号和下混边信息3D_OLD,将m个下混 后的有向性音频信号上混为K个有向性音频信号S’1(n,f),S’2(n,f),…,S’K(n,f),其中S’k(n,f)是 Sk(n,f)经过编解码后的信号。K个有向性音频信号与步骤D2已解码的无向性散射音频信号 Diffu’(n,f)共同组成解码后的三维音频的音频信号的频域表达。

实施例将2个有向性音频信号上混为4个有向性音频信号。根据步骤D2得到的2个下 混后的有向性音频信号S’12(n,f)和S’34(n,f)和下混边信息3D_OLD12和3D_OLD34,将2个下混 后的有向性音频信号上混为4个有向性音频信号(S’1(n,f),S’2(n,f),S’3(n,f),S’4(n,f))。4个有向 性音频信号与已解码的无向性散射音频信号Diffu’(n,f)共同组成解码后的三维音频的音频信 号的频域表达。其中,S’k(n,f)是Sk(n,f)经过编解码后的信号。

步骤D4,时频反变换,将音频信号的频域表达S’(n,f)(S’(n,f)是S(n,f)经过编解码后的 信号)变换到时域,得到音频信号的时域表达s’(t)(s’(t)是s(t)经过编解码后的信号)。音频 信号的时域表达s’(t)和步骤D1所得空间边信息构成解码后的三维音频的音频信号和 空间边信息,具体实施时可以据此采用不同配置的扬声器或耳机来重建三维音频声场,即可 还原原始的三维音频,提高三维音频的空间感和距离感。

本实施例采用耳机来实现带距离边信息的三维音频信号的重放,为了实现耳机的三维音 频重现,需要用到头相关传递函数(HRTF)库,PKU&IOA HRTF库对远场和近场都做了测 量,距离r从20cm变化到160cm,我们选择PKU&IOA HRTF库来完成带距离边信息的三维 音频重建。

通过实验对比,带距离参数的三维音频重建的主观听音效果比不带距离参数只采用强度 来表达距离信息的三维音频重建效果好。由于增加了距离参数,可以使得重放的效果更为精 细,空间感和距离感得到增强。

本发明所提供方法可以采用软件技术实现自动运行,也可实现为相应的模块化系统。本发明 提供的一种用于提高三维音频空间感距离感的参数编解码系统,包括编码器和解码器,

所述编码器包括以下模块,

时频变换模块,用于输入三维音频的音频信号和三维音频的空间边信息,将三维音频的 时域信号变换到频域,得到三维音频的频域信号,实现如下,

设三维音频的时域信号为s(t),s(t)由s1(t)、s2(t)、…、sK(t)、diffu(t)构成,三维音频的 空间边信息由构成;将三维音频的时域信号s(t) 变换到频域,得到三维音频的频域信号S(n,f),S(n,f)由S1(n,f)、S2(n,f)、…、SK(n,f)、Diffu(n,f) 构成;

其中,sk(t)为第k个有向性音频信号的时域表达,diffu(t)为无向性散射音频信号的时域表达, t表示时间;Sk(n,f)为第k个有向性音频信号的频域表达,Diffu(n,f)为无向性散射音频信号的 频域表达n代表帧索引,f代表频率索引;表示第k个有向性音频信号对应的空间 边信息,θ为水平角,为高度角,r为距离边信息;k的取值为1,2,…,K,K为原有的有向 性音频信号的总数;

下混模块,用于将K个有向性音频信号下混为m个有向性音频信号,并提取相应的下混 边信息3D_OLD,下混边信息为音频信号间强度差;K>m,K和m都为自然数,且m大于等 于1;

综合编码模块,用于对无向性散射音频信号、下混后的m个有向性音频信号及提取的下 混边信息分别进行编码,实现如下,

对无向性散射音频信号进行编码,生成无向性散射音频信号的码流Diffu_code;

对下混后的m个有向性音频信号进行编码,生成下混后的有向性音频信号码流Dmix_code;

对下混边信息3D_OLD进行编码,生成下混边信息的码流3D_OLD_code;

空间边信息编码模块,用于对K个有向性音频信号的空间边信息进行编码,生成空间边 信息码流SI_code;

码流合并模块,用于将综合编码模块和空间边信息编码模块得到的码流合并,得到三维 音频码流3DAudio_code;

所述解码器包括以下模块,

空间边信息解码模块,用于根据三维音频码流3DAudio_code,提取空间边信息的码流 SI_code进行解码,还原出K个有向性音频信号的空间边信息

综合解码模块,用于对无向性散射音频信号码流Diffu_code、下混后的有向性音频信号 码流Dmix_code及下混边信息码流3D_OLD_code分别进行解码,实现如下,

根据三维音频码流3DAudio_code,提取无向性散射音频信号码流Diffu_code,解码还原出无 向性散射音频信号Diffu’(n,f);

根据三维音频码流3DAudio_code,提取下混后的有向性音频信号码流Dmix_code,解码还原 出m个下混后的有向性音频信号;

根据三维音频码流3DAudio_code,提取下混边信息码流3D_OLD_code,还原出下混边信息 3D_OLD;

上混模块,用于根据综合解码模块得到的m个下混后的有向性音频信号和下混边信息 3D_OLD,将m个下混后的有向性音频信号上混为K个有向性音频信号S’1(n,f),S’2(n,f),…, S’K(n,f),K个有向性音频信号S’1(n,f),S’2(n,f),…,S’K(n,f)与综合解码模块所得无向性散射音 频信号Diffu’(n,f)共同组成解码后的三维音频的音频信号的频域表达。

时频反变换模块,用于将音频信号的频域表达S’(n,f)变换到时域,得到音频信号的时域 表达s’(t);音频信号的时域表达s’(t)和空间边信息解码模块所得空间边信息构成解码 后的三维音频的音频信号和空间边信息。

各模块具体实现与方法步骤相应,本发明不予赘述。

本文中所描述的具体实施例仅仅是对本发明内容作举例说明。本发明所属技术领域的技 术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不 会偏离本发明的内容或者超越所附权利要求书所定义的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号