首页> 中国专利> 三角形合并模式中的子块合并候选

三角形合并模式中的子块合并候选

摘要

本发明涉及子块合并运动字段与三角形分区和几何分区模式组合,以进一步提供编码和解码方案灵活性。在至少一个实施方案中,标记用于发信号通知是否使用子块合并候选代替常规合并候选。在另一个实施方案中,常规合并候选由子块合并候选替换。在另一个实施方案中,存储至少一个运动字段。在另一个实施方案中,考虑所有子块合并候选或仅子块时间运动向量预测因子或仅仿射预测因子。

著录项

  • 公开/公告号CN114930819A

    专利类型发明专利

  • 公开/公告日2022-08-19

    原文格式PDF

  • 申请/专利权人 交互数字VC控股法国公司;

    申请/专利号CN202080080538.1

  • 申请日2020-12-14

  • 分类号H04N19/119(2006.01);H04N19/176(2006.01);H04N19/52(2006.01);H04N19/54(2006.01);H04N19/577(2006.01);

  • 代理机构北京润平知识产权代理有限公司 11283;

  • 代理人王晓晓

  • 地址 法国瑟松塞维涅

  • 入库时间 2023-06-19 16:25:24

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-11-07

    专利申请权的转移 IPC(主分类):H04N19/119 专利申请号:2020800805381 登记生效日:20231023 变更事项:申请人 变更前权利人:交互数字VC控股法国公司 变更后权利人:交互数字CE专利控股有限公司 变更事项:地址 变更前权利人:法国瑟松塞维涅 变更后权利人:法国巴黎

    专利申请权、专利权的转移

  • 2022-12-09

    实质审查的生效 IPC(主分类):H04N19/119 专利申请号:2020800805381 申请日:20201214

    实质审查的生效

说明书

技术领域

本实施方案中的至少一个实施方案通常涉及用于视频编码或解码、压缩或解压缩的一种方法或一种装置。

背景技术

为了实现高压缩效率,图像和视频编码方案通常采用包括运动向量预测在内的预测以及变换来利用视频内容中的空间和时间冗余。一般来讲,帧内或帧间预测用于利用帧内或帧间相关性,然后对在原始图像与预测图像之间的差值(通常表示为预测错误或预测残差)进行变换、量化和熵编码。为了重构视频,通过对应于熵编码、量化、变换和预测的逆过程对压缩数据进行解码。

发明内容

本实施方案中的至少一个实施方案一般涉及一种用于视频编码或解码的方法或装置,并且更具体地涉及一种用于基于相邻样本依赖参数模型简化编码模式的方法和装置。

根据第一方面,提供了一种方法。该方法包括用于以下操作的步骤:从用于编码视频块的合并列表获得单向三角形候选;提取所述单向三角形候选的单向部分;从候选的子块合并列表获得三角形合并候选;提取所述三角形合并候选的单向种子部分;使用所述单向三角形候选和所述三角形合并候选来执行运动补偿;对所述运动补偿结果执行加权;发信号通知是候选的子块列表还是常规列表被用于所述运动补偿结果;以及使用所述加权的运动补偿结果来编码视频块。

根据第一方面,提供了一种方法。该方法包括用于以下操作的步骤:解析视频比特流以确定是从子块合并列表还是在常规合并列表中选择单向三角形候选;从用于解码视频块的子块合并列表或常规合并列表获得单向三角形候选;提取所述单向三角形候选的单向部分;对所述运动补偿结果执行加权;使用所述单向三角形候选来执行运动补偿;以及使用所述加权的运动补偿结果来解码视频块。

根据另一方面,提供了一种装置。该装置包括处理器。该处理器可以被配置为通过执行前述方法中的任一种来对视频块进行编码或对比特流进行解码。

根据至少一个实施方案的另一一般方面,提供了一种设备,该设备包括:根据解码实施方案中的任一实施方案的装置;以及以下项中的至少一者:(i)天线,该天线被配置为接收信号,该信号包括视频块;(ii)频带限制器,该频带限制器被配置为将所接收的信号限制为包括该视频块的频带;和(iii)显示器,该显示器被配置为显示表示视频块的输出。

根据至少一个实施方案的另一一般方面,提供了一种非暂态计算机可读介质,该非暂态计算机可读介质包含根据所描述的编码实施方案或变体中的任一实施方案或变体生成的数据内容。

根据至少一个实施方案的另一一般方面,提供了一种信号,该信号包括根据所描述的编码实施方案或变体中的任一实施方案或变体生成的视频数据。

根据至少一个实施方案的另一一般方面,比特流被格式化以包括根据所描述的编码实施方案或变体中的任一实施方案或变体生成的数据内容。

根据至少一个实施方案的另一一般方面,提供了一种计算机程序产品,该计算机程序产品包括指令,当程序由计算机执行时该指令使得该计算机执行所描述的编码实施方案或变体中的任一实施方案或变体。

通过将结合附图阅读的示例性实施方案的以下详细描述,一般方面的这些和其它方面、特征和优点将变得显而易见。

附图说明

图1示出了用于表示压缩HEVC图片的编码树单元和编码树概念。

图2示出了编码树单元分成编码单元、预测单元和变换单元的示例性划分。

图3示出了基于三角形分区的帧间预测。

图4示出了用于三角形分区模式的单预测运动向量选择的示例。

图5示出了几何分割决策。

图6示出了具有角度12和距离0的示例性几何分区。

图7示出了具有角度12和距离1的示例性几何分区。

图8示出了具有角度12和距离2的示例性几何分区。

图9示出了具有角度12和距离3的示例性几何分区。

图10示出了几何模式中的32个角度。

图11示出了针对几何分区的24个角度。

图12示出了在一种用于具有其对应宽度与高度比率的GEO的方法中提出的角度。

图13示出了标准的通用视频压缩方案。

图14示出了标准的通用视频解压缩方案。

图15示出了提出的子块三角形模式的示例性流程图。

图16示出了运动字段存储的示例,其中顶部子块分区和底部常规分区具有a)双向对角线和b)常规/底部单向对角线。

图17示出了在一般描述方面情况下的用于编码/解码的基于处理器的系统。

图18示出了在一般描述方面情况下的方法的一个实施方案。

图19示出了在一般描述方面情况下的方法的另一个实施方案。

图20示出了在所描述方面情况下的示例性装置。

具体实施方式

此处描述的实施方案在视频压缩领域中,并且一般涉及视频压缩以及视频编码和解码,更具体地涉及视频压缩方案的量化步骤。所描述的一般方面旨在提供用于操作高级视频编码语法或视频编码语义中的限制的机制,以约束可能的工具组合集。

为了实现高压缩效率,图像和视频编码方案通常采用包括运动向量预测在内的预测以及变换来利用视频内容中的空间和时间冗余。一般来讲,帧内或帧间预测用于利用帧内或帧间相关性,然后对在原始图像与预测图像之间的差值(通常表示为预测错误或预测残差)进行变换、量化和熵编码。为了重构视频,通过对应于熵编码、量化、变换和预测的逆过程对压缩数据进行解码。

在HEVC(高效视频编码,ISO/IEC 23008–2,ITU-T H.265)视频压缩标准中,采用运动补偿时间预测以利用视频的连续图片之间存在的冗余。

为此,运动向量与每个预测单元(PU)相关联。每个编码树单元(CTU)由压缩域中的编码树表示。如图1所示,这是CTU的四叉树划分,其中每个叶称为编码单元(CU)。

然后,每个CU被给出一些帧内或帧间预测参数(预测信息)。为此,在空间上将其分区为一个或多个预测单元(PU),每个PU被分配一些预测信息。如图2所示,在CU级别上分配帧内或帧间编码模式。

在HEVC中,每个PU分配恰好一个运动向量。此运动向量用于对所考虑的PU进行运动补偿时间预测。因此,在HEVC中,链接预测块及其参考块的运动模型简单包括平移。

在提议用于新视频压缩标准(称为联合探索模型(JEM))的JVET(联合视频探索小组)中,已经提出了由于高压缩性能而接受四叉树二进制树(QTBT)块分区结构。二进制树(BT)中的块可以通过在中间进行水平或垂直地分割来分成两个大小相等的子块。因此,BT块可以具有宽度和高度不相等的矩形形状,其不同于QT中的块,在QT中块具有高度和宽度相等的总是正方形的形状。在HEVC中,角度帧内预测方向被定义为跨180角度从45度到-135度,并且将该角度帧内预测方向维持在JEM中,该JEM独立于目标块形状对角度方向进行定义。

为了编码这些块,帧内预测用于使用先前重构的相邻样本来提供块的估计版本。然后,对源块与预测之间的差值进行编码。在上述经典编解码器中,在当前块的左侧和顶部处使用单线参考样本。

在HEVC(高效视频编码,H.265)中,基于四叉树(QT)块分区结构对视频序列的帧进行编码。基于率失真(RD)标准,将帧划分成正方形编码树单元(CTU),该正方形CTU全部经历基于四叉树的分割成为多个编码单元(CU)。每个CU是帧内预测,即每个CU在空间上从因果关系的相邻CU预测,或是帧间预测,即每个CU在时间上从已经解码的参考帧预测。在I切片中,所有CU都是帧内预测,而在P切片和B切片中,CU可以是帧内预测或帧间预测两者。对于帧内预测,HEVC定义了35预测模式,该预测模式包括一个平面模式(索引为模式0)、一个DC模式(索引为模式1)和33个角度模式(索引为模式2到模式34)。角度模式与在顺时针方向上范围从45度到-135度的预测方向相关联。由于HEVC支持四叉树(QT)块分区结构,因此,所有预测单元(PU)都具有正方形形状。因此,从PU(预测单元)形状的角度证实从45度到-135度的预测角度的定义。对于NxN像素大小的目标预测单元,顶部参考阵列和左侧参考阵列各自为2N+1大小的样本,该样本需要覆盖所有目标像素的前述角度范围。考虑到PU的高度和宽度长度相等,两个参考阵列的长度相等也有意义。

本发明属于视频压缩领域。与现有视频压缩系统相比,本发明旨在改进帧间编码块中的双预测。本发明还提出用于帧间切片的单独的亮度和色度编码树。

在HEVC视频压缩标准中,图片被划分为所谓的编码树单元(CTU),编码树单元的大小通常为64×64、128×128或256×256像素。每个CTU由压缩域中的编码树表示。参见图1,这是CTU的四叉树划分,其中每个叶称为编码单元(CU)。

然后,每个CU被给出一些帧内或帧间预测参数(预测信息)。为此,在空间上将其分区为一个或多个预测单元(PU),每个PU被分配一些预测信息。参见图2,在CU级别上分配帧内或帧间编码模式。

在一些视频编码标准中,支持三角形分区模式(TPM)用于帧间预测。三角形分区模式可以在包括常规合并模式、MMVD模式、子块合并模式和CIIP模式的其他合并模式之后,在CU级别导出作为剩余合并模式。

当使用此模式时,使用对角线分割或反对角线分割将CU均匀地分成两个三角形分区,如图3所示。CU中的每个三角形分区使用其自身运动进行帧间预测;每个分区仅允许单预测,即每个分区具有一个运动向量和一个参考索引。应用单预测运动约束以确保与常规双预测相同,每个CU仅需要两个运动补偿预测。使用下文所描述的过程导出针对每个分区的单预测运动。

如果三角形分区模式用于当前CU,则标记指示三角形分区(对角或反对角)的方向,并且进一步发信号通知两个合并索引(每个分区一个),如下所述。在切片级别明确地发信号通知最大TPM候选数目,并指定TMP合并索引的语法二值化。在预测三角形分区中的每一个分区之后,使用具有自适应权重的混合过程来调整沿对角线或反对角线边缘的样本值。这是针对整个CU的预测信号,然后如以其他预测模式将变换和量化过程应用于整个CU。最后,将使用三角形分区模式预测的CU的运动字段存储在4×4单元中,如下所述。

该单预测候选列表从根据扩展的合并预测过程构建的合并候选列表中直接导出。将n表示为三角形单预测候选列表中的单预测运动的索引。第n个扩展的合并候选的LX运动向量(其中X等于n的奇偶校验)用作三角形分区模式的第n个单预测运动向量。这些运动向量在图4中标记为“x”。在不存在第n个扩展的合并候选的对应LX运动向量的情况下,使用相同候选的L(1-X)运动向量作为三角形分区模式的单预测运动向量

存在最高至5个单预测候选,并且编码器必须在2个分割方向上测试候选(每个分区的一个)的所有组合。因此,在实际常见测试条件(CTC)下,所测试的组合的最大数目为40(5*4*2),(其中MaxNumTriangleMergeCand=5且nb_combinations=MaxNumTriangleMergeCand*(MaxNumTriangleMergeCand-1)*2)。

如上所述,三角形分区模式需要发信号通知(i)指示三角形分区方向的二进制标记,以及(ii)在使用模式时导出后的两个合并索引。

下面呈现典型视频压缩标准(VVC规格提案7.0)的部分,其中涉及三角形分区信令(突出显示)。

如上所述,在4×4子块上存储三角形预测CU的运动字段。每个三角形分区存储对应候选的单向运动字段。在分割方向上,如果候选解决了不同的参考图片列表,则对角线的4×4子块存储双向运动字段作为两个单向运动字段的组合。否则,当两个候选解决相同的参考图片列表时,对角线的4×4子块存储底部候选的单向运动字段。

几何合并模式已被提出具有32个角度和5个距离。角度

距离ρ

针对距离ρ

还提出了通过移除垂直值附近的角度来实现仅具有4个距离的24个角度方案,如图11所示。在这种情况下,由几何分区(10+24*3=82)使用最大82模式。

在下文中,将认为,通过使得角度4和12能够针对距离等于0来在几何合并模式中集成三角形分区模式。

表1中描绘了提出用于几何分区的语法的示例。截断二进制(TB)二值化过程用于编码wedge_partition_idx(表1),表2中示出了wedge_partition_idx与角度和距离之间的映射。

wedge_partition_idx[x0][y0]指定合并几何模式的几何分割类型。阵列索引x0、y0相对于图片的左上亮度样本指定所考虑的编码块的左上亮度样本的位置(x0,y0)。

GEO中的角度被替换为具有2的幂作为切线的角度。由于所提出的角度的切线是为2的幂的数,因此大多数乘法可以通过位偏移替换。利用所提出的角度,需要一行或一列来存储每块大小和每分区模式,如图12中所描绘。

通过本发明解决的一个问题是,允许在三角形和GEO编码模式中使用子块合并运动字段。在至少一个提出的方案中,当使用三角形分区模式时,所考虑的单向候选可以仅从常规合并列表导出。

至少一个实施方案提出在三角形和GEO分区模式中考虑子块合并候选。

本发明覆盖了以下一般方面:

-如果使用子块合并候选而不是常规合并候选,则添加一个标记以发信号通知。

-通过子块合并候选替换一些常规合并候选。

-存储运动字段。

-考虑所有子块合并候选或仅SbTMVP或仅仿射候选。

本发明涉及至少在编码器或解码器中的运动补偿电路。以下实施方案包括本文的一般方面中的一些。

由于GEO是三角形分区模式的延伸(或三角形是GEO的特定情况),因此,所有描述都是基于三角形分区模式,但也可以应用于GEO模式。

三角形CU的两个单向候选(每个三角形分区一个)均表示为Cand

这些单向候选(Cand

在第一实施方案中,提出了添加专用于子块候选的新三角形模式。

此外,复制实际三角形分区模式的所有过程,以测试从子块合并模式列表中导出的候选。

为此,编码器执行三角形分区模式RDO两次。第一遍是VTM-7.0,其中在常规合并列表中挑选单向三角形候选。在第二遍中,在子块合并候选列表中挑选候选,并且所有剩余的三角形过程保持不变。

必须添加新的CU属性,以便携带所使用的列表类型(子块或常规)。还必须发信号通知新的CU属性,并且表示为subblock_merge_triangle。

在解码器侧,如果subblock_merge_triangle标记为1,那么在子块合并列表中挑选单向三角形候选,否则在常规合并列表中挑选。

在当前标准中,其中涉及三角形分区信令(突出显示)为所呈现的示例(斜体):

subblock_merge_triangle[x0][y0]指定是否必须使用子块模式列表和运动补偿而不是常规模式列表和运动补偿。阵列索引x0、y0相对于图片的左上亮度样本指定所考虑的编码块的左上亮度样本的位置(x0,y0)。

当subblock_merge_triangle[x0][y0]不存在时,指示其等于0。

在第二实施方案中,为了限制编码器复杂性影响和避免修改语法,可能通过子块候选替换现有单向三角形候选中的一些。此外,在这种情况下,可能将一个子块分区与一个常规分区组合。

在一变体中,在常规合并列表中挑选单向三角形列表的第一候选并在子块合并列表中挑选最后一个候选。作为示例,前三个候选与VTM-7.0中来自常规合并列表候选相同,并且最后两个候选是在子块合并列表中挑选的前两个单向候选。

在另一变体中,偶数的候选索引是指在常规合并列表中挑选的候选并且奇数的候选索引是指子块合并列表中挑选的候选。

在另一变体中,与VTM-7.0相比,可以增大单向三角形候选的数目。在VTM-7.0中,该数目设定为5。例如,该数目可以加倍,以保持常规合并列表中挑选的所有VTM-7.0候选,并且还保持来自子块合并列表的所有VTM-7.0候选。

如上所述,仍然在4×4子块基础上存储三角形预测CU的运动字段。

每个三角形分区存储对应候选的单向运动,即便其来自常规或子块合并列表。

在分割方向上,如果候选解决了不同的参考图片列表,则对角线的4×4子块存储双向运动字段作为两个单向运动字段的组合。否则,当两个候选解决相同的参考图片列表时,对角线的4×4子块存储底部候选的单向运动字段。

在一个变体中,当两个候选都解决相同的参考图片列表时,对角线的4×4子块可以在两个候选都来自相同合并列表时存储底部候选的单向运动字段,并且在候选来自不同合并列表时存储常规的单向运动字段。

在另一变体中,还可能当候选来自子块合并列表且是仿射的时存储与三角形分区相关联的仿射CPMV(种子)。然后,这些CPMV可以用于继承。

子块合并列表在VTM-7.0中包括在不同性质的5个候选中。其可以是SbTMVP候选、继承或构建的仿射模型。

在两个先前实施方案中,一个可以选择在全子块合并列表中选择单向三角形候选,或者仅使用SbTMVP候选、所有仿射候选、仅继承的仿射候选或构建的仿射候选。

可能在先前的实施方案中限制子块合并候选的使用。在这种情况下,当不满足约束时,在单向三角形候选列表中不考虑子块合并列表。

可以根据当前CU的尺寸来限制子块合并列表在三角形分区模式中的使用。

其可以根据其大小(即,其宽度和高度)来限制。例如,子块列表使用仅允许用于宽度和高度大于或等于8(w>=8&&h>=8)(or(w>=16&&h>=16)(w+h>12)…)的CU

其也可以根据其面积进行限制。例如,子块列表使用仅允许用于面积大于32(w*h>32)(or(w*h>=64)(w*h<256)…)的CU

在单向三角形列表构建期间仅考虑仿射候选(所有仿射或仅继承的仿射候选)的情况下,子块合并列表使用可以受限于CU,该CU至少具有仿射相邻的CU,即仅当子块合并列表含有继承的仿射模型时。

图18中示出了根据本文所述的一般方面的方法1800的一个实施方案。该方法开始于起始框1801,并且控制前进到框1810,以从用于编码视频块的合并列表获得单向三角形候选。控制从框1810前进到框1820,以提取单向三角形候选的单向部分。控制从框1820前进到框1830,以从候选的子块合并列表获得三角形合并候选。控制从框1830前进到框1840,以用于提取三角形合并候选的单向种子部分。控制从框1840前进到框1850,以使用单向三角形候选和三角形合并候选来执行运动补偿。控制从框1850前进到框1860,以对运动补偿结果执行加权。控制从框1860前进到框1870,以用于发信号通知是候选的子块列表还是常规列表被用于运动补偿结果。控制从框1870前进到框1880,以使用加权的运动补偿结果来编码视频块。

图19中示出了根据本文所述的一般方面的方法1900的一个实施方案。该方法开始于起始框1901,并且控制前进到框1910,以用于解析视频比特流以确定是从子块合并列表还是从常规合并列表选择单向三角形候选。控制从框1910前进到框1920,以用于从用于解码视频块的子块合并列表或常规合并列表获得单向三角形候选。控制从框1920前进到框1930,以用于提取单向三角形候选的单向部分。控制从框1930前进到框1940,以用于对运动补偿结果执行加权。控制从框1940前进到框1950,以用于使用单向三角形候选来执行运动补偿。控制从框1950前进到框1960,以使用加权的运动补偿结果来解码视频块。

图20示出了用于使用基于相邻样本依赖参数模型的编码模式的简化来对视频数据进行编码、解码、压缩或解压缩的装置2000的一个实施方案。该装置包括处理器2010并且可以通过至少一个端口互连到存储器2020。处理器2010和存储器2020两者还可以具有与外部连接的一个或多个附加互连。

处理器2010还被配置为在比特流中插入或接收信息,并且使用所述方面中的任一方面来进行压缩、编码或解码。

本申请描述了各个方面,包括工具、特征、实施方案、模型、方法等。具体描述了这些方面中的许多方面,并且至少示出个体特性,通常以可能听起来有限的方式描述。然而,这是为了描述清楚,并不限制这些方面的应用或范围。实际上,所有不同的方面可组合和互换以提供进一步的方面。此外,这些方面也可与先前提交中描述的方面组合和互换。

本专利申请中描述和设想的方面可以许多不同的形式实现。图13、图14和图17提供了一些实施方案,但是考虑了其他实施方案,并且图13、图14和图17的讨论不限制实施方式的广度。这些方面中的至少一个方面通常涉及视频编码和解码,并且至少一个其他方面通常涉及发射生成或编码的比特流。这些和其他方面可实现为方法、装置、其上存储有用于根据所述方法中任一种对视频数据编码或解码的指令的计算机可读存储介质,和/或其上存储有根据所述方法中任一种生成的比特流的计算机可读存储介质。

在本申请中,术语“重构”和“解码”可以互换使用,术语“像素”和“样本”可以互换使用,术语“图像”、“图片”和“帧”可以互换使用。通常,但不一定,术语“重构”在编码端使用,而“解码”在解码端使用。

本文描述了各种方法,并且每种方法包括用于实现方法的一个或多个步骤或动作。除非正确操作方法需要特定顺序的步骤或动作,否则可修改或组合特定步骤和/或动作的顺序和/或用途。

本专利申请中所述的各种方法和其他方面可用于修改视频编码器100和解码器200的模块(例如,帧内预测、熵编码和/或解码模块(160、360、145、330)),如图13和图14所示。此外,本发明方面不限于VVC或HEVC,并且可应用于例如其他标准和推荐(无论是预先存在的还是未来开发的)以及任何此类标准和推荐的扩展(包括VVC和HEVC)。除非另外指明或技术上排除在外,否则本申请中所述的方面可单独或组合使用。

在本申请中使用各种数值。具体值是为了示例目的,并且所述方面不限于这些具体值。

图13例示了编码器100。设想了这一编码器100的变型,但是为了清楚起见,下文描述了编码器100而不描述所有预期的变型。

在编码之前,视频序列可经过预编码处理(101),例如,将颜色变换应用于输入彩色图片(例如,从RGB 4:4:4到YCbCr 4:2:0的转换),或执行输入图片分量的重新映射,以便获得对压缩更具弹性的信号分布(例如,使用颜色分量中的一个颜色分量的直方图均衡化)。元数据可与预处理相关联并且附接到比特流。

在编码器100中,图片由编码器元件进行编码,如下所述。以例如CU为单位对要编码的图片进行分区(102)和处理。例如,使用帧内模式或帧间模式对每个单元进行编码。当单元以帧内模式进行编码时,其执行帧内预测(160)。在帧间模式中,执行运动估计(175)和补偿(170)。编码器决定(105)帧内模式或帧间模式中的哪一者用于对单元进行编码,并且通过例如预测模式标记来指示帧内/帧间决策。例如通过从原始图像块减去(110)预测块来计算预测残差。

然后对预测残差进行变换(125)和量化(130)。对经量化的变换系数以及运动向量和其他语法元素进行熵编码(145),以输出比特流。编码器可跳过变换,并对未变换的残余信号直接应用量化。编码器可绕过变换和量化两者,即,在不应用变换或量化过程的情况下直接对残差进行编码。

编码器对编码块进行解码以提供用于进一步预测的参考。对量化的变换系数进行解量化(140)和逆变换(150)以对预测残差进行解码。组合(155)经解码的预测残差和预测块,重构图像块。将环路滤波器(165)应用到重构的图像,以执行例如去块效应/SAO(样本自适应偏移)滤波,从而减少编码伪影。经滤波的图像存储在参考图片缓冲器(180)中。

图14例示了视频解码器200的框图。在解码器200中,比特流由解码器元件进行解码,如下所述。视频解码器200一般执行与如图13所述的编码程相反的解码程。编码器100通常还执行视频解码作为对视频数据编码的一部分。

具体地,解码器的输入包括视频比特流,该视频比特流可由视频编码器100生成。首先对比特流进行熵解码(230)以获得变换系数、运动向量和其他经编码的信息。图片分区信息指示如何对图片进行分区。因此,解码器可以根据解码图片分区信息划分(235)图片。对变换系数进行解量化(240)和逆变换(250)以对预测残差进行解码。组合(255)经解码的预测残差和预测块,重构图像块。可从帧内预测(260)或运动补偿预测(即帧间预测)(275)获得(270)预测块。向重构图像应用环路滤波器(265)。经滤波的图像存储在参考图片缓冲器(280)中。

经解码的图片还可经过解码后处理(285),例如,逆颜色变换(例如,从YCbCr 4:2:0到RGB 4:4:4的变换)或执行在预编码处理(101)中执行的重新映射过程的逆重新映射。解码后处理可使用在预编码处理中导出并且在比特流中发信号通知的元数据。

图17例示了在其中实现各种方面和实施方案的系统的示例的框图。系统1000可体现为包括下文所述的各个部件的设备,并且被配置为执行本文档中所述的一个或多个方面。此类设备的示例包括但不限于各种电子设备,诸如个人计算机、膝上型计算机、智能电话、平板电脑、数字多媒体机顶盒、数字电视机接收器、个人视频录制系统、连接的家用电器和服务器。系统1000的元件可单独地或组合地体现在单个集成电路(IC)、多个IC和/或分立部件中。例如,在至少一个实施方案中,系统1000的处理元件和编码器/解码器元件分布在多个IC和/或分立部件上。在各种实施方案中,系统1000经由例如通信总线或通过专用输入和/或输出端口通信地耦接到一个或多个其他系统或其他电子设备。在各种实施方案中,系统1000被配置为实现本文档中所述的一个或多个方面。

系统1000包括至少一个处理器1010,该至少一个处理器被配置为执行加载到其中的指令,以用于实现例如本文档中所述的各个方面。处理器1010可包括嵌入式存储器、输入输出接口和本领域已知的各种其他电路。系统1000包括至少一个存储器1020(例如,易失性存储器设备和/或非易失性存储器设备)。系统1000包括存储设备1040,该存储设备可包括非易失性存储器和/或易失性存储器,包括但不限于电可擦除可编程只读存储器(EEPROM)、只读存储器(ROM)、可编程只读存储器(PROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、磁盘驱动器和/或光盘驱动器。作为非限制性示例,存储设备1040可包括内部存储设备、附接存储设备(包括可拆和不可拆的存储设备)和/或网络可访问的存储设备。

系统1000包括编码器/解码器模块1030,该编码器/解码器模块被配置为例如处理数据以提供编码视频或解码视频,并且编码器/解码器模块1030可包括其自身的处理器和存储器。编码器/解码器模块1030表示可被包括在设备中以执行编码和/或解码功能的模块。众所周知,设备可包括编码模块和解码模块中的一者或两者。此外,编码器/解码器模块1030可实现为系统1000的独立元件,或者可结合在处理器1010内作为本领域技术人员已知的硬件和软件的组合。

要加载到处理器1010或编码器/解码器1030上以执行本文档中所述的各个方面的程序代码可存储在存储设备1040中,并且随后被加载到存储器1020上以供处理器1010执行。根据各种实施方案,处理器1010、存储器1020、存储设备1040和编码器/解码器模块1030中的一者或多者可在本文档中所述过程的执行期间存储各个项目中的一个或多个项目。此类存储项目可包括但不限于输入视频、解码的视频或部分解码的视频、比特流、矩阵、变量以及处理等式、公式、运算和运算逻辑的中间或最终结果。

在一些实施方案中,处理器1010和/或编码器/解码器模块1030内部的存储器用于存储指令和提供工作存储器以用于在编码或解码期间需要的处理。然而,在其他实施方案中,处理设备外部的存储器(例如,处理设备可以是处理器1010或编码器/解码器模块1030)用于这些功能中的一个或多个功能。外部存储器可以是存储器1020和/或存储设备1040,例如动态易失性存储器和/或非易失性闪存存储器。在若干实施方案中,外部非易失性闪存存储器用于存储例如电视机的操作系统。在至少一个实施方案中,快速外部动态易失性存储器诸如RAM用作视频编码和解码操作的工作存储器,诸如MPEG-2(MPEG是指运动图片专家组,MPEG-2也称为ISO/IEC13818,并且13818-1也称为H.222,13818-2也称为H.262)、HEVC(HEVC是指高效视频编码,也称为H.265和MPEG-H部分2)或VVC(通用视频编码,由联合视频专家小组(JVET)开发的新标准)。

对系统1000的元件的输入可通过如框1130中所示的各种输入设备提供。此类输入设备包括但不限于:(i)射频(RF)部分,其接收例如由广播器通过空中传输的RF信号;(ii)分量(COMP)输入端子(或一组COMP输入端子);(iii)通用串行总线(USB)输入端子;和/或(iv)高清晰度多媒体接口(HDMI)输入端子。图17中未示出的其他示例,包括复合视频。

在各种实施方案中,框1130的输入设备具有如本领域已知的相关联的相应输入处理元件。例如,RF部分可与适用于以下的元件相关联:(i)选择所需的频率(也称为选择信号,或将信号频带限制到一个频带),(ii)下变频选择的信号,(iii)再次频带限制到更窄频带以选择(例如)在某些实施方案中可称为信道的信号频带,(iv)解调下变频和频带限制的信号,(v)执行纠错,以及(vi)解复用以选择所需的数据包流。各种实施方案的RF部分包括用于执行这些功能的一个或多个元件,例如频率选择器、信号选择器、频带限制器、信道选择器、滤波器、下变频器、解调器、纠错器和解复用器。RF部分可包括执行这些功能中的各种功能的调谐器,这些功能包括例如下变频接收信号至更低频率(例如,中频或近基带频率)或至基带。在一个机顶盒实施方案中,RF部分及其相关联的输入处理元件接收通过有线(例如,电缆)介质发射的RF信号,并且通过滤波、下变频和再次滤波至所需的频带来执行频率选择。各种实施方案重新布置上述(和其他)元件的顺序,移除这些元件中的一些元件,和/或添加执行类似或不同功能的其他元件。添加元件可包括在现有元件之间插入元件,例如,插入放大器和模数变换器。在各种实施方案中,RF部分包括天线。

此外,USB和/或HDMI端子可包括用于跨USB和/或HDMI连接将系统1000连接到其他电子设备的相应接口处理器。应当理解,输入处理(例如Reed-Solomon纠错)的各个方面可根据需要例如在单独的输入处理IC内或在处理器1010内实现。类似地,USB或HDMI接口处理的方面可根据需要在单独的接口IC内或在处理器1010内实现。将解调流、纠错流和解复用流提供给各种处理元件,包括例如处理器1010以及编码器/解码器1030,该处理元件与存储器和存储元件结合操作以根据需要处理数据流以呈现在输出设备上。

系统1000的各种元件可设置在集成外壳内,在该集成外壳内,各种元件可使用合适的连接布置(例如,如本领域已知的内部总线,包括IC间(I2C)总线、布线和印刷电路板)互连并且在其间发射数据。

系统1000包括能够经由通信信道1060与其他设备通信的通信接口1050。通信接口1050可包括但不限于被配置为通过通信信道1060发射和接收数据的收发器。通信接口1050可包括但不限于调制解调器或网卡,并且通信信道1060可例如在有线和/或无线介质内实现。

在各种实施方案中,使用诸如Wi-Fi网络,例如IEEE 802.11(IEEE是指电气和电子工程师协会)之类的无线网络将数据流式发射或以其他方式提供给系统1000。这些实施方案的Wi-Fi信号通过适用于Wi-Fi通信的通信信道1060和通信接口1050接收。这些实施方案的通信信道1060通常连接到接入点或路由器,该接入点或路由器提供对包括互联网的外部网络的访问,以用于允许流式应用和其他云上通信。其他实施方案使用机顶盒向系统1000提供流式数据,该机顶盒通过输入块1130的HDMI连接递送数据。还有其他实施方案使用输入块1130的RF连接向系统1000提供流式数据。如上所述,各种实施方案以非流式的方式提供数据。此外,各种实施方案使用除了Wi-Fi以外的无线网络,例如蜂窝网络或蓝牙网络。

系统1000可将输出信号提供到各种输出设备,包括显示器1100、扬声器1110和其他外围设备1120。各种实施方案的显示器1100包括例如触摸屏显示器、有机发光二极管(OLED)显示器、曲面显示器和/或可折叠显示器中的一者或多者。显示器1100可用于电视机、平板、笔记本、蜂窝电话(移动电话)或其他设备。显示器1100还可与其他部件集成在一起(例如,如在智能电话中),或者是单独的(例如,笔记本电脑的外部监视器)。在实施方案的各种示例中,其他外围设备1120包括独立数字视频光盘(或数字多功能光盘,两个术语都是DVR)、光盘播放器、立体声系统和/或照明系统中的一者或多者。各种实施方案使用提供基于系统1000的输出的功能的一个或多个外围设备1120。例如,盘播放器执行播放系统1000的输出的功能。

在各种实施方案中,控制信号使用诸如AV.Link、消费电子产品控制(CEC)或其他通信协议的信令在系统1000与显示器1100、扬声器1110或其他外围设备1120之间传送,该其他通信协议使得能够在有或没有用户干预的情况下进行设备到设备控制。输出设备可通过相应接口1070、1080和1090经由专用连接通信地耦接到系统1000。另选地,输出设备可使用通信信道1060经由通信接口1050连接到系统1000。显示器1100和扬声器1110可与电子设备(诸如电视机)中的系统1000的其他部件集成在单个单元中。在各种实施方案中,显示接口1070包括显示驱动器,诸如例如定时控制器(T Con)芯片。

另选地,如果输入1130的RF部分是单独机顶盒的一部分,则显示器1100和扬声器1110可选地与其他部件中的一个或多个部件分开。在显示器1100和扬声器1110为外部部件的各种实施方案中,输出信号可经由专用输出连接(包括例如HDMI端口、USB端口或COMP输出)提供。

这些实施方案可由处理器1010或由硬件或由硬件和软件的组合实现的计算机软件执行。作为非限制性示例,这些实施方案可由一个或多个集成电路实现。作为非限制性示例,存储器1020可以是适合于技术环境的任意类型,并且可使用任何适当的数据存储技术来实现,诸如光学存储器设备、磁存储器设备、基于半导体的存储器设备、固定存储器和可移动存储器。作为非限制性示例,处理器1010可以是适合于技术环境的任意类型,并且可涵盖微处理器、通用计算机、专用计算机和基于多核架构的处理器中的一者或多者。

各种具体实施参与解码。如本申请中所用,“解码”可包括例如对所接收的编码序列执行以产生适于显示的最终输出的过程的全部或部分。在各种实施方案中,此类过程包括通常由解码器执行的一个或多个过程,例如熵解码、逆量化、逆变换和差分解码。在各种实施方案中,此类过程还包括或另选地包括由本应用中所述的各种具体实施的解码器执行的过程。

作为进一步的示例,在一个实施方案中,“解码”仅是指熵解码,在另一个实施方案中,“解码”仅是指差分解码,并且在又一个实施方案中,“解码”是指熵解码和差分解码的组合。短语“解码过程”是具体地指代操作的子集还是广义地指代更广泛的解码过程基于具体描述的上下文将是清楚的,并且据信将被本领域的技术人员很好地理解。

各种具体实施参与编码。以与上面关于“解码”的讨论类似的方式,如在本申请中使用的“编码”可涵盖例如对输入视频序列执行以产生编码比特流的过程的全部或部分。在各种实施方案中,此类过程包括通常由编码器执行的一个或多个过程,例如,分区、差分编码、变换、量化和熵编码。在各种实施方案中,此类过程还包括或另选地包括由本应用中所述的各种具体实施的编码器执行的过程。

作为进一步的示例,在一个实施方案中,“编码”仅是指熵编码,在另一个实施方案中,“编码”仅是指差分编码,并且在又一个实施方案中,“编码”是指差分编码和熵编码的组合。短语“编码过程”是具体地指代操作的子集还是广义地指代更广泛的编码过程基于具体描述的上下文将是清楚的,并且据信将被本领域的技术人员很好地理解。

注意,本文所用的语法元素是描述性术语。因此,它们不排除使用其他语法元素名称。

当附图呈现为流程图时,应当理解,其还提供了对应装置的框图。类似地,当附图呈现为框图时,应当理解,其还提供了对应的方法/过程的流程图。

各种实施方案可以指参数模型或速率失真优化。具体地,在编码过程期间,通常考虑速率和失真之间的平衡或权衡,这常常考虑到计算复杂性的约束。可以通过速率失真优化(RDO)度量或通过最小均方(LMS)、绝对误差平均值(MAE)或其他此类测量值来测量。速率失真优化通常表述为使速率失真函数最小化,该速率失真函数是速率和失真的加权和。存在不同的方法解决速率失真优化问题。例如,这些方法可基于对所有编码选项(包括所有考虑的模式或编码参数值)的广泛测试,并且完整评估其编码成本以及重构信号在编码和解码之后的相关失真。更快的方法还可用于降低编码复杂性,特别是对基于预测或预测残差信号而不是重构的残差信号的近似失真的计算。也可使用这两种方法的混合,诸如通过针对可能的编码选项中的仅一些编码选项使用近似失真,而针对其他编码选项使用完全失真。其他方法仅评估可能的编码选项的子集。更一般地,许多方法采用各种技术中任一种来执行优化,但是优化不一定是对编码成本和相关失真两者的完整评估。

本文所述的具体实施和方面可在例如方法或过程、装置、软件程序、数据流或信号中实现。即使仅在单个形式的具体实施的上下文中讨论(例如,仅作为方法讨论),讨论的特征的具体实施也可以其他形式(例如,装置或程序)实现。装置可在例如适当的硬件、软件和固件中实现。方法可在例如一般是指处理设备的处理器中实现,该处理设备包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备,诸如例如计算机、手机、便携式/个人数字助理(“PDA”)以及便于最终用户之间信息通信的其他设备。

提及“一个实施方案”或“实施方案”或“一个具体实施”或“具体实施”以及它们的其他变型,意味着结合实施方案描述的特定的特征、结构、特性等包括在至少一个实施方案中。因此,短语“在一个实施方案中”或“在实施方案中”或“在一个具体实施中”或“在具体实施中”的出现以及出现在本申请通篇的各个地方的任何其他变型不一定都是指相同的实施方案。

另外,本申请可涉及“确定”各种信息。确定信息可包括例如估计信息、计算信息、预测信息或从存储器检索信息中的一者或多者。

此外,本申请可涉及“访问”各种信息。访问信息可包括例如接收信息、检索信息(例如,从存储器)、存储信息、移动信息、复制信息、计算信息、确定信息、预测信息或估计信息中的一者或多者。

另外,本申请可涉及“接收”各种信息。与“访问”一样,接收旨在为广义的术语。接收信息可包括例如访问信息或检索信息(例如,从存储器)中的一者或多者。此外,在诸如例如存储信息、处理信息、发射信息、移动信息、复制信息、擦除信息、计算信息、确定信息、预测信息或估计信息的操作期间,“接收”通常以一种方式或另一种方式参与。

应当理解,例如,在“A/B”、“A和/或B”以及“A和B中的至少一者”的情况下,使用以下“/”、“和/或”和“至少一种”中的任一种旨在涵盖仅选择第一列出的选项(A),或仅选择第二列出的选项(B),或选择两个选项(A和B)。作为进一步的示例,在“A、B和/或C”和“A、B和C中的至少一者”的情况下,此类短语旨在涵盖仅选择第一列出的选项(A),或仅选择第二列出的选项(B),或仅选择第三列出的选项(C),或仅选择第一列出的选项和第二列出的选项(A和B),或仅选择第一列出的选项和第三列出的选项(A和C),或仅选择第二列出的选项和第三列出的选项(B和C),或选择所有三个选项(A和B和C)。如对于本领域和相关领域的普通技术人员显而易见的是,这可扩展到所列出的尽可能多的项目。

而且,如本文所用,词语“发信号通知”是指(除了别的以外)向对应解码器指示某物。例如,在某些实施方案中,编码器向多个变换、编码模式或标记中的特定一者发信号通知。这样,在一个实施方案中,在编码器侧和解码器侧均使用相同的变换、参数或模式。因此,例如,编码器可将特定参数发射(显式信令)到解码器,使得解码器可使用相同的特定参数。相反,如果解码器已具有特定参数以及其他,则可在不发射(隐式信令)的情况下使用信令,以简单允许解码器知道和选择特定参数。通过避免发射任何实际功能,在各种实施方案中实现了位节省。应当理解,信令可以各种方式实现。例如,在各种实施方案中,使用一个或多个语法元素、标记等将信息发信号通知至对应解码器。虽然前面涉及词语“signal(发信号通知)”的动词形式,但是词语“signal(信号)”在本文也可用作名词。

对于本领域的普通技术人员将显而易见的是,具体实施可产生格式化为携带例如可存储或可传输的信息的各种信号。信息可包括例如用于执行方法的指令或由所述具体实施中的一个具体实施产生的数据。例如,可格式化信号以携带所述实施方案的比特流。可格式化此类信号例如为电磁波(例如,使用频谱的射频部分)或基带信号。格式化可包括例如对数据流编码并且用编码的数据流调制载体。信号携带的信息可以是例如模拟或数字信息。已知的是,信号可通过各种不同的有线或无线链路发射。信号可存储在处理器可读介质上。

我们描述了多个实施方案,跨各种权利要求类别和类型。这些实施方案的特征可以单独提供或以任何组合形式提供。此外,实施方案可包括以下特征、设备或方面中的一个或多个,单独地或以任何组合,跨各种权利要求类别和类型:

·用于使用三角形分区模式和几何合并模式的组合对数字视频图像进行联合编码和解码的过程或设备。

·使用三角形和几何编码模式中的子块合并运动字段对数字视频图像进行编码或解码的过程或设备。

·包括在使用前述过程或设备的子块合并候选而不是常规候选时将标记添加到信号的语法或语义的过程或设备。

·包括通过上述过程或设备中的子块合并候选来替换一些常规合并候选的语法或语义的过程或设备。

·包括在前述过程或设备中存储至少一个运动字段的语法或语义的过程或设备。

·包括考虑前述过程或设备中的所有子块合并候选或仅子块时间运动向量预测或仅仿射预测的语法或语义的过程或设备。

·包括所描述的语法元素中的一个或多个语法元素或其变型的比特流或信号。

·包括传递根据所述实施方案中任一项生成的信息的语法的比特流或信号。

·根据所述实施方案中任一项所述的创建和/或发射和/或接收和/或解码。

·根据所述实施方案中任一项所述的方法、过程、装置、存储指令的介质、存储数据的介质或信号。

·在信令中插入语法元素,这使得解码器能够以与编码器所使用的编码方式相对应的方式确定工具。

·对包括所描述的语法元素中的一个或多个语法元素或其变型的比特流或信号进行创建和/或传输和/或接收和/或解码。

·根据所描述的实施方案中的任一实施方案执行变换方法的电视、机顶盒、蜂窝电话、平板电脑或其他电子设备。

·根据所描述的实施方案中的任一实施方案执行变换方法确定并显示所得图像(例如,使用监视器、屏幕或其他类型的显示器)的电视、机顶盒、蜂窝电话、平板电脑或其他电子设备。

·根据所描述的实施方案中的任一实施方案选择、频带限制或调谐(例如,使用调谐器)信道以接收包括编码图像的信号并执行变换方法的电视、机顶盒、蜂窝电话、平板电脑或其他电子设备。

·通过空中接收(例如,使用天线)包括编码图像的信号并且执行变换方法的电视机、机顶盒、蜂窝电话、平板电脑或其他电子设备。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号