首页> 中国专利> 一种合成视点主观失真估计方法

一种合成视点主观失真估计方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明提供了一种合成视点主观失真估计方法。具体方法为：计算深度图像失真对合成视点的失真影响时，以像素点的空间结构相关性为基础，结合人眼的感知融合特性进行主观失真度估计。可在立体/多视点视频编码中更准确地估计合成视点的主观失真度；将其用于各个关键编码环节的率失真优化编码，可有效提高立体/多视点视频编码性能。

著录项

公开/公告号CN103702120A

专利类型发明专利
公开/公告日2014-04-02

原文格式PDF
申请/专利权人四川九洲电器集团有限责任公司;
展开▼

申请/专利号CN201310686917.7
发明设计人张蕾;刘思远;陈乾友;熊荣东;
展开▼

申请日2013-12-11
分类号H04N19/147;H04N19/597;H04N19/105;H04N13/00;
代理机构成都九鼎天元知识产权代理有限公司;
代理人韩雪
地址 621000 四川省绵阳市科创园区九华路6号
入库时间 2024-02-19 23:15:09

法律信息

法律状态公告日

法律状态信息

法律状态
2017-02-15

授权

授权
2014-04-30

实质审查的生效 IPC(主分类):H04N19/147 申请日:20131211

实质审查的生效
2014-04-02

公开

公开

说明书

技术领域

本发明涉及一种合成视点主观失真估计方法，特别是涉及一种适用于三维视频技术领域的立体/多视点视频编码和图像主观失真估计中的合成视点主观失真估计方法。

背景技术

立体/多视点视频由摄像机阵列从不同角度拍摄同一场景得到一组视频信号，与单视点视频相比能获取场景的三维信息，从而更加生动地再现三维场景。近年来三维立体显示的迅速发展，特别是不需佩戴眼镜就能观看到逼真立体影像的裸视光栅三维立体显示器的出现，使人类的三维显示梦想成为现实。可以预见，立体/多视点视频将在影视、医疗、远程控制、虚拟现实等方面拥有广阔的应用前景。然而与传统二维视频数据相比，具有立体感的图像/视频由于包含了场景的深度信息，其数据量会随着视点数目的增多而急剧增加。因此，为了满足立体/多视点视频存储和传输的应用需求，高效的立体/多视点视频压缩编码技术的研究就显得尤为重要。

现有的立体/多视点视频编码主要是利用视点间的相关性来提高视频压缩率，最常用编码方案包括：“基于视差/运动联合估计的立体/多视点视频编码” 和“基于视点合成预测的立体/多视点视频编码”。其中“基于视点合成预测的立体/多视点视频编码”利用深度图等场景几何信息来生成视点图像，与“基于视差/运动联合估计的立体/多视点视频编码”相比，可以更有效地利用视点间相关性提高立体/多视点视频编码性能，同时更好地满足视点间随机访问与自由视点应用，具有很好的实际应用前景。因此，基于视点合成预测的立体/多视点视频编码成为目前视频编码的研究热点。

在视频编码中，率失真优化是其核心，它贯穿于视频编码的各个关键环节。而失真度估计是率失真优化实现的基础。不同于传统的视频编码方案，在基于视点合成预测的立体/多视点视频编码过程中，除了需要估计纹理图像和深度图像本身的编码失真外，还需要进一步估计合成视点的图像质量，以获得最佳的立体/多视点视频编码性能。对此，国内外学者们围绕合成视点失真估计展开了越来越多的研究，其研究成果在一定程度上促进了立体/多视点视频技术的发展。

根据人类视觉系统(Human Visual System,HVS)的研究发现，HVS对视频场景中的空间结构失真有较高的视觉敏感度。因此，采用传统方法估计的合成视点失真，难与人眼感知的图像质量相一致。

发明内容

本发明要解决的技术问题是提供一种人眼感知的图像质量相一致合成视点。

本发明采用的技术方案如下：一种合成视点主观失真估计方法，具体方法为：计算深度图像失真对合成视点的失真影响时，以像素点的空间结构相关性为基础，结合人眼的感知融合特性进行主观失真度估计。

作为优选，具体方法步骤为：步骤一、利用深度图像的空间结构信息，计算合成视点的空间结构相似度；步骤二、利用人眼对纹理图像的视觉感知特性，修正合成视点的空间结构相似度；步骤三、融合空间和纹理结构相似度，实现合成视点的主观失真估计。

作为优选，所述步骤一的具体方法步骤为：1、根据参考视点和合成视点的相机内部参数和外部参数，计算在不同深度值条件下，从参考视点到合成视点的空间投影变化矩阵；2、计算参考视点深度图像失真前后，其各像素点或编码块投影变换到合成视点深度图像中水平和垂直方向的坐标；3、根据步骤2 计算得到的投影变换坐标，依次计算参考视点深度图像各像素点或编码块在水平和垂直方向投影变换坐标的空间结构相似度。

作为优选，所述步骤二的具体方法步骤为：A、根据参考视点失真的纹理图像，依次计算参考视点各像素点或编码块在水平和垂直方向的纹理复杂度； B、修正合成视点的空间结构相似度。

作为优选，所述步骤三的具体方法步骤为：a、采用纹理图像的结构相似度模型，计算参考视点纹理图像失真前后各像素点或编码块的结构相似度； b、融合所述所述步骤B中计算得到的空间结构相似度和所述步骤a中计算得到的纹理结构相似度，估计合成视点的主观失真。

作为优选，所述步骤1的具体方法步骤为：1-1、根据参考视点的内部参数、外部参数和深度值，计算参考视点图像坐标对应的世界坐标；1-2、根据合成视点的内部参数和外部参数，计算合成视点世界坐标对应的图像坐标和深度值；1-3、根据参考视点图像坐标和对应的合成视点图像坐标，计算深度值条件下的3×3空间投影变化矩阵。

作为优选，所述步骤2的具体方法步骤为：2-1、根据参考视点原始的深度图像和空间投影变化矩阵，依次对参考视点各像素点或编码块进行空间投影变化到合成视点，记录各像素点或编码块投影变换后水平和垂直方向的坐标；2- 2、根据参考视点失真深度图像和空间投影变化矩阵，依次对参考视点各像素点或编码块进行空间投影变化到合成视点，记录各像素和编码块投影变换后水平和垂直方向的坐标。

作为优选，所述步骤B的具体方法步骤为：B-1、根据步骤A计算得到的纹理复杂度，结合人眼视觉感知特性，计算人眼对其空间结构失真的敏感阈值；B-2、使用敏感阈值对所述步骤3中计算得到的空间结构相似度进行感知修正。

与现有技术相比，本发明的有益效果是：鉴于大部分立体/多视点视频的最终消费者是“人眼”，将合成视点空间结构特征和人眼视觉感知特性相结合，实现一种新的以空间投影结构相似度为依据的合成视点失真估计方法，可在立体/多视点视频编码中更准确地估计合成视点的主观失真度；将其用于各个关键编码环节的率失真优化编码，可有效提高立体/多视点视频编码性能。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本说明书（包括任何附加权利要求和摘要）中公开的任一特征，除非特别叙述，均可被其他等效或者具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

根据率失真优化选择待编码的参考视点，其率失真优化中失真度的计算采用本发明提出的基于空间结构相似度的合成视点主观失真估计方法。本具体实施例以视点0和视点4为多视点视频序列待编码的参考视点；视点2为多视点视频序列用于失真估计的合成视点。

一种合成视点主观失真估计方法，具体方法为：计算深度图像失真对合成视点的失真影响时，以像素点的空间结构相关性为基础，结合人眼的感知融合特性进行主观失真度估计。

具体方法步骤为：步骤一、利用深度图像的空间结构信息，计算合成视点的空间结构相似度；步骤二、利用人眼对纹理图像的视觉感知特性，修正合成视点的空间结构相似度；步骤三、融合空间和纹理结构相似度，实现合成视点的主观失真估计。

所述步骤一的具体方法步骤为：

1、计算3×3空间投影变化矩阵：根据参考视点和合成视点的相机内部参数和外部参数，计算在不同深度值z条件下，从参考视点到合成视点的空间投影变化矩阵H(z)。

具体方法步骤为：

1-1、根据参考视点的内部参数A_3×3,r、外部参数R_3×3,r、t_3×1,r和深度值z，计算参考视点图像坐标（u_r，v_r）对应的世界坐标对应的世界坐标（X_w，Y_w， Z_w）

$(\begin{matrix} X_{W} \\ Y_{W} \\ Z_{W} \end{matrix}) = R_{3 \times 3, r}^{- 1} ({zA}_{3 \times 3, r}^{- 1} (\begin{matrix} u_{r} \\ v_{r} \\ 1 \end{matrix}) - t_{3 \times 1, r});$

1-2、根据合成视点的内部参数A_3×3,v和外部参数R_3×3,v、t_3×1,v，计算合成视点世界坐标（X_w，Y_w，Z_w）对应的图像坐标（u_v，v_v）和深度值z_v

$z (\begin{matrix} u_{v} \\ v_{v} \\ 1 \end{matrix}) = A_{3 \times 3, v} (R_{3 \times 3, v} (\begin{matrix} X_{W} \\ Y_{W} \\ Z_{W} \end{matrix}) + t_{3 \times 1, v});$

1-3、根据参考视点图像坐标和对应的合成视点图像坐标，计算深度值z条件下的3×3空间投影变化矩阵

$(\begin{matrix} u_{v} \\ v_{v} \\ 1 \end{matrix}) = H_{3 \times 3} (z) (\begin{matrix} u_{r} \\ v_{r} \\ 1 \end{matrix}) .$

其中，z的取值范围为0～255，通过遍历z即可获取参考视点到合成视点的所有3×3空间投影变化矩阵H(z)。

2、计算参考视点深度图像失真前后，其各像素点或编码块投影变换到合成视点深度图像中水平和垂直方向的坐标。

具体方法步骤为：

2-1、根据参考视点原始的深度图像和空间投影变化矩阵H(z)，依次对参考视点各像素点或编码块进行空间投影变化到合成视点，记录各像素点或编码块投影变换后水平和垂直方向的坐标u_d(i,j)和v_d(i,j)

$(\begin{matrix} u_{d} (i, j) \\ v_{d} (i, j) \\ 1 \end{matrix}) = H_{3 \times 3} (z^{'} (i, j)) (\begin{matrix} u_{r} (i, j) \\ v_{r} (i, j) \\ 1 \end{matrix});$

2-2、根据参考视点失真深度图像和空间投影变化矩阵H(d)，依次对参考视点各像素点或编码块进行空间投影变化到合成视点，记录各像素和编码块投影变换后水平和垂直方向的坐标u_d(i,j)和v_d(i,j)

$(\begin{matrix} u_{d} (i, j) \\ v_{d} (i, j) \\ 1 \end{matrix}) = H_{3 \times 3} (z^{'} (i, j)) (\begin{matrix} u_{r} (i, j) \\ v_{r} (i, j) \\ 1 \end{matrix}) .$

其中，（i，j）表示参考视点各像素点或编码块的坐标；z(i,j)、z'(i,j) 分别表示参考视点深度图像的原始深度值和编码失真后的深度值。

3、计算空间结构相似度：根据步骤2计算得到的投影变换坐标u、v、u_d和v_d，依次计算参考视点深度图像各像素点或编码块在水平和垂直方向投影变换坐标的空间结构相似度和

$S_{u}^{d} (i, j) = \frac{{2 σ}_{{uu}_{d}} + c}{σ_{u}^{2} + σ_{u_{d}}^{2} + c}$

$S_{v}^{d} (i, j) = \frac{{2 σ}_{{vv}_{d}} + c}{σ_{v}^{2} + σ_{v_{d}}^{2} + c} .$

其中，和分别表示给定空间范围内，深度图失真前后水平和垂直方向投影坐标的协方差；和分别给定空间范围内，深度图无失真时水平和垂直方向投影坐标的方差；和分别表示给定空间范围内，深度图失真时水平和垂直方向投影坐标的方差；c用于避免分母为0的常数。当处理单元为像素点时，给定空间范围内是以当前像素点为中心的A×A像素大小的矩形区域，A为大于0的常数；当处理单元为编码块时，给定空间范围内即为当前编码块，其统计特征值可以通过预测函数计算得到，以适用于编码过程中的相似度计算。后续部分“给定空间范围”的实施方法均是相同的，不再重复描述。

所述步骤二的具体方法步骤为：

A、计算水平和垂直方向纹理复杂度：根据参考视点失真的纹理图像，依次计算参考视点各像素点或编码块在水平和垂直方向的纹理复杂度，记为 W_u(i,j)和W_v(i,j)。本实施例以像素点为处理单元（9×9像素大小空间范围），基于信号方差的纹理复杂度计算方法为例：

$W_{u} (i, j) = \frac{1}{64} Σ_{j - 4}^{j + 4} Σ_{i - 4}^{i + 4} {(p (i, j) - \overline{p} (j))}^{2}$

$W_{v} (i, j) = \frac{1}{64} Σ_{i - 4}^{i + 4} Σ_{j - 4}^{j + 4} {(p (i, j) - \overline{p} (j))}^{2}$

其中，p(i,j)表示参考视点纹理图像（i，j）坐标点的像素值；和分别表示参考视点当前列给定范围内和当前行给定范围内像素点的均值。

B、修正合成视点的空间结构相似度。

所述步骤B的具体方法步骤为：

B-1、根据步骤A计算得到的纹理复杂度，结合人眼视觉感知特性，计算人眼对其空间结构失真的敏感阈值。

P_u(W_u(i,j)|W_v(i,j))=F(W_u(i,j),W_v(i,j))

P_v(W_v(i,j)|W_u(i,j))=F(W_v(i,j),W_u(i,j))

其中，F(·)表示相对复杂度计算函数，它可以通过特定的物理实验测量得到，也可以通过离线的机器学习从训练数据获取。

B-2、使用敏感阈值对所述步骤3中计算得到的空间结构相似度进行感知修正。

$S_{u} (i, j) = S_{u}^{d} {(i, j)}^{P_{u} (W_{u} (i, j) | W_{v} (i, j))}$

$S_{v} (i, j) = S_{v}^{d} {(i, j)}^{P_{v} (W_{v} (i, j) | W_{u} (i, j))}$

所述步骤三的具体方法步骤为：

a、计算纹理图像的结构相似度：采用纹理图像的结构相似度模型，计算参考视点纹理图像失真前后各像素点或编码块的结构相似度。本实施例以基于 SSIM的纹理结构相似度模型为例：

$S (i, j) = \frac{{2 u}_{p} u_{p_{d}} + c 1}{{u_{p}}^{2} + {u_{p_{d}}}^{2} + c 1} \cdot \frac{{2 σ}_{{pp}_{d}} + c 2}{{σ_{p}}^{2} + {σ_{p_{d}}}^{2} + c 2}$

其中，u_p和分别表示给定空间范围内，纹理图像失真前后的像素均值；σ_p²和分别给定空间范围内，纹理图像失真前后的像素方差；表示给定空间范围内，纹理图像失真前后的像素协方差。

b、融合所述所述步骤B中计算得到的空间结构相似度S_u(i,j)、S_v(i,j)和所述步骤a中计算得到的纹理结构相似度S(i,j)，估计合成视点的主观失真 D(i,j)。

D(i,j)=Pool(S(i,j),S_u(i,j),S_v(i,j))

其中，Pool(·)表示感知失真融合函数，它可以通过特定的物理实验测量得到，也可以通过离线的机器学习从训练数据获取。

本发明适用于基于视点合成预测的立体/多视点视频编码框架，包括一个以上的待编码参考视点视频图像，且每个参考视点视频的编码包括纹理图像和深度图像编码。本实施例以五个视点的多视点视频序列为例。其具体编解码步骤依次是：

多视点视频序列编码：

根据率失真优化选择待编码的参考视点，其率失真优化中失真度的计算采用本发明提出的基于空间结构相似度的合成视点主观失真估计方法。

参考视点0编码，包括纹理图像编码和深度图像编码：

采用率失真模型实现纹理/深度图像间的优化码率分配，其率失真模型中失真度的计算采用本发明提出的基于空间结构相似度的合成视点主观失真估计方法。

参考视点0的纹理图像编码，使用基于视点合成预测的立体/多视点视频编码方式编码，其编码单元为宏块：

1)当前纹理编码单元的码率分配及量化参数计算，根据缓冲区状态和率失真模型计算当前纹理编码单元的码率分配及量化参数。码率分配既可采用帧级码率分配也可采用宏块级码率分配。其率失真模型中失真度的计算采用本发明提出的基于空间结构相似度的合成视点主观失真估计方法。

2)当前纹理编码单元的最佳编码模式计算，给定一个编码模式，通过率失真优化算法选择当前模式下的最佳预测编码参数（其候选预测编码，包括：帧内预测、运动补偿预测/基于合成视点的视点间补偿预测）；遍历完所有可能的编码模式，通过率失真优化算法选择最佳的编码模式。其率失真优化中失真度的计算采用本发明提出的基于空间结构相似度的合成视点主观失真估计方法。

3）当前纹理编码单元预测残差的变换量化，采用标准的编码方式。

4）当前纹理编码单元量化系数的熵编码输出，采用标准的编码方式。

纹理图像编码过程中，与深度图相关的结构相似度沿用纹理/深度图像间的优化码率分配环节的计算值。

参考视点0的深度图像编码，使用基于视点合成预测的立体/多视点视频编码方式编码，其编码单元为宏块，编码方式与参考视点0的纹理图像编码方式相同。深度图像编码过程中，与纹理图相关的结构相似度沿用纹理/深度图像间的优化码率分配环节的计算值。

参考视点4编码，其编码方式与参考视点0编码方式相同。

根据基于视点合成预测的立体/多视点视频编码理论，立体/多视点视频序列包括一个以上的待编码参考视点视频图像，且每个参考视点视频的编码包括纹理图像和深度图像编码。纹理图像和深度图像分别采用标准的视频编码方式编码，如H.264/AVC视频编码。在其编码过程中，采用本发明提出的基于空间结构相似度的合成视点主观失真估计方法实现率失真优化编码，具体包括4个关键环节的编码优化：1)待编码参考视点的选择；2)纹理/深度图像间的码率优化分配；3）纹理图像和深度图像内的码率优化分配及量化参数计算；4）基于率失真优化的帧内/帧间预测编码，包括：模式选择、帧内预测、运动补偿预测 /基于合成视点的视点间补偿预测。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种合成视点主观失真估计方法 [P] . 中国专利： CN103702120B . 2017.02.15
2. 一种合成视点主观失真估计方法 [P] . 中国专利： CN103702120A . 2014-04-02
3. SUBJECTIVE QUALITY ESTIMATING EQUATION DERIVATING METHOD, VIDEO IMAGE PARAMETER DETERMINING METHOD, SUBJECTIVE QUALITY ESTIMATING EQUATION DERIVATING APPARATUS, VIDEO IMAGE PARAMETER DETERMINATING APPARATUS, SUBJECTIVE QUALITY ESTIMATING EQUATION DERIVATING PROGRAM, VIDEO IMAGE PARAMETER DETERMINATING PROGRAM, AND COMPUTER READABLE RECORDING MEDIUM RECORDED WITH PROGRAMS [P] . 日本专利： JP2008147797A . 2008-06-26

机译：主观质量估计方程式确定方法，视频图像参数确定方法，主观质量估计方程式确定设备，视频图像参数确定装置，主观质量测试结果，视点质量，视点，视点，视差
4. GAZE POINT ESTIMATION PROCESSING DEVICE, GAZE POINT ESTIMATION MODEL GENERATION DEVICE, GAZE POINT ESTIMATION PROCESSING SYSTEM, GAZE POINT ESTIMATION PROCESSING METHOD, PROGRAM, AND GAZE POINT ESTIMATION MODEL [P] . 日本专利： JP2019179390A . 2019-10-17

机译：凝视点估计处理装置，凝视点估计模型生成装置，凝视点估计处理系统，凝视点估计处理方法，程序和凝视点估计模型
5. Motion vector estimation method, multiview image encoding method, multiview image decoding method, motion vector estimation device, multiview image encoding device, multiview image decoding device, motion vector estimation program, multiview image encoding program and multiview image decoding program [P] . 韩国专利： KR101451286B1 . 2014-10-17

机译：运动向量估计方法，多视点图像编码方法，多视点图像解码方法，运动向量估计设备，多视点图像编码设备，多视点图像解码设备，运动向量估计程序，多视点图像编码程序和多视点图像解码程序