首页> 中国专利> 一种基于分类器的图像场景分层与对象遮挡处理方法

一种基于分类器的图像场景分层与对象遮挡处理方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明是一种基于分类器的图像场景分层与对象遮挡处理方法，为自动判别图像场景的层次关系和处理对象遮挡关系提供了新的技术方案。本发明包括：在训练集上使用语义、位置、轮廓、公共边界和交界点五种遮挡线索的特征，训练得到判别遮挡关系的分类器；对测试图像使用遮挡关系分类器计算遮挡关系预测值，构建表示遮挡关系的带权有向图；使用层次排序推理算法，在带权有向图上推理出图像场景的层次结构；利用已得到的场景层次结构，处理新加入对象与已有场景对象的遮挡关系，生成图像虚拟场景。本发明可用于图像或视频虚拟场景的遮挡处理，图像或视频虚拟场景生成等应用。

著录项

公开/公告号CN102509119A

专利类型发明专利
公开/公告日2012-06-20

原文格式PDF
申请/专利权人北京航空航天大学;
展开▼

申请/专利号CN201110301899.7
发明设计人陈小武;赵沁平;李青;赵东悦;
展开▼

申请日2011-09-30
分类号G06K9/66;
代理机构北京科迪生专利代理有限责任公司;
代理人许玉明
地址 100191 北京市海淀区学院路37号
入库时间 2023-12-18 05:34:25

法律信息

法律状态公告日

法律状态信息

法律状态
2014-03-05

授权

授权
2012-07-18

实质审查的生效 IPC(主分类):G06K9/66 申请日:20110930

实质审查的生效
2012-06-20

公开

公开

说明书

技术领域

本发明属于图像处理和计算机视觉领域，具体地说是一种基于分类器的图像场景分层与对象遮挡处理方法。

背景技术

基于视频素材的虚拟场景生成技术是虚拟现实的重要组成部分，也是虚拟现实、增强现实、计算机视觉及相关研究方向有机交叉的研究热点。图像虚拟场景生成是视频虚拟场景生成的重要组成部分，其中，图像虚拟场景的遮挡处理是图像虚拟场景生成技术需要解决的关键问题。在虚拟场景生成过程中，需要处理场景对象之间、场景对象和视频场景之间的各种空间遮挡关系，以确保视频虚拟场景正确的空间位置关系，其问题的关键在于如何确定各个场景对象的相对空间位置。与以往的增强现实场景中遮挡处理情况不同，在将虚拟对象加入到另一图像场景时，必须要获得该图像场景中各对象的前后位置关系，由于图像是二维的，对象的前后位置关系就转化为图像中对象间的遮挡关系和层次关系。在获得图像场景的层次关系的基础上，将虚拟对象加入到该场景中，根据已知的图像场景层次关系正确处理虚拟对象的遮挡问题，从而生成符合用户需求的图像虚拟场景。因此与以往的增强现实场景中遮挡处理情况不同，本发明的内容是正确处理图像虚拟场景中对象间的前后遮挡关系和层次关系，实现层次化图像表示，对于新加入的对象正确处理遮挡关系，生成新的图像虚拟场景。

目前已经有不少研究者致力于图像场景分层和对象遮挡的处理，但是还没有人将图像场景分层和对象遮挡处理结合起来研究。2006年，加拿大约克大学视觉研究中心的James H.Elder等人，改进了轮廓聚合算法，提出由粗略到精确的多尺度贝叶斯轮廓提取算法来表示图像的全局限制，实现图像对象轮廓的提取。但是，该方法没有研究场景对象的层次遮挡关系。2007年，华中科技大学和莲花山研究院的高如新和吴田富等人提出基于混合马尔科夫随机场的贝叶斯推理算法推理图像层次结构。首次利用基于马尔科夫随机场建模和推理来解决真实图像的层次结构问题。但是，该方法没有进一步研究对象遮挡关系的处理方法。分析当前各种求解图像场景分层问题的方法，这些方法一般都是从图像中学习表征遮挡关系的各种中低层信息，然后根据贝叶斯推理理论和统计计算，建立场景分层问题的数学模型，利用推理算法在解空间中搜索可能的分层解结果。这些方法是在像素级别研究层次结构的构建问题，没有推理出图像场景中最可能表示其层次结构的分层结果。本发明研究对象级别的图像场景分层方法，利用对象已知的高层和中低层遮挡信息特征，训练遮挡关系的分类器，以及构建对象遮挡关系的图结构表示和对象层次推理算法。在获得图像场景的层次结构和感兴趣虚拟对象后，本发明就可以将虚拟对象加入到图像场景中的任何位置层次，并能够正确处理对象间的遮挡情况，从而生成逼真的图像虚拟场景。

发明内容

为了克服现有技术的不足，本发明的目的在于：提供一种基于分类器的图像场景分层与对象遮挡处理方法。该方法可以根据已有图像场景的特征推理得到图像场景中对象间的遮挡关系和层次关系，从而能够正确处理新加入的对象和已有对象之间的空间遮挡关系，使得生成的图像虚拟场景能够同时符合客观实际和用户要求，为图像虚拟场景中遮挡处理问题提供有效的技术支持。

为完成发明目的，本发明的技术解决方案是：首先，在图像场景语义标记结果的基础上，使用语义、位置、轮廓、公共边界和交界点五种遮挡线索，并检测训练数据集图像的上述五种遮挡线索；在训练数据集上采样遮挡关系的正样本和负样本，利用五种遮挡线索构建每个样本的六维特征向量，由此训练得到遮挡关系的分类器；对于任意一张输入图像，构建属于这张图像的遮挡关系特征向量集合，利用已经训练好的分类器，得到属于这张图像的所有遮挡关系的预测值，以此构建表现遮挡关系的带权完全有向图；在带权完全有向图上推理求解出图像场景的层次结构；最后，将指定的对象放入分层场景中的指定层次，正确处理遮挡现象，生成图像虚拟场景。

在图像场景语义标记中，存在多个中低层和高层的信息能够在一定程度上反映对象区域间的遮挡关系和层次关系。本发明从众多类信息中选择出对象语义线索、对象位置线索、对象轮廓线索、公共边界线索和交界点线索五种能够表征对象区域间遮挡关系的线索，为后面的遮挡关系的分类器的构建提供特征向量。

给定图像对应的语义标记图，根据人的经验能够获得不同语义对象之间的遮挡关系，因此在训练阶段获得不同语义对象之间的遮挡关系响应值。区域位置线索、区域轮廓紧凑性线索、区域公共边界线索和区域交界点线索都能够在一定程度上表达区域间的遮挡关系和场景层次结构。根据这些遮挡线索得到的特征值构建特征向量，训练遮挡关系的分类器。以遮挡关系<A，B>为例，其六维遮挡特征向量是指A和B的语义遮挡线索的特征响应值、A和B的位置遮挡线索的特征响应值、A的轮廓遮挡线索的特征响应值，B 的轮廓遮挡线索的特征响应值、A和B之间的公共边界遮挡线索的特征响应值，A和B 之间的公共交界点遮挡线索的特征响应值。通过分类器来预测图像中遮挡关系的偏好分值，一个层次序列的偏好分值是这个序列中的所有遮挡关系的偏好分值之和。当偏好分值达到最大值时，对应的图像层次表示解是图像场景中最可能出现的层次结构。因此，只要求得最大偏好分值解，就能够实现图像场景分层这一目标。

为了快速求解出图像层次表示的最优解，本发明提出一种求解层次序列的推理算法，将求解推理过程转化在表示遮挡关系的带权完全有向图上求解最佳排序的问题。

本发明与现有技术相比的有益特点是：1、本发明在图像素材结构分析与图像场景语义标记的基础上，从层次化图像表示的角度来处理图像对象间的遮挡关系和层次关系，不同于以往处理图像遮挡关系的方法。2、本发明根据五种遮挡线索构建遮挡关系样本的特征向量，采样遮挡关系的正负样本以训练分类器来预测遮挡关系以及给出遮挡关系的偏好分值。3、本发明将二维图像转换为带权有向图表示，并提出了一种快速的全排列层次推理算法，在带权有向图上求解图像层次结构。4、本发明可以由用户指定感兴趣的对象和层次，将对象加入到已分层场景的指定层次上，正确处理对象之间的空间遮挡关系，生成融合效果较好的虚拟场景。

附图说明

图1是本发明的遮挡关系传递性示意图；

图2是本发明的总体结构图；

图3是本发明的遮挡特征提取流程示意图；

图4是本发明的带权有向图示意图；

图5是本发明的层次推理过程流程示意图；

图6是本发明的总体过程示意图。

具体实施方式

下面结合附图对本发明作详细说明。

本发明提出一种基于分类器的图像场景分层与对象遮挡处理方法，在已有图像场景语义标记基础上，训练遮挡关系的分类器；对于任意一张输入图像，利用已经训练好的分类器，得到测试图像的所有遮挡关系的预测值，以此构建表现遮挡关系的带权完全有向图，在带权完全有向图上快速求解出图像场景的层次结构并生成新的虚拟场景。

本发明的主要步骤如图2所示：首先检测训练数据集图像的各种遮挡线索及其特征响应值；由这些特征响应值构建遮挡关系样本的特征向量，然后利用Adaboost方法训练得到遮挡关系的分类器；对于一张输入的图像，检测遮挡线索，提取其中的遮挡关系及特征向量，用训练好的遮挡关系分类器得到每个遮挡关系的预测性质和预测值，构建属于该图的遮挡关系的带权有向图；最后在带权有向图结构上利用本发明提出的层次排序推理算法求解图像场景的层次结构。最后，将指定的对象放入分层场景中的指定层次，正确处理遮挡现象，生成图像虚拟场景。

本发明在图像场景语义标记的基础上定义了五种表征遮挡关系的遮挡线索，检测数据集图像的各种遮挡线索并计算其特征响应值。

本发明选择对象语义线索、对象位置线索、对象轮廓线索、公共边界线索和交界点线索五种能够表征对象区域间遮挡关系和层次关系的线索。在自然图像场景中，对象间的语义信息能够提供相对遮挡信息，如马遮挡草地、汽车遮挡道路，因此语义信息是场景分层的特征之一。一般情况下，靠近摄像机镜头的对象位于图像的下侧，比如地面一般在最下方，天空一般是在最上方。由此可见，对象区域在图像上的位置，能够在一定程度上反映对象间遮挡关系和层次关系，也是场景分层的特征之一。当对象靠近前方不被其他物体遮挡时，其轮廓形状一般是规则且紧凑的。因此区域轮廓越规则，其被其他对象遮挡的可能性越小，由此可见，对象区域轮廓能够在一定程度上反映区域自身的被遮挡情况，是场景分层的特征之一。相邻对象区域间的公共边界能够在一定程度上反映区域间的遮挡关系，是解决图像场景分层问题的重要线索之一。在自然图像场景中，当三个对象出现遮挡现象时，通常其中一个对象遮挡住其他两个对象，表现在二维图像上即为出现交界点现象。因此，邻接对象区域间的交界点也是遮挡关系的重要线索。本发明将构成交界点的曲线简化为向量形式，在交界点的局部范围内根据各曲线的走向求曲线在有限像素点内的平均变化的方向向量，以逆时针方向选择两向量间的夹角表示交界点J_t。

本发明的工作首先需要检测遮挡线索并计算其特征响应值，如图3所示，检测遮挡线索步骤如下：首先，将语义标记图像读入，从中抽取出各对象的语义标记，统计对象个数；接着，初始化对象区域信息，计算区域位置；然后，根据对象区域信息提取区域轮廓，并计算轮廓的长度和面积；接着，将各对象的轮廓分裂为邻接对象区域间的公共边界，计算公共边界的曲率和长度；最后，在公共边界的端点处检测判断是否为交界点，初始化交界点的位置、分离区域、三条边界曲线段、描述交界点形状的角度等信息。在获得图像中的各种遮挡线索信息后，本发明设计实现各种遮挡线索的数学模型定义和响应值计算过程。

对象语义关系的响应值计算，首先输入要计算语义关系的两对象R_i和R_j，由于在语义标记图中不同颜色表示不同的语义对象，所以识别两对象R_i和R_j的颜色，即识别两对象的语义信息，然后输入人工划分的分层结果，获得不同语义对象的遮挡关系直方图，横坐标和纵坐标都是数据集中所有的语义类别。以坐标(x，y)为例，在该坐标上对应的值S(x，y)表示语义类别x遮挡语义类别y的频率值。以此直方图的统计结果作为语义遮挡线索的特征响应值。

位置线索的数学模型为： $P_{pos} = f (R_{i}, R_{j}) = 1 / (1 + \exp ({\overline{y}}_{j} - {\overline{y}}_{i} / H)) .$ 对于两个区域对象R_i和R_j，根据遮挡线索检测计算出的各对象的区域中心位置，从中选择Y方向高度值和H为图像高度。利用位置线索数学模型计算两对象从相对位置角度度量二者之间的遮挡关系值P_pos，最后将该响应值返回。

本发明根据在遮挡线索检测中得到的各区域轮廓的面积和长度信息，利用轮廓紧凑性数学模型计算度量该对象单个区域轮廓的紧凑性与被遮挡关系的响应值，然后将该对象所有轮廓的响应值取平均值，最后将该平均值作为对象区域轮廓紧凑性的响应返回。区域R紧凑性数学模型如下，其中，L为轮廓长度，A为区域面积，n为区域所包含的像素个数，α为加权系数： $p_{com} (R) \approx \exp {- α \cdot \frac{n - L / 4}{n - \sqrt{n}}} .$

为了描述区域间公共边界和遮挡关系之间的关系，本发明利用曲率定义公共边界凸性模型函数为：其中，κ为公共边界任一点的曲率，为逆时针方向的公共边界曲线，L为公共边界曲线弧长。利用公共边界凸性模型计算两对象从公共边界线索判断遮挡关系的响应值p_conv并将其返回。在给定两区域R_i，R_j遮挡关系R_i＜R_j(即R_i遮挡R_j)的条件下，本发明定义并量化曲率变化反映遮挡关系的数学模型为即其中，两对象间可能存在多条公共边界，N为区域R_i，R_j间的公共边界数目。

定义交界点形状数学模型为：p_ang(J|R_i＜R_j，R_i＜R_k)∝p_J(θ₁，θ₂)，其中，R_i、R_j、R_k表示存在交界点的三个区域，其遮挡关系为R_i＜R_j，R_i＜R_k，即R_i遮挡R_j，R_i遮挡R_k。p_J(θ₁，θ₂) 为在当前遮挡关系下确定的向量夹角，θ₁为区域R_i所辖区域的角度，θ₂为继续沿着逆时钟方向确定的向量夹角。交界点形状统计量计算，首先输入要计算交界点形状反映遮挡关系的交界点J_t，然后根据在遮挡线索检测中计算得到的描述交界点形状的角度信息，利用上述定义的交界点形状数学模型计算三邻接对象区域间的遮挡关系响应值并返回。

在训练数据集上采样遮挡关系的正样本和负样本，利用五种遮挡线索构建每个样本的遮挡关系特征向量，由此训练得到遮挡关系的分类器。

在获取各遮挡线索的响应值之后，我们下一步要做的就是，建立图像遮挡层次的带权有向图结构，从而进行层次序列推理。首先我们要获得各个语义对象之间的遮挡关系预测及其预测值。我们定义了一种偏好函数PREF，它是一个二值指示函数的联合。PREF函数将遮挡关系特征向量转换为一个能够表达遮挡关系的预测值，即偏好分值。PREF函数的定义如下：

$PREF (A, B) = (\begin{matrix} score > 0, A < B \\ score < 0, A > B \end{matrix})$

其中A＜B表示A在B之前或A遮挡B，A＞B表示B在A之前或B遮挡A，偏好分值越高表明该遮挡关系可能性越大。根据PREF函数的特点，我们选择了Adaboost方法来训练得到我们的由若干弱分类器线性组成的遮挡关系强分类器。最终，我们的PREF函数是这样求解的：

$PREF (A, B) = h (x) = Σ_{t = 1}^{T} α_{t} h_{t} (x),$

h_t(x)＝1[f_t(x)＞θ_t]

其中x是特征向量，h(x)是关于特征向量的预测值，h_t(x)是弱分类器(本发明选用决策树)，θ_t是弱分类器h_t(x)的阈值，α_t是每个弱分类器的权重值，T是弱分类器的数目，f_t(x)是关于特征向量x的二值化函数。当满足f_t(x)＞θ_t时，h_t(x)＝1；当不满足f_t(x)＞θ_t时，h_t(x)＝0。如果PREF(A，B)和PREF(B，A)都是正数且PREF(A，B)的绝对值大于PREF(B，A)的绝对值时，则A遮挡B更有可能发生；当PREF(A，B)和PREF(B，A)都是负数且PREF(A，B)的绝对值大于PREF(B，A)的绝对值时，则B遮挡A更有可能发生。

对于遮挡关系<A，B>来说，其特征向量FV<objectA，objectB>用来度量A和B之间的遮挡关系，它是由A和B对应的语义遮挡线索的特征响应值S(A，B)、A和B的位置遮挡线索的特征响应值P_pos<A，B>、A的轮廓遮挡线索的特征响应值P_com(A)、B的轮廓遮挡线索的特征响应值P_com(B)、A和B之间的公共边界遮挡线索的特征响应值P_conv<A，B>、A和B之间的公共交界点遮挡线索的特征响应值P_ang<A，B>构成。

在训练数据集上采样遮挡关系的正样本和负样本，遮挡关系具有传递性，例如A遮挡B， B遮挡C，那么A也遮挡了C(这里我们假设每个语义对象只有一个层次信息，不存在一个对象有多个层次的情况，也不存在对象相互遮挡的情况)。所以对于任意的遮挡关系<A，B>和 <B，A>，他们所表示的遮挡关系是相对的，其对应的特征向量也不相同。因此，在整个数据集上，遮挡关系的正样本数量和负样本数量是一致的，通过采样，我们得到了训练遮挡关系分类器的样本数据，进而训练遮挡关系分类器。

然后对于任意一张输入图像，检测测试数据集图像的各种遮挡线索，检测过程如步骤1 中所述。根据语义类别和遮挡线索信息，构建属于这张图像的遮挡关系特征向量集合，利用已经训练好的分类器，得到属于这张图像的所有遮挡关系的预测值，以此构建表现遮挡关系的带权完全有向图。

给定图像对应的语义标记图，本发明根据步骤1中所述得到该图像的所有遮挡线索及其响应值，然后提取遮挡关系特征向量作为以训练得到的分类器的输入，就能获得图像所有遮挡关系的PREF预测值。在得到了图像中所有遮挡关系的PREF值后，可以构建遮挡关系的带权完全有向图G＝<V，E>，如图4所示。图结构中，每个节点对应图像中的语义对象，节点之间的有向边表示遮挡关系，边的权重即PREF值。节点R₁有权重为1.64778的有向边指向节点 R₂，那么可知R₁遮挡R₂的偏好分值为1.64778。这里会存在着一种误判的情况，比如， <R₄，R₅>被分类器预测为正遮挡关系，其偏好分值为0.315956，<R₅，R₄>也分类器被预测为正遮挡关系，其偏好分值为1.02053。这种遮挡关系不一致的情况与我们设定的一个对象只有一个层次的假设不符。当遮挡关系不一致的时候，需要判断哪个遮挡关系是可信的，换言之，需要找到一个近似最优层次解使得能够最大程度的满足图像中所有的遮挡关系且偏好分值最高。本发明的目标是在W_L的解空间中，寻找在给定图像2D表示W_2D的条件下具有最大偏好分值的近似最优解即

${W_{L}}^{*} = ρ^{*} = \underset{ρ \in P}{MAX} {AGREE (ρ, PREF)}$

$AGREE (ρ, PREF) = \underset{(A, B : ρ (A) < ρ (B))}{Σ} PREF (A, B)$

其中ρ是图像所有对象的一个层次序列，P是所有可能的层次序列的集合，ρ^*是最优的层次序列，在序列ρ中，对象A在对象B的前面时或A遮挡B时，有ρ(A)＜ρ(B)。对任意一个层次序列，其偏好分值AGREE(ρ，PREF)为所有满足ρ(A)＜ρ(B)。性质的遮挡关系的PREF偏好分值之和。这样我们将如何求解最优层次结构转换为寻找最大偏好分值的层次序列。

利用层次排序推理算法，在带权完全有向图上求解出图像场景的层次结构。分析本发明所解决问题的特点，由于图像场景中的对象不会过于繁杂，所以本发明采用了一种简单而快速有效的枚举全排列算法。其过程如下：给定图结构G＝<V，E>，其中V是顶点集合，E是边集合，得到V中所有对象的全排列集合P；对于P中每一个序列，其偏好分值 π(ρ)＝∑_{(A，B∈V)∩(A≠B)}PREF(A，B)；令π(ρ^*)＝argmax_ρ∈P(π(ρ))，ρ^*就是我们要求解的最优层次结构W_L^*。推理过程的流程图如图5所示。

将用户感兴趣的对象加入到已分层场景的指定层次，根据对象间的前后层次正确处理遮挡，最终生成图像虚拟场景。

在场景分层的结果基础上，本发明实现将用感兴趣的对象加入到已分层场景的指定层次，根据对象间的前后层次正确处理遮挡，最终生成图像虚拟场景。如图6所示，用户利用交互式对象提取方法提取出感兴趣对象-牛，利用本发明的场景分层方法获得另一图像场景的层次结构(马/草地/树木)，将牛加入到该场景时，用户指定牛的层次为第1层，这样在生成的图像虚拟场景中，马为第0层，牛为第1层，草地为第2层，树木为第3层，并根据对象间的层次关系正确处理遮挡，最终获得融合较好的图像虚拟场景。

以上所述仅为本发明的一些基本说明，依据本发明的技术方案所做的任何等效变换，均应属于本发明的保护范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于分类器的图像场景分层与对象遮挡处理方法 [P] . 中国专利： CN102509119B . 2014.03.05
2. 一种基于分类器的图像场景分层与对象遮挡处理方法 [P] . 中国专利： CN102509119A . 2012-06-20
3. AN APPARATUS FOR DETERMINING A CLASSIFIER FOR IDENTIFYING OBJECTS IN AN IMAGE, AN APPARATUS FOR IDENTIFYING OBJECTS IN AN IMAGE AND CORRESPONDING METHODS [P] . EP3893146A1 . 2021-10-13

机译：一种用于确定用于识别图像中对象的分类器的装置，用于识别图像中对象的装置和相应的方法
4. A method of learning a rejector by constructing a classification tree using a training image, and detecting an object on a test image using the rejector [P] . 日本专利： JP6345830B2 . 2018-06-20

机译：一种通过使用训练图像构造分类树并使用拒绝器检测测试图像上的对象来学习拒绝器的方法
5. IMAGE PROCESSOR, IMAGE PROCESSING METHOD, PROGRAM, AND SHIPPING OBJECT SORTING DEVICE [P] . 日本专利： JP2010152691A . 2010-07-08

机译：图像处理器，图像处理方法，程序和运输对象分类装置