首页> 中国专利> 一种基于有监督显著性检测的目标跟踪方法

一种基于有监督显著性检测的目标跟踪方法

摘要

本发明公开了一种基于有监督显著性检测的目标跟踪方法,包含:将当前帧的搜索区域分割为超像素并提取目标和背景的超像素特征,利用SVM学习目标的判别式表观模型。每来新一帧的图像,对搜索区域进行超像素分割,利用基于图模型的流形排序进行第一阶段的显著性检测。根据判别式表观模型计算新一帧图像中每个超像素属于目标的概率,调整分类结果并结合第一阶段的显著性检测选取随机游走的种子点,通过随机游走得到第二阶段显著图。将显著图与分类结果加权得出置信图,对置信图进行处理后用积分图法估计目标新的位置和尺度。本发明能够有效处理快速运动和形变等问题,从而实现鲁棒的跟踪。

著录项

  • 公开/公告号CN106997597A

    专利类型发明专利

  • 公开/公告日2017-08-01

    原文格式PDF

  • 申请/专利权人 南京大学;

    申请/专利号CN201710173134.7

  • 发明设计人 杨育彬;朱尧;朱启海;毛晓蛟;

    申请日2017-03-22

  • 分类号G06T7/162(20170101);G06T7/194(20170101);G06T7/254(20170101);

  • 代理机构32237 江苏圣典律师事务所;

  • 代理人胡建华;于瀚文

  • 地址 210023 江苏省南京市栖霞区仙林大道163号南京大学

  • 入库时间 2023-06-19 02:53:54

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-06-25

    授权

    授权

  • 2017-08-25

    实质审查的生效 IPC(主分类):G06T7/162 申请日:20170322

    实质审查的生效

  • 2017-08-01

    公开

    公开

说明书

技术领域

本发明涉及计算机视觉领域,更具体地,涉及到一种基于有监督显著性检测的目标跟踪方法。

背景技术

目标跟踪作为计算机视觉领域的一个重要研究方向,目前已受到了广泛的关注。该技术在安全监控、无人驾驶和军事防御等领域具有宽广的应用前景。尽管目前已经存在着相当数量的目标跟踪方法,但这些方法往往在光照变化、物体形变、快速运动和严重遮挡情况下不稳定甚至失效。因此,提出一种有效的目标跟踪算法具有重要的应用价值和现实意义。

目标跟踪近几年发展很快,有效的目标建模对跟踪有着极其重要的意义。为了设计鲁棒的外观模型,能够可靠的描述目标外观时空特点的视觉表示是必须的。一些研究采用诸如像素灰度值的低层视觉线索进行跟踪,尽管这种视觉线索在特征跟踪和场景分析等领域取得了理想的应用效果,由于缺少图像的结构化信息使其在跟踪领域受到了限制。而中层的表示可以保留图片结构,同时比图片块更加灵活,超像素作为流行的中层线索之一,在近年来得到越来越多的关注和应用。尽管以上跟踪算法取得了不错的效果,但都独立的对待每一个超像素,而忽略了超像素之间的空间结构关系。为此,基于图的方法被提出,在图片分割和显著性检测中基于图的方法被广泛应用,在目标跟踪中相对关注较少。

另一方面,表观模型是跟踪问题的重要组成部分,许多基于boosting,MIL,SVM的判别式模型得到不断发展,但这些方法多是用矩形框表示目标,通常采用全局外观模型,尽管这样可以应对一定程度的局部形变,在跟踪一些发生剧烈形变的非刚体时并不合适。

发明内容

发明目的:针对现有技术中存在的问题,本发明提供一种基于有监督显著性检测的目标跟踪方法。

为了解决上述技术问题,本发明公开了一种基于有监督显著性检测的目标跟踪方法,包含如下步骤:

步骤1:输入视频,在视频的第一帧中,对人工标记目标区域扩展后进行超像素分割,以分割后的大量超像素为训练样本训练,构建表观模型;

步骤2:获取视频的下一帧,以前一帧的目标位置为中心定义搜索区域,并对搜索区域进行超像素分割,构建以超像素为顶点的无向加权图;

步骤3:基于步骤2得到的超像素分割和无向图,分别选取搜索区域四个边界的超像素节点作为流行排序的种子节点进行排序,得到第一阶段每个超像素节点的显著性;

步骤4:基于步骤1得到的表观模型,对步骤2得到的超像素进行分类,并对分类结果做调整;

步骤5:基于步骤4得到的分类结果和步骤3得到的第一阶段的每个超像素节点的显著性,选取随机游走的前景和背景种子节点,计算得到第二阶段每个超像素节点的显著性;

步骤6:基于步骤5得到的的第二阶段每个超像素节点的显著性和步骤4得到的分类结果构建搜索区域的置信图;

步骤7:基于步骤6得到的置信图,生成大量的候选矩形框,利用积分图法计算置信度最大的候选矩形框并确定当前帧的目标状态;

步骤8:基于步骤4得到的分类结果和步骤7得到的当前帧的目标状态更新表观模型的训练样本,重新学习目标的局部表达;

步骤9:判断当前帧是否为视频的最后一帧,若是则结束;否则转入步骤2。

其中步骤1包括:

输入视频,获取视频第一帧,对以目标为中心,高和宽为目标λ倍的区域采用SLIC(simple lineariterativeclustering,简单线性迭代聚类算法)算法进行超像素分割,然后提取每个超像素的颜色特征和中心位置特征,将所有像素均在目标框内的超像素标记为正类,否则标记为负类,利用SVM(supportvectormachine,支持向量机)进行训练得到基于超像素的表观模型。

步骤2包括:

获取视频下一帧,以前一帧目标位置为中心,前一帧高和宽的λ倍作为当前的搜索区域,对此区域采用SLIC算法进行超像素分割,将得到的n个超像素表示为集合Z,Z={z1,z2,...,zn},zn表示第n个超像素,以超像素为顶点构建无向加权图G,G=(V,E),边eij∈E连接相邻的超像素zi,zj,权重wij为相邻超像素的相似度,wij定义为:

其中,σ为控制权重强度的常量,ci和cj分别表示超像素zi的特征向量和超像素zj的特征向量,采用CIELAB颜色空间(基于非线性压缩的CIEXYZ色彩空间坐标,L表示亮度,A和B表示颜色对立维度)的平均值,Z*是归一化系数;

图G的邻接矩阵表示为W=[wij]n×n,对角矩阵为D,其中对角元素定义为在此基础上定义图G的拉普拉斯矩阵Ln×n。在图G中,每个超像素不仅和其相邻的超像素相连,还与同相邻超像素有共同边界的超像素相连。另外将图中上下左右4个边界的超像素相连形成闭环。

步骤3包括:

以步骤2得到的超像素Z={z1,z2,...,zn}为节点,构建流形排序的排序函数F=[f1,f2,...,fn]T,F(i)=fi表示超像素节点zi的排序得分。给定当前帧的超像素和构建的图G,每个超像素作为一个节点,排序函数定义为:F=(D-αW)-1Y,其中,W为图G的邻接矩阵,向量Y=[y1,y2,...,yn]T表示初始节点的状态,yi=1表示种子节点,yi=0表示非种子节点。分别将搜索区域边界的超像素作为流形排序的种子点,通过F进行排序得到第一阶段的显著图。

步骤4包括:

根据基于超像素的表观模型,对视频当前帧中的每个超像素利用SVM进行分类,每个超像素产生一个类标,第i个超像素zi的类标记为l(zi),i=1,2,...,n,得到分类结果后,对每个超像素zi和它的邻接超像素调整zi的类标。

步骤5包括:

对超像素集合Z={z1,z2,...,zn},分别用代表随机游走的种子节点和待标注的非种子节点。定义种子节点的标签函数为Q(zi)=k,k∈Z,0<k<=2,令表示节点zi属于类标k的概率向量,分为其中等于时表示节点zi是种子节点,等于时表示节点zi是非种子节点,当Q(zi)=k时,对应中的值为1,否则为0。最优的pk可以通过最小化狄利克雷积分获得:

其中,L为步骤2中的拉普拉斯矩阵,LM、B、LU为L分解结果,对求导得到最优解

将步骤3第一阶段显著图中显著值低于平均值的超像素作为背景种子节点,步骤4中分类结果为正的超像素作为前景种子节点,即目标节点。将种子节点加入其中k=1表示目标,k=2表示背景,由公式计算得到非种子节点属于类标k的概率与结合得到pk,p1即为每个节点属于目标的概率,将概率值对应到每个超像素节点zi得到第二阶段显著图Cs(zi)。

步骤6包括:

利用步骤4得到的分类结果构建二值图Ct(zi),其中分类结果为正的节点取值1,否则取0。将其与步骤5中的第二阶段显著图Cs(zi)结合,得到最终的置信图,最终的置信图为Cf(zi)=ω1Cs(zi)+ω2Ct(zi),其中,权重ω1=0.3,ω2=0.8,其中每个超像素的置信值表示其属于目标的概率,另外,像素的置信值等于其所属超像素的置信值。

步骤7包括:

根据置信图,在每个像素的置信值上减去阀值t=θ*max(Cf(zi)),一般取t=0.1*max(Cf(zi)),使得目标和背景的对比度增大,接着用滑动窗口生成大量用于描述目标位置和大小的候选矩形框{X1,X2,...Xn},目标的高、宽取上一帧高、宽的0.95倍、1倍和1.05倍,共9组高、宽对目标位置进行遍历搜索,为了加速计算过程,采用积分图法快速计算每个候选矩形框的得分,并选取得分最高的候选矩形框以最终确定目标所在的位置和大小,其中的得分为矩形框中全部像素的置信值之和。

步骤8包括:

根据步骤4得到的分类结果,用属于目标的正类和步骤7中得分最高候选矩形框外的超像素做为负类更新基于超像素的表观模型。

步骤9包括:

判断当前帧是否为视频的最后一帧,若是则结束;否则转入步骤2。

本发明针对计算机视觉领域中的目标跟踪方法,本发明具有如下特征:1)本发明在采用基于中层视觉线索的分类器作为表观模型的基础上,不仅考虑了相邻帧间超像素之间的关系,还考虑了当前帧中超像素间的空间关系;2)本发明用求得的置信图做进一步的目标检测,相比于多数从原图像以矩形框提取候选图像块做最大后验估计的算法,采用置信图求目标的状态可以更好模拟决策框。

有益效果:本发明利用基于超像素的图结构作为视觉表示来引入空间信息,结合基于超像素的判别式表观模型,以显著性检测为基础,通过强化目标与背景之间的显著性差异来检测目标,从而更好的适应目标的快速运动、局部遮挡和形变,实现鲁棒的跟踪。本发明实现了高效、准确的目标跟踪,因此具有较高的使用价值。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述或其他方面的优点将会变得更加清楚。

图1为本发明的方法执行步骤示意图。

图2为超像素分割示意图。

图3a~图3d为本发明快速运动情况下跟踪效果示例图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

如图1所示,本发明公开了一种基于有监督显著性检测的目标跟踪方法,包含如下步骤:

步骤1:在视频的第一帧中,将人工标记目标区域扩展后进行超像素分割,以分割后的大量超像素为训练样本,采用SVM训练、构建表观模型,学习出目标的局部表达;

步骤2:获取视频的下一帧,以前一帧的目标位置为中心定义搜索区域并对搜索区域进行超像素分割,构建以超像素为顶点的无向加权图;

步骤3:基于步骤2得到的超像素分割和无向图,分别选取搜索区域四个边界的超像素节点作为流行排序的种子节点进行排序,得到第一阶段每个超像素节点的显著性;

步骤4:基于步骤1得到的表观模型,对步骤2得到的超像素进行分类,并对分类结果做调整;

步骤5:基于步骤4得到的分类结果和步骤3得到的第一阶段的每个超像素节点的显著性,选取随机游走的前景和背景种子节点,计算得到第二阶段每个超像素节点的显著性;

步骤6:基于步骤5得到的的第二阶段每个超像素节点的显著性和步骤4得到的分类结果构建搜索区域的置信图;

步骤7:基于步骤6得到的置信图,生成大量的候选,利用积分图法计算置信度最大的候选作为当前帧的目标状态;

步骤8:基于步骤4得到的分类结果和步骤7得到的当前帧的目标状态更新表观模型的训练样本,重新学习目标的局部表达;

步骤9:判断当前帧是否为视频的最后一帧,若是则结束;否则转入步骤2。

其中步骤1包括如下步骤:

获取视频第一帧,对以目标为中心,高和宽为目标3倍的区域采用SLIC算法进行超像素分割,然后提取每个超像素的HSI颜色直方图和中心位置特征,将所有像素均在目标框内的超像素标记为正类,否则标记为负类,得到训练集并利用SVM进行训练。

步骤2包括如下步骤:

获取视频下一帧,以前一帧目标位置为中心,高宽的3倍作为当前的搜索区域,对此区域采用SLIC算法进行超像素分割,如图2所示,得到n个超像素并作为图中的节点,将得到的超像素表示为Z={z1,z2,...,zn}。以超像素为顶点构建无向加权图G=(V,E),边eij∈E连接相邻的节点zi,zj,权重wij为相邻节点的相似度。wij定义为:

其中,ci和cj表示2个节点zi和zj的特征向量,采用CIELAB颜色空间的平均值,Z*是归一化系数。

图G的邻接矩阵表示为W=[wij]n×n,对角矩阵为D,其中对角元素定义为在超像素图G中,每个超像素不仅和其相邻的超像素相连,还与同相邻超像素有共同边界的超像素相连。另外将图中上下左右4个边界的超像素相连形成闭环。定义图G的拉普拉斯矩阵Ln×n,具体的,Lij=di(i=j),若zi与zj相邻,Lij=-wij,其余元素均为0。

步骤3包括如下步骤:

构建流形排序的排序函数F=[f1,f2,...,fn]T,F(i)=fi表示超像素节点zi的排序得分。给定当前帧的超像素和构建的图G,每个超像素作为一个节点,排序函数定义为:F=(D-αW)-1Y,其中,W为图G的邻接矩阵,向量Y=[y1,y2,...,yn]T表示初始节点的状态,yi=1表示种子节点,yi=0表示非种子节点。分别将搜索区域边界的超像素作为流形排序的种子点,通过F进行排序得到第一阶段的显著图:

其中,Ft,Fb,Fl,Fr分别表示搜索区域图像上下左右4个边界的超像素作为种子点的排序结果,表示将F标准化。

步骤4包括如下步骤:

首先,根据基于超像素的表观模型,对当前帧中的超像素zi,i=1,2,...,n利用SVM进行分类,结果记为l(zi)。然后,对每个超像素zi和它的邻接超像素调整zi的类标为其中Ni为zi邻接超像素的个数,sgn()为符号函数。

步骤5包括如下步骤:

对超像素集合Z={z1,z2,...,zn},分别用代表随机游走的种子节点和待标注的非种子节点。定义种子节点的标签函数为Q(zi)=k,k∈Z,0<k<=2,令表示节点zi属于类标k的概率向量,分为其中为种子节点,当Q(zi)=k时,对应中的值为1,否则为0。最优的pk可以通过最小化狄利克雷积分获得,具体的最优解

将步骤3得到第一阶段显著性结果中显著值低于平均值得超像素作为背景种子节点,步骤4得到分类结果为正的超像素作为前景种子节点,即目标节点。将种子节点加入其中k=1表示目标,k=2表示背景,由公式计算得到非种子节点属于类标k的概率与结合得到pk,p1即为每个节点属于目标的概率,将概率值对应到每个超像素节点zi得到第二阶段显著图Cs(zi)。

步骤6包括如下步骤:

利用步骤4得到的分类结果构建二值图Ct(zi),其中分类结果为正的节点取值1,否则取0。将其与步骤5得到的第二阶段显著图Cs(zi)结合,最终的置信图为Cf(zi)=ω1Cs(zi)+ω2Ct(zi),每个超像素的置信值表示其属于目标的概率。像素的置信值等于其所属超像素的置信值。

步骤7包括如下步骤:

首先,根据置信图,在每个像素的置信值上减去阀值t=0.1*max(Cf(zi)),使得目标和背景的对比度增大。其次,为了加速计算过程,由减去阀值的置信图构建相同大小的积分图。然后在积分图上生成大量用于描述目标位置和大小的候选矩形框{X1,X2,...Xn},计算每个候选矩形框中全部像素的置信值之和作为该候选矩形框的得分,并选取得分最高的候选矩形框作为当前帧的目标状态。

步骤8包括如下步骤:

根据步骤4得到的分类结果,用属于目标的正类和步骤7得到目标框外的超像素做为负类更新SVM分类模型。

步骤9包括如下步骤:

判断当前帧是否为视频的最后一帧,若是则结束;否则转入步骤2。

图3a~图3d是跟踪具有快速运动挑战的视频“Biker”时的跟踪效果示例,图3a~图3d分别表示视频图像的第68帧至第71帧,可以看出目标发生快速的运动,位置变化明显,本发明依然能够正确跟踪到目标,该图表现出本发明的目标跟踪方法对目标快速运动的较强适应能力。

本发明提供了一种基于有监督显著性检测的目标跟踪方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号