首页> 中国专利> 一种基于边缘场景的目标跟踪方法

一种基于边缘场景的目标跟踪方法

摘要

本发明公开一种基于边缘场景的目标跟踪方法,属于计算机视觉中的目标跟踪领域。为跟踪移动目标,根据利用跟踪序列预训练,在线跟踪微调的思想,选择MDNet为基础神经网络模型;图像视频数据采集和预处理;MDNet‑Tiny根据MDNet构建新的共享层,以实现图像视频特征提取;MDNet‑Tiny继承MDNet多分支的具有个人特点的全连接层fc6,每个分支负责对目标进行二分类;对所述基于边缘场景的目标跟踪方法进行性能评估,包括准确率和重合率,并在边缘端设备上进行移植部署。本发明利用协作设计的策略创建了MDNet‑Tiny,是一种基于MDNet的设计原则而设计的神经网络架构,再结合机器驱动的设计探索,创建出一个紧凑的网络,从而实现为任务量身而打造嵌入式的目标跟踪。

著录项

  • 公开/公告号CN114821387A

    专利类型发明专利

  • 公开/公告日2022-07-29

    原文格式PDF

  • 申请/专利号CN202210223646.0

  • 发明设计人 鞠虎;高营;田青;

    申请日2022-03-07

  • 分类号G06V20/40(2022.01);G06K9/62(2022.01);G06N3/04(2006.01);G06N3/08(2006.01);G06V10/774(2022.01);G06V10/82(2022.01);

  • 代理机构无锡派尔特知识产权代理事务所(普通合伙) 32340;

  • 代理人杨立秋

  • 地址 214000 江苏省无锡市滨湖区惠河路5号

  • 入库时间 2023-06-19 16:11:11

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-16

    实质审查的生效 IPC(主分类):G06V20/40 专利申请号:2022102236460 申请日:20220307

    实质审查的生效

说明书

技术领域

本发明涉及计算机视觉中的目标跟踪技术领域,特别涉及一种基于边缘场景的目标跟踪方法。

背景技术

CNN(Convolutional Neural Networks,卷积神经网络)最近被应用于各种计算机视觉任务,CNN如此巨大的成功主要归功于其在表示视觉数据方面的出色表现。对于跟踪问题来说,所有的跟踪目标,虽然类别各不相同,但其实他们应该都存在某种共性,这就需要网络去学习。然而,用跟踪数据来训练很难,因为同一个目标,在某个序列中是目标,在另外一个序列中可能就是背景,而且每个序列的目标存在相当大的差异,而且会经历各种挑战,比如遮挡、形变等等。

现有的很多训练好的网络主要针对的任务比如目标检测、分类、分割等的网络很大,因为他们要分出很多类别的目标。而在跟踪问题中,一个网络只需要分两类:目标和背景。而且目标一般都相对比较小,那么其实不需要这么大的网络,会增加计算负担。因此,对设计适合于边缘场景下使用的高效神经网络架构的具有重要意义。

发明内容

本发明的目的在于提供一种基于边缘场景的目标跟踪方法,以实现为任务量身而打造嵌入式的目标跟踪。

为解决上述技术问题,本发明提供了一种基于边缘场景的目标跟踪方法,包括:

步骤一,为跟踪移动目标,根据利用跟踪序列预训练,在线跟踪微调的思想,选择MDNet为基础神经网络模型;

步骤二,图像视频数据采集和预处理;

步骤三,MDNet-Tiny根据MDNet构建新的共享层,以实现图像视频特征提取;

步骤四,MDNet-Tiny继承MDNet多分支的具有个人特点的全连接层fc6,每个分支负责对目标进行二分类;

步骤五,对所述基于边缘场景的目标跟踪方法进行性能评估,包括准确率和重合率,并在边缘端设备上进行移植部署。

可选的,所述步骤二中,根据任务的目的,移动目标数据可以来自数据集,也可以从实际中构造自己需要的数据,从而为进行目标的跟踪做好数据储备。

可选的,所述MDNet中的共享层包含三层卷积层以及两层全连接层;所述MDNet-Tiny中共享层由投影-扩展-投影宏架构的模块组成的卷积层和两层全连接层组成。

可选的,所述投影-扩展-投影宏架构由以下部分组成:

一个1×1卷积投影层,将输出通道投射到一个维度较低的输出张量;

具有1×1卷积扩展层,将通道数扩展到更高的维度;

一个深度卷积层,执行空间卷积,并具有以下功能在来自扩展层的各个输出通道上安装不同的滤波器;

1×1卷积投影层,将输出通道投射到输出张量较低的位置上。

可选的,所述MDNet-Tiny中共享层的两层全连接层引入轻量级全连接注意力函数,在探索过程中,轻量级全连接注意力宏观架构由两个完全连接的层组成,这两个层分别是学习信道之间动态的、非线性的相互依存关系,并产生调制权重,通过信道乘法对信道进行重新加权;

所采用的轻量级全连接注意力函数FocalLoss定义如下:

FL(p)=a(1-p)rlog(p)

其中,p是不同类别的分类概率,r是大于0的值,a的取值范围为[0,1]间的小数,且a和r都是固定值。

可选的,所述MDNet中的共享层所包含的三层卷积层conv1,conv2,conv3中卷积核大小分别为7x7,5x5,3x3。

可选的,所述全连接层fc6是一个二分类层,一共有K个分支,K是训练时用的视频序列的个数,每次训练时只有对应该视频的fc6被使用,前面的层都为共享;并且在fc6-K层引入轻量级全连接注意力函数。

可选的,所述准确率通过检测窗口与标记目标窗口的重叠度进行度量,设标记目标窗口为A,检测窗口为B,则重叠度IOU计算公式如下:

其中,分子表示A与B窗口的重叠部分面积,分母表示A与B窗口的面积总和,IOU的值在[0,1]之间,同时IOU越接近1表示两个窗口重叠部分越多,定位准确度也就越好,反之则越差。

在本发明提供的基于边缘场景的目标跟踪方法中,由两部分组成,一部分是由投影-扩展-投影宏架构的模块组成组成的共享层,另一部分是引入轻量级全连接注意力函数的全连接层,每个分支负责对目标进行二分类。在训练时,使用用不同的视频序列来训练网络从而得到通用的共享层;在追踪一个新目标时,将预训练的共享层与全连接层相结合,构建一个新的网络图层,以适用于边缘场景下的目标跟踪。

附图说明

图1是MDNet-Tiny整体架构示意图;

图2是投影-扩展-投影宏架构示意图;

图3是全连接注意力示意图;

图4是IOU示意图;

图5是OTB数据集下3个不同视频下的目标追踪实验结果。

具体实施方式

以下结合附图和具体实施例对本发明提出的一种基于边缘场景的目标跟踪方法作进一步详细说明。根据下面说明和权利要求书,本发明的优点和特征将更清楚。需说明的是,附图均采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施例的目的。

本发明所述的一种适用于边缘场景的目标跟踪方法,其流程如图1所示,包含以下步骤:

S1:为了解决移动目标跟踪的问题,根据利用跟踪序列预训练,在线跟踪微调的思想,选择MDNet为基础神经网络模型;

S2:图像视频数据采集和预处理,根据任务的目的,移动目标数据采用OTB数据集,也可以从实际中构造自己需要的数据,从而为进行目标的跟踪做好数据储备;

S3:MDNet-Tiny根据MDNet构建新的共享层,以实现图像视频特征提取。

在MDNet中的共享层包含三层卷积层:conv1,conv2,conv3,以及两层全连接层:fc4,fc5。在卷积层conv1,conv2,conv3中卷积核大小分别为7x7,5x5,3x3,MDNet-Tiny中共享层由投影-扩展-投影宏架构的模块组成的卷积层和两层全连接层fc4,fc5组成。其中,投影-扩展-投影宏架构由如图2所示的部分组成:

一个1×1卷积投影层,将输出通道投射到一个维度较低的输出张量;

一个1×1卷积扩展层,将通道数扩展到更高的维度;

一个3×3深度卷积层,执行空间卷积,并具有以下功能在来自扩展层的各个输出通道上安装不同的滤波器;

一个1×1卷积投影层,将输出通道投射到输出张量较低的位置上。

MDNet-Tiny中共享层的两层全连接层fc4,fc5,引入了轻量级全连接注意力函数(Focal Loss),如图3所示,在探索过程中,轻量级全连接注意力宏观架构由两个完全连接的层组成,这两个层分别是学习信道之间动态的、非线性的相互依存关系,并产生调制权重,通过信道乘法对信道进行重新加权。

Focal Loss是在交叉熵损失函数基础上进行的修改,首先回顾二分类交叉上损失:

L=-ylog(y′)-(1-y)log(1-y′) (1)

其中,L是经过激活函数的输出,取值范围在[0,1]之间,y是标签,y′是不同类别的分类概率。由公式(1)可见普通的交叉熵对于正样本而言,输出概率越大损失越小;对于负样本而言,输出概率越小则损失越小,此时的损失函数在大量简单样本的迭代过程中比较缓慢且可能无法优化至最优。

本发明所采用的轻量级全连接注意力函数Focal Loss定义如下:

FL(p)=a(1-p)rlog(p) (2)

其中,p是不同类别的分类概率,r是大于0的值,a的取值范围为[0,1]间的小数,且a和r都是固定值。

S4:MDNet-Tiny继承MDNet多分支的具有个人特点的全连接层,每个分支负责对目标进行二分类。同样,在fc6-K层引入轻量级全连接注意力。fc6是一个二分类层,一共有K个(即K个不同的视频)。

为了学到不同视频中目标的共性,采用二分类的训练方式:假设用K个视频来做训练,一共做N次循环。每一个小批量的构成是从某一视频中随机采8帧图片,在这8帧图片上随机采32个正样本和96个负样本,即由某一个视频的128个框来构成。在每一次循环中,会做K次迭代,依次用K个视频的小批量图片来做训练,重复进行N次循环。优化器选择随机梯度下降法SGD进行训练,每个视频会对应自己的fc6层,以此训练来学得各个视频中目标的共性特征。

S5:对本专利的方法进行性能评估,包含准确率和重合率,并在边缘端设备上进行移植部署。其中,定位准确率可以通过检测窗口与标记目标窗口的重叠度(即Intersection-Over-Union,IOU)进行度量。设标记目标窗口为A,检测窗口为B,则IOU计算公式如下:

其中,分子表示A与B窗口的重叠部分面积,分母表示A与B窗口的面积总和,显而易见,IOU的值在[0,1]之间,同时IOU越接近1表示两个窗口重叠部分越多,定位准确度也就越好,反之则越差,IOU示意图如图4所示。实验结果如图5所示。

上述描述仅是对本发明较佳实施例的描述,并非对本发明范围的任何限定,本发明领域的普通技术人员根据上述揭示内容做的任何变更、修饰,均属于权利要求书的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号