首页> 中国专利> 基于多源显著性和时空榜样适配的弱监督视频目标分割方法

基于多源显著性和时空榜样适配的弱监督视频目标分割方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了一种基于多源显著性和时空榜样适配的弱监督视频目标分割方法，属于特征学习和视频目标分割技术领域。该方法首先提取当前视频帧的空间显著性掩码和时间显著性掩码。训练多源显著融合网络对两者进行融合，得到时空显著掩码。随后计算时空契合度并将其进行排序；选择前N个时空契合度结果对应的视频帧作为时空榜样信息。将时空显著掩码作为分割目标伪标签，时空榜样结果作为适配目标，协同优化分割损失和时空榜样适配损失训练目标分割网络。本发明以学习的方法有效融合时空显著性先验知识，通过榜样适配机制提供可靠指导信息，使神经网络学习到相同类别视频中的一致性目标特征，在弱监督视频目标分割任务上取得了更加优秀的效果。

著录项

公开/公告号CN113283438A

专利类型发明专利
公开/公告日2021-08-20

原文格式PDF
申请/专利权人北京工业大学;
展开▼

申请/专利号CN202110322786.9
发明设计人段立娟;恩擎;王文健;乔元华;
展开▼

申请日2021-03-25
分类号G06K9/38(20060101);G06K9/46(20060101);G06K9/62(20060101);G06T7/11(20170101);G06T7/194(20170101);G06N3/04(20060101);G06N3/08(20060101);
代理机构11203 北京思海天达知识产权代理有限公司;
代理人张慧
地址 100124 北京市朝阳区平乐园100号
入库时间 2023-06-19 12:18:04

说明书

技术领域

本发明涉及深度学习领域和弱监督视频目标分割领域，尤其是涉及到弱监督视频目标分割中的特征表达方法，该方法能够在视频目标分割数据集上得到更加准确的分割结果。

背景技术

随着多媒体监控技术的发展，视频已经成为重要的多媒体信息载体。如何从海量的视频中提取有意义的信息，从而完成动态目标分析和场景解析，已经成为计算机视觉领域的研究热点之一。其中，能够提取视频对应的出色特征表达能够一定程度上帮助计算机对输入场景进行更合理的分析和理解。现有视频目标分割任务给各行各业带来便利的同时，也带来了一定的挑战。由于目前视频数据正在数以万亿级别增长，使用精细标记训练视频目标分割网络会消耗大量资源与时间。例如利用弱标签进行训练完成视频目标分割任务，从而应用于视频监控、场景解析。缺乏精细标签指导的弱监督视频目标分割在过去一些年在相关领域取得了广泛的研究和长足的进展。大量公司和研究机构纷纷投身于该研究方向中，这也意味着该任务已经成为了研究的主流。弱监督视频目标分割任务具有很高的应用价值，在视频监控方面可以帮助筛选显著运动目标；园区巡逻方面可以进行安全监控；在自动驾驶方面可以辅助驾驶。

人类视觉注意力能够被动地被自顶向下的信息所吸引，在视频中该自顶向下信息通常由感知共性目标所指导。与此同时，人类视觉注意力也能够主动的被自底向上的信息所吸引，在视频中该自底向上信息由视差和明显的运动信息所指导。启发于认知心理学，大脑皮层会自动选择相关的刺激信息而过滤不相关的信息。

弱监督视频目标分割旨在只有类别标签的情况下，确认视频序列中存在目标并得到其对应的分割掩码。该任务是视频任务中最为基础也是最为重要的任务之一。该任务遇到最大的挑战在于解决视频任务中出现的遮挡问题，背景杂乱问题以及外观差异性问题。本方法主要解决在仅有类别标签的指导下，进行弱监督视频分割任务。一些相关工作提出使用双路神经网络提取时空信息的方法，将双路网络的输入得分进行加权从而得到最终分割结果。但是上述双路模型在此应用中是分别进行训练的，这导致当空间显著性和时间显著性出现冲突时候模型不能做出正确判断。除此以外，缺少自顶向下的指导会导致当一帧的前景与另一帧的背景特征极为相似的情况下模型不能做出正确判断。其次，一些相关工作提出基于模版匹配的方法解决视频分割问题。虽然模版匹配的方法通过重识别或几种不同的特征匹配的方法解决视频目标分割问题，但是这些方法都需要精细标注为模版的指导才能完成该任务。

基于以上分析，两种对于真实场景的观测驱动了本方法的提出：1)每个源头数据的先验知识都是有选择性有用的。时间和空间数据能够对视频目标分割提供有价值的先验知识。但是直接简单融合时间先验当目标内部区域出现不规则运动时会彰显其其不足之处。2)主要的感兴趣目标会贯穿出现在整个视频序列中。该贯穿视频序列中的共性信息对于模型完成目标分割具有指导意义。因此，本方法所提出的模型启发于生物感受周围环境的感知能力。

发明内容

本发明的目的在于，针对上述已有时空信息和弱标签利用不充分导致视频表达能力的不足，提出了一种基于多源显著性和时空榜样适配的弱监督视频目标分割方法。本发明通过探索多源显著性作为自下而上的线索关注有吸引力区域；通过探索榜样适配机制作为自上而下的线索关注主动注意的区域，来解决弱监督视频目标分割问题。其中多源显著性模块整合了时空显著性信息有助于消除背景干扰并获得适当的被动注意力区域；时空榜样适配模块在弱监督视频目标分割中引入了榜样适配模块获得适当的主动注意力区域。与相关工作相比的优势在于本方法以更合理的方式利用时空知识和类别标签，将时空信息用于选择榜样样本而不是简单对不同视频进行分类。

实现本发明方法的主要思路包含三个阶段，分别为构造时空显著掩码训练目标、构造时空榜样训练目标和训练与测试弱监督目标分割模型。其中构造时空显著掩码训练目标与构造时空榜样训练目标阶段为弱监督目标分割模型构造训练目标做准备。具体来说，首先依次提取同一个视频中的当前帧与下一帧的两个视频帧图像，使用显著性检测网络提取当前视频帧的空间显著性掩码；随后提取视频相邻帧对应的光流，并使用显著性检测方法作用于光流得到时间显著性掩码。使用时间显著性掩码和空间显著性掩码训练多源显著融合网络，得到时空显著掩码训练目标。随后通过时空显著掩码获得时空契合度，并将其进行排序；选择其中前N个时空契合度高的视频帧作为该类别视频序列对应的时空榜样信息，从而得到时空榜样训练目标。最后通过协同优化分割损失、时空榜样适配损失以及辅助损失训练目标分割网络从而得到最终分割结果。

根据上述主要思路，本发明方法的具体实现包括包含三个阶段，分别为构造时空显著掩码训练目标、构造时空榜样训练目标和训练与测试弱监督目标分割模型，

构造时空显著掩码训练目标阶段包括：

步骤1：构造数据集

构造数据集，以视频帧和对应的弱标签构造训练弱监督视频目标分割图像集；

步骤2：提取空间显著性掩码

将视频帧输入显著性检测网络，提取视频帧对应的空间显著性掩码；

步骤3：提取时间显著性掩码

将当前视频帧和相邻视频帧输入光流提取网络，生成光流图。随后使用显著性检测方法作用于光流图，得到视频在当前时刻的时间显著性掩码；

步骤4：融合时间和空间显著性掩码，得到时空显著性掩码

使用步骤2得到的空间显著性掩码和步骤3得到的时间显著性掩码，训练多源显著融合网络，得到时空显著性掩码；

构造时空榜样训练目标包括：

步骤5：计算视频帧的时空契合度，选择部分视频帧作为时空榜样信息

计算步骤2得到的空间显著性掩码和步骤3得到的时间显著性掩码的契合度，并将其进行排序，选择同一个类别视频中前N个时空契合度高的多视频帧作为该类别视频序列对应的时空榜样信息；

步骤6：计算分割损失，更新弱监督视频目标分割网络参数

使用步骤4得到的时空显著性掩码、步骤5得到的时空榜样信息作为弱监督视频监督信息，计算分割损失和时空榜样适配损失训练弱监督目标分割网络。当分割损失和时空榜样适配损失同时达到最小时，弱监督目标分割网络训练完成；

步骤8：输出弱监督视频目标分割结果

针对输入视频帧将其输入弱监督视频目标分割网络进行前向推理，得到最终目标分割结果。

本发明与现有技术相比，具有以下明显的优势和有益效果：本发明提出了一种基于多源显著性和时空榜样适配的弱监督视频目标分割方法。该方法从人类易被视差与明显运动区域所被动吸引且易被共性信息主动吸引出发，通过同时考虑自顶向下与自顶向上信息，协同关注“吸引”与“注意”区域，从而得到理想的弱监督视频分割模型。训练出神经网络提取的特征在弱监督视频目标分割任务上取得了更加优秀的效果。

附图说明

图1为本发明所涉及方法总流程框图；

图2为本发明所涉及算法总架构图；

表1空间显著性网络各层结构配置表；

表2光流提取网络FlowNet2结构配置表；

表3时空显著融合网络各层结构配置表；

表4弱监督视频目标分割网络各层结构配置表；

表5特征提取网络网络各层结构配置表；

表6本发明与其他不同模型在DAVIS2016上分割效果对比；

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实例，并参照详细附图，对本发明进一步详细说明。但所描述的实施例子仅旨在便于对本发明的理解，而对其不起任何限定作用。图1是本发明的方法流程图，如图1所示，本方法包括以下几个步骤：

步骤1：构造数据集

本发明所述方法实施过程中的数据库来源于公开视频目标分割标准数据集DAVIS2016。其中DAVIS-2016由50个类别对应的高质量视频序列组成，共有3455个稠密掩码标注的视频帧。构造训练集的视频帧和其对应的弱监督标注为

步骤2：提取空间显著性掩码

输入尺寸为c*h*w的视频帧I

其中σ表示sigmoid函数，up表示双线性采样操作；本发明中涉及的所有空间显著性网络的选择没有限制，均可以采用任意卷积神经网络结构，附表1仅作为实施选用结构。

步骤3：提取时间显著性掩码

首先使用视频中当前帧I

其中

在此过程中，通过光栅扫描的方法遍历光流图O

其中P(y)表示到达y的路径，而表示从y到达x的边，

其中P

步骤4：融合时间和空间显著性掩码，得到时空显著性掩码

当前视频帧I

其中

步骤5：计算视频帧的时空契合度，选择部分视频帧作为时空榜样信息

首先计算

该结果被看作不同源显著区域之间的匹配程度。随后通过不同的视频类别cl来排序该类别中的匹配程度，最终获得排序后的集合

由此可见，每个类别视频帧对应相同的榜样。在得到时空榜样后，将每个榜样所对应的伪标签分解为前景和背景：

其中

步骤6：计算损失，更新弱监督视频目标分割网络参数

使用步骤4中的时空显著性掩码

首先，分割损失L

其中

其次，计算时空榜样适配损失L

随后，将生成的

其中，h表示视频帧从特征提取网络

其中N表示视频帧I

步骤7：输出弱监督视频目标分割结果

针对输入视频帧将其输入步骤6训练的弱监督视频目标分割网络

从附表6可以看出，以本发明提出的方法在视频目标分割数据集上有用比最新方法更好的分割效果。

表1

表2

表3

表4

表5

表6

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于多源显著性和时空榜样适配的弱监督视频目标分割方法 [P] . 中国专利： CN113283438A . 2021-08-20
2. 一种基于弱监督学习和视频时空特征的视频物体定位方法 [P] . 中国专利： CN110765921A . 2020-02-07
3. SALIENT OBJECT DETECTION METHOD AND SYSTEM FOR WEAK SUPERVISION-BASED SPATIO-TEMPORAL CASCADE NEURAL NETWORK [P] . 世界知识产权组织专利： WO2019136591A1 . 2019-07-18

机译：基于弱监督的时空级联神经网络显着对象检测方法和系统
4. WEAKLY-SUPERVISED TEXT-BASED VIDEO MOMENT RETRIEVAL VIA CROSS ATTENTION MODELING [P] . WO2021092632A3 . 2022-01-13

机译：基于弱监督的基于文本的视频时刻通过跨关注建模检索
5. WEAKLY-SUPERVISED TEXT-BASED VIDEO MOMENT RETRIEVAL [P] . WO2021092631A2 . 2021-05-14

机译：基于弱监督的基于文本的视频时刻检索