首页> 中国专利> 一种基于保守激进协同学习的图像半监督语义分割方法

一种基于保守激进协同学习的图像半监督语义分割方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于保守激进协同学习的图像半监督语义分割方法，包括对于有标签数据采用传统监督训练方法训练图像语义分割模型，对于无标签数据采用保守激进协同学习方法进行模型的半监督训练；其中，所述保守激进协同学习方法同时训练两个分支。本发明中，实现了对大量无标签数据的有效、高效利用，基于“求同存异”的思想达到了“保守进化”和“激进探索”之间的协同，有助于智能系统环境感知模型训练的降本增效，具有较好的语义分割效果、鲁棒性和通用性，仅使用少量带标签数据即可达到有较高标注成本的监督方法的同等语义分割效果，能够部署并应用于各种智能系统，具有较高的应用价值。

著录项

公开/公告号CN114821053A

专利类型发明专利
公开/公告日2022-07-29

原文格式PDF
申请/专利权人中科领航智能科技(苏州)有限公司;
展开▼

申请/专利号CN202210444620.9
发明设计人朱凤华;范嗣祺;郑奎;沙尧尧;
展开▼

申请日2022-04-26
分类号G06V10/26;G06N20/00;G06T7/10;
代理机构杭州山泰专利代理事务所(普通合伙);
代理人周玲
地址 215000 江苏省苏州市吴江区东太湖生态旅游度假区(太湖新城)简村路100号苏州湾智慧信息产业园18层1801室
入库时间 2023-06-19 16:08:01

法律信息

法律状态公告日

法律状态信息

法律状态
2022-07-29

公开

发明专利申请公布

说明书

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于保守激进协同学习的图像半监督语义分割方法。

背景技术

图像语义分割是重要的计算机视觉问题，也是一种被广泛应用于智能系统环境感知的关键性基础技术，得益于深度监督学习的有效应用，目前先进的方法在有充足的像素级带标签数据可用于监督训练的情况下，可以达到良好的图像语义分割效果，能满足使用需求，而一旦带标签数据量不足时，模型预测的语义分割效果便欠佳，也即模型的效果很大程度上受到带标签数据量的制约，同时，目前像素级带标签数据的标注过程是相当耗时的，且成本较高，例如，对于高分辨率的城市道路场景图片，人工标注一张像素级样本的时长通常超过1.5小时，是区域级和图像级标注过程的15倍和60倍。因此，近年来大量研究工作着眼于：仅依托少量带标签数据，同时利用大量的无标签数据，以较小的标注成本达到较优的模型训练效果。由于该类研究具有显著的降本增效优势，因而倍受学术界和工业界关注，是近年来重要的计算机视觉研究方向和工程问题。

为达到利用大规模无标签数据的目标，近年来有很多面向图像语义分割的半监督学习方法被提出。基于最小化熵思想的方法期望模型在无标签数据上的预测结果具有较小的熵，也即模型能生成明确确定的预测结果。自训练(Self-Training)是这类方法的典型代表，它首先利用带标签数据进行监督性训练，然后通过训练得到的模型生成无标签数据的伪标签，再利用无标签数据和相应的伪标签对模型进行伪监督训练，实现进一步训练优化。基于一致性约束思想的方法致力于使得模型在面对多种扰动时仍可以保持预测结果的一致性，常见的扰动包括输入扰动(向输入图片的引入噪声或进行裁剪等图像变换)、特征扰动和网络模型扰动(如采用多分支模型或使用Dropout技术)。这类方法的效果很大程度上依赖于其所选择的扰动方式。值得注意的是，上述两类方法在实现时都基于伪监督，而伪监督标签由于生成自模型，其自身也不可避免地存在错误。针对该问题，一些近期的方法以模型的预测置信度作为标志对伪标签进行阈值筛选，但同时这也意味着数据的浪费，大比例的无标签数据将被筛出废弃，与利用大规模无标签数据的目标相左。这些方法总是受到质量和数量之前权衡问题的困扰。除预测置信度以外，多个预测结果之间的共识度是另一个标志。一些互学习(Matual Learning)方法基于此实现伪监督的生成或优化。老师-学生(Teacher-Student，T-S)和学生-学生(Student-Student，S-S)是两种典型的互学习模式。T-S中两个模型的不平等性可能会导致学生模型的优化方向错误和发展限制，而两个在S-S模式下训练的模型有潜在的模型耦合(Model Coupling)问题。

考虑到上述限制与不足，本发明针对已有方法的伪标签高质量与大数量不可兼得的关键性问题和实际使用需求，提出了一种基于保守激进协同学习的图像半监督语义分割方法。该方法同时训练两个分支，一个分支是保守的，利用高质量伪标签基于交集伪监督进行训练；另一个分支是激进的，利用大数量伪标签在并集伪监督下进行探索。两个分支使用异质知识(Heterogeneous Knowledge)进行伪监督训练，可以改善模型耦合问题。该方法实现了对大量无标签数据的有效高效利用，达到了保守进化和激进探索之间的协同，有助于智能系统环境感知模型训练的降本增效。其语义分割效果好，鲁棒性好，仅使用少量带标签数据即可达到有较高标注成本的监督方法的同等语义分割效果，具有较高的应用价值。

发明内容

为了解决上述背景技术中所提到的技术问题，而提出的一种基于保守激进协同学习的图像半监督语义分割方法。

为了实现上述目的，本发明提出了一种基于保守激进协同学习的图像半监督语义分割方法，包括以下步骤：

步骤S1，对于有标签数据采用传统监督训练方法训练图像语义分割模型；

步骤S2，对于无标签数据采用本发明提出的保守激进协同学习方法进行模型的半监督训练。

所述保守激进协同学习方法同时训练两个平行的图像语义分割分支，伪标签基于两个分支的预测结果的共识与分歧情况生成。其中，一个分支用于保守进化，另一个分支用于激进探索。保守分支采用本发明提出的交集伪监督(Intersection PseudoSupervision)进行训练，通过使用高质量的伪标签达到可靠性高的伪监督训练。激进分支采用本发明提出的并集伪监督(Union Pseudo Supervision)进行训练，通过使用由两分支预测结果并集生成的伪标签达到对分歧部分探索的目的。

所述两个平行的图像语义分割分支采用相同的网络结构，但采用不同的初始化参数。训练时，同时输入两张无标签图像数据X

对于输出

所述像素级伪标签生成方法是基于两个分支预测结果的共识与分歧情况的。对于像素p

其中

所述并集伪标签由上述共识部分伪标签L

步骤A1，基于两分支预测结果构建共识度矩阵

步骤A2，基于共识度矩阵M计算类别分歧度指标I。其中，对于类别j，其对应的类别分歧度指标为I

其中j∈[1,C]是语义类别下标。

步骤A3，基于类别分歧度指标I确定像素p

通过上述基于类别分歧度指标的伪标签确定方法可以实现对分歧部分伪标签L

在所述保守激进协同学习中，保守分支在交集伪标签的伪监督下进行训练，激进分支在并集伪标签的伪监督下进行训练。

所述保守激进协同学习方法中的两个平行的图像语义分割分支在训练时基于“求同存异”的思想，达到了保守进化和激进探索的协同。

考虑到噪声伪标签是难以避免的，也即自动生成的伪标签中总会存在错误标签，本发明进一步提出基于预测置信度的自适应动态损失函数以应对可信度低的伪标签。所述损失函数基于预测置信度对损失函数进行重加权，相比常见的基于预测置信度的阈值区分，本方法无需预定义阈值，且可以更为充分地利用无标签数据。保守分支中像素p

通过该动态权重，不确定性强的伪标签产生的影响被有效降低。基于此的动态重加权损失函数可被定义为

其中

上述基于预测置信度的自适应动态损失函数在本发明中用于无标签数据的伪监督训练，而对于有标签数据，语义分割网络采用传统的监督训练方法，使用交叉熵损失函数进行训练。

其中X

其中γ为权重值。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

本发明中，通过使用基于保守激进协同学习的图像半监督语义分割方法，训练的语义分割模型可以有效且高效地利用大量的无标签数据，通过基于“求同存异”的思想的半监督方式达到保守进化和激进探索之间的协同。本发明在使用同等数量的有标签数据时，可以通过使用大量无标签数据有效提升模型的图像语义分割效果；为达到同等语义分割效果，本发明对有标签数据的需求量大幅度降低，有助于智能系统环境感知模型训练的降本增效，具有较高的实际工程应用价值。

附图说明

图1示出了根据本发明实施例提供的一种基于保守激进协同学习的图像半监督语义分割方法的保守激进协同学习方法框架示意图；

图2示出了根据本发明实施例提供的一种基于保守激进协同学习的图像半监督语义分割方法的共识度矩阵示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1-2，本发明提供一种技术方案：本发明的一种基于保守激进协同学习的图像半监督语义分割方法，包括以下步骤：

步骤S1，对于有标签数据采用传统监督训练方法训练图像语义分割模型；

步骤S2，对于无标签数据采用本发明提出的保守激进协同学习方法进行模型的半监督训练。

所述保守激进协同学习方法同时训练两个平行的图像语义分割分支，伪标签基于两个分支的预测结果的共识与分歧情况生成。其中，一个分支用于保守进化，另一个分支用于激进探索。保守分支采用本发明提出的交集伪监督进行训练，通过使用高质量的伪标签达到可靠性高的伪监督训练。激进分支采用本发明提出的并集伪监督进行训练，通过使用由两分支预测结果并集生成的伪标签达到对分歧部分探索的目的。所述方法框架图如图1所示。

所述两个平行的图像语义分割分支采用相同的网络结构，但采用不同的初始化参数，在本实施例中所述网络结构为使用ResNet-50的Deeplabv3+。训练时，同时输入两张无标签图像数据X