首页> 中国专利> 一种基于对比学习的关系型深度聚类方法

一种基于对比学习的关系型深度聚类方法

摘要

本发明公开了一种基于对比学习的关系型深度聚类方法,包括:对原始图像数据进行增强处理,得到相应的增强图像数据;将原始图像数据和增强图像数据导入神经网络,将输入图像数据经过层次化的非线性映射,分别得到分配概率矩阵;根据原始图像数据和增强图像数据的分配概率矩阵计算得到原始图像数据和增强图像数据的结构关系矩阵;构建总损失函数。本发明能够获得更多的正向鉴别特征,减小聚类嵌入的类内方差,从而获得更好的聚类结果。

著录项

  • 公开/公告号CN114972832A

    专利类型发明专利

  • 公开/公告日2022-08-30

    原文格式PDF

  • 申请/专利权人 南京航空航天大学;

    申请/专利号CN202210695428.7

  • 发明设计人 王立松;许洁;刘绍翰;

    申请日2022-06-17

  • 分类号G06V10/762(2022.01);G06V10/74(2022.01);G06V10/774(2022.01);G06V10/82(2022.01);G06N3/04(2006.01);G06N3/08(2006.01);

  • 代理机构南京钟山专利代理有限公司 32252;

  • 代理人徐燕

  • 地址 211106 江苏省南京市江宁区将军大道29号

  • 入库时间 2023-06-19 16:33:23

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-16

    实质审查的生效 IPC(主分类):G06V10/762 专利申请号:2022106954287 申请日:20220617

    实质审查的生效

说明书

技术领域

本发明涉及图像无监督聚类技术领域,具体而言涉及一种基于对比学习的关系型深度聚类方法。

背景技术

近年来,在社交媒体平台、医学图像等领域产生了大量的视觉内容。人们每天可以很容易地收集数千张图像数据,其中大多数是没有标记的,这严重限制了它们在许多场景下的适用性。手动标记这些数据非常昂贵和耗时,比如著名的IMAGENET数据集,仅仅其标注工作就进行了三年的时间。超高的成本必然会给这些数据的共享和使用带来巨大的挑战,同时也导致了人们对于以无监督的方式有效地管理和使用如此大的数据量的需求。

聚类是一项基本的无监督学习方法,传统的聚类方法,如K-Means、光谱聚类、非负矩阵分解聚类等,被广泛应用于各种任务。然而,这些方法只关注或过多的关注局部的、像素级的信息,忽略了图像更高层次的语义信息,这大大限制了它们的性能。

深度学习在近年来发展势头非常迅猛,在各种计算机视觉任务中都取得了显著的成果。虽然大多深度学习模型的优异效果都得益于昂贵且高质量的标签的监督,但其在特征提取和表示方面所展现的令人惊愕的潜力依旧不能被忽视,因此越来越多的研究者将深度学习应用到聚类工作中。DCN将K-Means应用于由自动编码器产生的潜在表示,同时最小化重构损失和K-Means聚类损失。而DEC选择舍弃解码器,只使用编码器来计算潜在的表示,通过作者提出的聚类损失同时学习编码器和聚类中心。然而,这些基于自动编码器的聚类方法一方面会学习到过多的底层信息,包括背景或纹理等,使得它们只在MNIST这样的简单数据集上有效,而无法在集群级别上计算样本之间适当的相似度。另一方面,特征提取和聚类分离会导致错误在交替训练中不断积累和传播,从而使得结果次优。

最近的研究将重点放在如何以端到端的方式学习表示和执行聚类。IIC使用图像及其随机增强后的图像组成数据对来训练模型学习聚类结果一致性;PICA通过最大化分区置信度来学习语义上最可信的聚类解决方案;CC创造性的提出“标签作为表示”的思想,显式地执行实例级和聚类级的对比学习。这类方法将图像数据看作实例,每个实例分别对应一个类,使用数据增强构建数据对,利用最大化互信息的方式从中学习实例表示一致性和聚类表示一致性。其聚类结果往往依赖于分离较多的负数据对和聚集较少的正数据对,将重点放在区别不同的实例,扩大类间方差上。尽管学习不同图像之间的区别有助于模型区分来自不同语义类的图片,但在大多数的方法中同属一类的不同图像被视为“负对”彼此远离,导致聚类嵌入的类内方差较大,违背了“良好的聚类嵌入应该具有较小的类内方差和较大的类间方差”的初衷。另外,类内方差变大会给模型带来不稳定性,造成误差的积累。

发明内容

本发明针对现有技术中的不足,提供一种基于对比学习的关系型深度聚类方法,在样本级别和聚类级别的对比损失之外,增加一种新的损失函数来惩罚多个样本的结构关系之间的差异,这种损失关注的是多个输出数据之间的结构关系一致性而不是单个数据对本身,将其与双重对比损失结合,可以获得更多的正向鉴别特征,减小聚类嵌入的类内方差,从而获得更好的聚类结果。

为实现上述目的,本发明采用以下技术方案:

一种基于对比学习的关系型深度聚类方法,所述关系型深度聚类方法包括以下步骤:

S1,对原始图像数据x

S2,将原始图像数据x

S3,根据原始图像数据x

S4,构建总损失函数

为优化上述技术方案,采取的具体措施还包括:

进一步地,步骤S2中,数据增强函数包括随机裁剪、水平翻转、色彩抖动和灰度化四种类型数据增强函数中的多种或者全部。

进一步地,步骤S2中,步骤S2中,采用ResNet34作为骨干网络,对输入的原始图像数据x

进一步地,步骤S3中,采用空间中的欧氏距离、角度作为原始图像数据x

进一步地,步骤S4中,步骤S4中,实例表示损失函数

A41,给定一批大小为N的原始样本集x={x

A42,对于任意原始图像样本x

A43,采用非线性MLPg(·)将原始样本集x和增强样本集x′映射到概率分配空间中,得到的概率分配被视为实例的特征表示u=g(f

A44,根据下述公式计算得到余弦相似度,将余弦相似度作为评价正样本对的分配概率是否保持一致性的指标:

其中,||·||

A45,根据InfoNCE,实例表示损失函数

其中,τ>0是温度参数,u

进一步地,步骤S4中,步骤S4中,聚类表示损失函数

B41,假设原始图像及其增强图像对应的输出概率分配矩阵分别为V=[v

B42,将被归为同一类的聚类视为正类对,其他聚类视为负类对;

B43,使用余弦距离来衡量聚类表示对之间的相似性:

B44,对于温度参数τ,聚类表示损失函数

式中,τ>0,k,m=1,2,...,C,k≠m。

进一步地,步骤S4中,步骤S4中,关系表示损失函数

C41,使用空间中的欧氏距离作为原始图像x

其中,μ是距离的标准化因子,u

C42,将μ设置为每个batch的数据对集合B中所有数据对之间的平均距离,采用下述公式计算μ的取值:

式中,|B|是数据对集合B中的数据对总数;

C43,关系表示损失函数

其中,l

本发明的有益效果是:

本发明的基于对比学习的关系型深度聚类方法,数据样本之间的距离可以视为他们之间结构关系(下面简称为关系),由此可以分别得到原始样本和增强样本之间的结构关系;通过约束原始样本关系与增强样本关系之间的差异,提高模型对于同一批样本的输出相似的关系矩阵的能力,可以提高模型的鲁棒性。另外,将关系表示损失给模型来带了更多的正数据对信息和约束,将其与双重对比损失结合,可以获得更多的正向鉴别特征,减小聚类嵌入的类内方差,从而获得更好的聚类结果。

附图说明

图1是本发明实施例的基于对比学习的关系型深度聚类方法流程图。

图2是样本对、类别对及结构关系对之间的差别示意图,图2(a)是样本对之间的差别示意图,图2(b)是类别对之间的差别示意图,图2(c)是结构关系对之间的差别示意图。

图3是本发明实施例的关系结构一致的对比学习框架图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。

需要注意的是,发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。

图1是本发明实施例的基于对比学习的关系型深度聚类方法流程图。参见图1,该关系型深度聚类方法包括以下步骤:

S1,对原始图像数据x

S2,将原始图像数据x

S3,根据原始图像数据x

S4,构建总损失函数

对比学习的目标在于最大化正对之间的相似性而最小化负对之间的相似性。其中一项非常重要的任务在于如何设计正负数据对来满足聚类任务的要求,即相似的样本相互靠近而不同的样本相互远离。

针对对比学习更加关注区分不同实例,而忽略类内表现的问题,提出一种基于对比学习的关系型深度聚类方法,同时利用实例特征表示、类别表示和关系表示进行聚类,图2是样本对、类别对及结构关系对之间的差别示意图。

参见图3,受到SimCLR的启发,使用数据增强来构建数据对作为输入。SimCLR方法全面展示了不同的增强策略对于下游任务性能的影响,本发明选择随机裁剪、水平翻转、色彩抖动和灰度化这四种类型的数据增强方法。具体来说,给定一个原始数据x

图3中线框部分展示了所使用到的三种损失。在样本级别,最小化原始图像与增强图像之间的相似度,保证原始图像及其增强的特征表示一致性;在聚类级别,最小化原始类与增强类之间的相似度,保证原始图像及其增强的分配一致性(即原始类与增强类之间的聚类表示一致性);在关系级别,最小化原始结构关系与增强结构关系之间的相似度,保证原始图像及其增强的关系表示一致性。三种损失共同训练,有助于形成良好的、更鲁棒的聚类。下面将详细介绍模型中涉及的几种损失函数。

(1)实例表示损失

基于对比学习的思想,我们将原始图像及其增强视为正对,而将原始图像与其他图像的增强视为负对。形式化来说,给定一批大小为N的原始样本x={x

为了减少对比学习所带来的信息损失,没有直接使用神经网络f

其中,||·||

根据InfoNCE,实例级别的损失就可以定义为:

其中,τ>0是温度参数。

(2)聚类表示损失

当将某一数据样本投影到维数等于聚类数C的空间时,其特征的第j个元素可以解释为该样本属于第j个类别的概率,特征向量相应地表示其软标签。形式上,与样本级别类似,假设原始图像及其增强图像对应的输出概率分配矩阵分别为V=[v

相应地,对于温度参数τ,聚类级别的损失就可以定义为:

(3)关系表示损失

所说的关系是指不同样本之间的结构关系。当高维的数据投影到不同低维空间当中时,样本之间的结构关系应该保持一致。结构关系的表示方法可以有多种,如距离、角度等等。为方便起见,使用空间中的欧氏距离作为两图像之间的关系表示:

其中,μ是距离的标准化因子。

为了关注其他样本对之间的相对距离,将μ设置为每个batch的数据对集合B中所有数据对之间的平均距离,采用下述公式计算μ的取值:

不同增强下的同一批图像,其数据点的距离结构关系应该是一致的。基于此,设计新的损失函数:

其中,l

那么,综合以上三种损失的总损失函数可以写成:

其中,α为权重参数。

实例

本实例使用PyTorch1.4来完成所有的实验,并用Adam进行优化,设置学习速率为固定值0.003。对于模型中涉及到的超参数,将其设置为固定值,即温度参数τ=0.5,权重参数α=0.004。在实验中,每个批次的样本被重复3次,并使用相同的数据增强方式。实验使用Nvidia TITAN RTX 24G将模型从头开始训练200个epoch。

以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号