首页> 中国专利> 一种基于自监督学习的新冠感染医学图像分类方法

一种基于自监督学习的新冠感染医学图像分类方法

摘要

一种基于自监督学习的新冠感染医学图像分类方法,属于图像分类技术领域,基于MAE自监督方法,并辅以自蒸馏学习,构建SSL‑Covid模型,SSL‑Covid模型通过自监督学习,从数据中自我学习到领域知识,并加之自蒸馏学习提升模型特征提取能力,对新冠感染分类提供辅助信息;将MAE引入该领域,并对其进行相应改进,加入了自蒸馏模块,构建了自监督学习新冠感染医学图像分类模型SSL‑Covid,旨在通过使用计算机断层扫描CT缩短COVID‑19患者的诊断时间,减少疾病传播的持续时间和数量以及为放射科医生诊断COVID‑19提供决策支持系统。本发明SSL‑Covid模型相比于MAE在CT图像的新冠病毒感染识别方面更有优势,并且很好地缓解了对于大规模数据需求的问题,提高了ViT在医学图像分类中的性能。

著录项

  • 公开/公告号CN116664904A

    专利类型发明专利

  • 公开/公告日2023-08-29

    原文格式PDF

  • 申请/专利权人 大连民族大学;

    申请/专利号CN202211675514.8

  • 申请日2022-12-26

  • 分类号G06V10/764(2022.01);G06V10/82(2022.01);G06N3/0464(2023.01);G06N3/0455(2023.01);G06N3/09(2023.01);G06N3/096(2023.01);G06T7/00(2017.01);

  • 代理机构大连智高专利事务所(特殊普通合伙) 21235;

  • 代理人李猛

  • 地址 116600 辽宁省大连市经济技术开发区辽河西路18号

  • 入库时间 2024-01-17 01:26:37

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-09-15

    实质审查的生效 IPC(主分类):G06V10/764 专利申请号:2022116755148 申请日:20221226

    实质审查的生效

  • 2023-08-29

    公开

    发明专利申请公布

说明书

技术领域

本发明属于图像分类技术领域,具体涉及一种基于自监督学习的新冠感染医学图像分类方法。

背景技术

新型冠状病毒感染(Corona Virus Disease2019,COVID-19)是一种高传染性疾病。高效快速地诊断新冠感染是阻断其蔓延并控制其传播的有效途径。当前的诊断技术(如:逆转录聚合酶链反应(RT-PCR),血清测试)是昂贵的,耗时的,且需求的实验环境较为严格,不易于在其他较为偏远地区实施。当下,COVID-19是一种传染性极强的疾病,可依据放射诊断学进行临床诊断。深度学习能够挖掘患者影像资料中隐含的丰富信息并完成不同阶段的病程分类。然而,海量的训练数据是训练一个优秀深度学习模型的重要条件之一。不幸的是,医学领域数据由于隐私、标记困难等问题导致的稀缺是种常见的现象,尤其是新冠感染的标注数据是极为缺少的。因此,我们引入掩码自编码器(Masked Autoencoder,MAE)直接在小规模目标数据集上进行预训练和微调。在此基础上,我们提出了一种新的模型(Self-Supervised Learning on COVID-19classification,SSL-Covid),除了对掩码的图像块进行重建损失计算之外,还进一步对编码器和解码器输出的潜在表示施加自蒸馏损失。额外的损失计算能够将解码器的全局注意所带来的知识迁移到只获取到局部注意的编码器上。我们的模型在包含2481张的SARS-COV-2-CT数据集上识别准确率达到97.78%,并进一步在包含746张的COVID-CT数据集上进行验证,其识别准确率达到81.76%。实验结果表明,本发明研究的深度学习模型和分类方法能够从稀有数据中有效挖掘新冠病毒感染特征,可作为辅助决策支持系统,提高COVID-19疾病的检测效率。

快速诊断新冠感染是阻断新冠感染蔓延有效途径之一。目前,逆转录聚合酶链反应(RT-PCR)被认为是诊断新冠感染的金标准。病人的快速增加和PCR检测结果的延迟及其对检测环境的要求,使得快速检测诊断新冠感染面临着极大的挑战。此外,RT-PCR有着高假阴性率,导致许多COVID-19阳性病例被诊断为阴性,带来更大的风险。特别是,有研究指出PCR检测的敏感性为71%,远低于有效遏制病毒传播的目标敏感性值。

通过计算机断层扫描(CT)的放射成像由于其可视化肺结构的能力,已成为一种有前途的替代诊断形式。相关研究表明,CT扫描图像被视为更好的新冠感染检测方法,相比于RT-PCR71%的敏感性,CT检测具有高达98%的敏感性。在新冠感染病例中,CT扫描图像呈现出一些特定的表现,包括双侧、外围或后方分布的多小叶磨玻璃影(GGO),主要分布于下叶,中叶较少。弥漫分布、血管增厚和细网状混浊是报告的COVID-19的其他常见特征。新冠感染和非新冠感染部分CT图像如图1-图2所示。然而,通过人工的方法去研究和判断扫描结果是非常耗时且容易产生误判。相比之下,深度学习可以从数据中自动挖掘特征,减少对人工判断的依赖性,可以更好地降低由于人为因素而对诊断结果造成的负面影响,这为提高诊断效率和降低误判率提供了一个良好的途径。

近年来,深度学习在计算机视觉和生物医学领域的成功应用,极大地刺激研究人员探究深度学习在CT图像上的应用。一些研究人员已经基于深度学习的方法在CT图像上进行了相关研究。通常来说,在生物医学领域,医学图像常用基于CNN的网络结构来进行分类(例如:ResNet)。其常用的做法时:首先,将图像编码为高级特征表示,然后通过网络来提取与图像的相关特征,通过对其特征或决策进行融合,最终对图像进行分类。在CNN的自动特征学习能力的推动下,基于深度神经网络的COVID-19分类得到了广泛的应用。

近几年来,随着深度学习的发展,自监督学习(Self-supervised learning,SSL)也受到了越来越多的关注。SSL旨在无标注的数据上通过自己设计辅助任务(Pretexttask)训练模型,其实是训练一个无监督表示学习模型,获得数据的通用表示或者面向特定任务的表示,之后针对下游任务进行微调。大量的研究学者证明,这种训练方式可以为下游任务提供更为有效的权重表示。此外,SSL也非常适合医学图像领域。到目前为止,监督学习仍然是许多医学图像分析的主要技术。然而,其依赖于耗时又费力的手工数据标注,这对于医学领域来说是个较为困难的工程,SSL能够很好的缓解这一问题。

基于上述分析,我们研究了一种基于掩码自编码器(Masked Autoencoder,MAE)的新冠感染医学图像分类任务的具有自蒸馏的自监督预训练模型。与通常的自监督方法不同,我们在其基础上加入了自蒸馏优化方法,并且额外引入了标签信息,使模型既能够知道其要重建的是什么概念,又指导自蒸馏提供更有效的信息增益给学生模型。通过将模型得出的结果与基于VGG19、ResNet101、DenseNet169、MAE和BEiT进行比较,对所提出技术的性能进行了评估。实验结果表明,该模型具有更好的特征学习能力。

发明内容

为了解决上述存在的问题,本发明提出:一种基于自监督学习的新冠感染医学图像分类方法,基于掩码自编码器MAE自监督方法,并辅以自蒸馏学习,构建SSL-Covid模型,SSL-Covid模型通过自监督学习,从数据中自我学习到领域知识,并加之自蒸馏学习提升模型特征提取能力,对新冠感染分类提供辅助信息;

整体模型框架分为两个阶段:预训练阶段和微调阶段,且这两个阶段都在目标数据集上进行,没有引入外部数据,预训练阶段由两个辅助任务构成:图像重建和自蒸馏建模,图像重建完成对掩码图像的重建任务,促进编码器更好地学习领域知识,自蒸馏建模进一步对前者施加蒸馏约束,以优化编码器的特征提取能力;

预训练完之后,将学习到的编码器的权重迁移到微调阶段,之后进行新冠感染的分类。

进一步地,一个视觉自注意力模型ViT是由patch嵌入层、位置嵌入层和Transformer Blocks组成;

Patch嵌入层:ViT是以序列为输入,patch将任何高维的数据转换为序列的形式,对于一张多模态图像

位置嵌入层:在patch嵌入处加入位置嵌入信息,标准的ViT采用1D可学习的位置嵌入,即可学习的位置嵌入

自注意力块Transformer Blocks:一个Transformer Block由多头注意力MSA、多层感知机MLP和层规范化LN交替组成;

首先将输入图像

S′

S

其中S

进一步地,带掩码的图像建模过程如下:MAE中的编码器使用的就是ViT中Transformer Block,首先将输入图像划分成不重叠的图像块

MAE中的解码器使用一个完整的标记集作为输入,其由编码器输出的编码向量和掩码令牌(mask token)组成,对于mask token,其都是一个共享的、可学习的向量,表示要预测的缺失patch,且对于所有的token,加上相应的位置嵌入通过解码器模型恢复到每个特定掩蔽位置的patch;

MAE通过预测被掩码图像块的像素值y

L

其中L

进一步地,在预训练阶段引入两条监督分支,分别位于编码器和解码器之后,分支Student和分支Teacher,且相对于编码器部分patches处理具有的局部性,解码器对全部patches的进行处理更具有全局性,使用解码器之后的结果经过Teacher分支映射向量对编码器之后的结果经过Student分支映射向量施加蒸馏约束,使用其编码器加入全局信息,进而提升编码器的特征提取能力;

对于两条分支,编码器那端Student分支和解码器那端Teacher分支只使用了一层MLP,将从MAE中经过编码器之后的输出向量

V

其中L

总损失的计算公式如下:

L=L

本发明的有益效果为:将MAE引入该领域,并对其进行相应改进,加入了自蒸馏模块,构建了自监督学习新冠感染医学图像分类模型(SSL-Covid),旨在通过使用计算机断层扫描(CT)缩短COVID-19患者的诊断时间来减少疾病传播的持续时间和数量以及为放射科医生诊断COVID-19提供决策支持系统。在本发明中,通过加入标签,在自监督学习中引入全局信息,在进一步进行自蒸馏,将解码器后学习到的全局信息迁移到编码器上,对编码器的特征提取能力进行优化提升。经过相关实验,证明了SSL-Covid模型相比于MAE在CT图像的新冠病毒感染识别方面更有优势,而且很好地缓解了ViT架构对于大规模数据需求的问题。总之,这些实验结果表明,SSL-Covid可以进一步提高ViT在医学图像分类中的性能。

附图说明

图1为本发明的COVID-19CT图像;

图2为本发明的非新冠感染图像;

图3为本发明的整体模型框架图;

图4为本发明的ViT模型框架图;

图5为本发明的MAE模型框架图;

图6为本发明自蒸馏结构示意图;

图7为本发明SSL-Covid模型的混淆矩阵1;

图8为本发明BEiT模型的混淆矩阵2;

图9为本发明MAE模型的混淆矩阵3;

图10为本发明DenseNet169模型的混淆矩阵4;

图11为本发明VGG19模型的混淆矩阵5;

图12为本发明的原始图片;

图13为本发明原始图片的Grad-CAM热力图;

图14为本发明的SSL-Covid原始图片;

图15为本发明SSL-Covid原始图片的Grad-CAM热力图;

图16为本发明的MAE和SSL-Covid微调性能比较曲线图。

具体实施方式

提出一种基于自监督学习的新冠感染医学图像分类方法,相关工作如下:

在这部分具体讨论跟我们研究工作相关的研究领域--自监督学习、知识蒸馏和新冠感染检测相关的研究。

自监督学习

在深度学习中,大部分模型的训练是基于有监督的学习,即:含有大量有标注的数据。而在某些领域可能就不像通用领域一样拥有比较大的有标注的数据集(如:ImageNet)。因此,预训练模型就能够很好地缓解这一问题。模型通常在大规模数据上进行预训练,然后再其他视觉任务上进行微调。其这么做的原因主要有以下两点:在大的数据集上训练后,网络的参数可以作为其他任务的训练起点而更快的收敛;经过了训练后网络可以有效提取层次性的语义信息,进而防止在小的数据集上过拟合。因而网络的性能在很大程度上依赖于带有标记的数据集的规模。然而,同时需要面对的一个矛盾是,在医学领域没有类似于通用领域ImageNet这样大规模的数据集进行预训练,并且由于病人隐私和标注质量等问题,收集和标记大量的数据是非常的耗时和昂贵的。为了解决这个问题,自监督学习由此提出,其可以在没有人工标记的数据集上进行训练。

自监督学习通过使用创新性的辅助任务进行主动学习、异常检测、数据增强和配准等方式,很好地缓解了标注数据不足的问题。自监督方法可以看作是一种具有监督方式的特殊形式的非监督学习方法,这里的监督是由自监督任务而不是预设先验知识诱发的。与完全不受监督的设置相比,自监督学习使用数据集本身的信息来构造伪标签。在表示学习方面,自监督学习具有取代完全监督学习的巨大潜力。它的一般研究思路是:首先提出一个辅助任务,然后借助该辅助任务,网络自动为图像生成伪标签,这些伪标签从图像的属性中获得,不涉及任何人工标注,并作为图像的监督信息训练计算机视觉模型。训练好的计算机视觉模型能够迁移到目标数据域或目标任务中。在表示学习方面,自监督学习具有取代完全监督学习的巨大潜力。人类学习的本质告诉我们,大型注释数据集可能不是必需的,我们可以自发地从未标记的数据集中学习。

Jingetal.通过对基于深度学习的自监督一般视觉特征学习方法进行调研,总结了近几年自监督学习的发展并提出了一些关于自监督学习未来发展的方向。在医学图像领域,通常很难获取到足够的标记图像进行训练。且在某些情况下,所使用研究的数据集可能包含的未标记数据大于标记数据。对此,Chenetal.提出了一种新的基于上下文恢复的自监督学习策略,使其更有效的利用那些未标记的数据,为后续图像分析任务带来更有意义的语义图像特征。该方法以背景恢复作为一项自我监督任务。详细来说,给定一幅图像,随机选择并交换两个小块。重复这个操作多次,得到的新图像的强度分布保持不变,但其空间信息被改变。然后训练CNN结构模型将改变后的图像恢复到原来的版本。在分类、定位和分割任务上进行了验证,实验效果表现良好。现有的大多数少镜头图像分类方法都比较依赖于高效的嵌入网络,然而由于有标记数据有限,导致嵌入网络的规模受到限制,使得少样本学习达到了一个瓶颈。Chenetal.针对少镜头图像分类任务中数据有限的问题,研究了一种更广义的具有自监督学习(SSL)的嵌入网络。该网络模型可以通过从数据本身学习来为下游任务提供健壮的表示,通过在少镜头分类数据集上进行实验验证,该模型分类性能良好。通过利用少样本学习和自监督学习两个领域的互补性,前者的模型可以有效地学习识别低数据状态下的模式,后者利用未标记数据学习泛化性能更强的表征,Gidarisetal.提出了一种结合有监督损耗和自监督损耗对嵌入网络进行预训练的方法。针对标记数据不足的问题,Masoodetal.提出了一种半监督、自我建议的学习模型,用于使用皮肤镜图像自动识别黑色素瘤。数据增广作为一种通用的训练技巧,通常都是采用线性变化,其不会改变图像中的高级语义信息,不足以有效地概括输入分布,不能很好的挖掘出神经网络的性能潜力。基于此,Xuetal.提出了一种新的数据增强方法,通过采用MAE来重建输入图像的失真视图,以此达到扩充数据量的目的。利用这种基于模型的非线性变换作为数据增强,其在监督、半监督和少样本分类任务中表现良好。

知识蒸馏

随着深度神经网络的崛起和演化,知识蒸馏(Knowledge Distillation,KD)作为一种新兴的、通用的模型压缩和迁移学习架构,由于其简单有效,在人工智能各个领域发挥着越来越重要的作用,是解决很多实际问题的一种通用手段。KD首先由定义,并被Hintonetal.推广。其基于“教师-学生网络思想”的训练方式,将已经训练好的模型(教师网络)包含的知识(Knowledge),蒸馏(Distill)提取到另一个模型(学生网络)里面,通过迁移知识来增强学生模型的学习能力。一般来说,教师网络是大容量模型,而学生网络是较小容量的模型。换句话来说,KD是指在一个较大的教师网络的监督下,帮助一个较小的学生网络的进行训练过程的方法。与其他压缩方法不同,KD可以无视两种网络之间存在的结构差异,进行学生网络的压缩。可以不考虑教师和学生网络之间的结构差异进行缩小网络的规模。知识蒸馏大致可将其分为两个分支:对数蒸馏(Logitsdistill)和中间表征蒸馏(Intermediaterepresentationdistillation)。

深度学习在许多领域取得了较为瞩目的成就,如计算机视觉(CV)和自然语言处理(NLP)。其成功的一大关键在于深度学习模型相对较大,很够学习复杂的模式和数据中的特征。但其也存在一大问题,那就是领先的大模型难以在终端设备上进行部署。而知识蒸馏的目标就是提供更小的模型来解决与更大模型相同的任务。基于此,越来越多的研究人员将目光放到了知识蒸馏上。

对于同一模型之中的知识蒸馏,Zhangetal.提出的一个自蒸馏框架,其在网络本身内提取知识。它将知识从深层提取到浅层,增强了浅层的特征表征。Heoetal.提出了一种新颖的特征蒸馏方法以使包括教师变换、学生变换、蒸馏特征位置和距离函数在内的部分产生协同作用。其提出的蒸馏损失包括具有新设计的边距ReLU的特征变换、新的蒸馏特征位置和部分L2距离函数,以求达到跳过对学生压缩产生不利影响的冗余信息的目的。Touvron et al.引入了针对transformer的师生策略,其主要依赖于一个蒸馏令牌,以此确保学生能够通过注意力从老师那学习到知识。Hinton et al.通过将教师模型所产生的对数(最终softmax的输入)和学生模型所产生的对数之间的差异进行最小化,以此来将知识从教师模型转移到学生模型。Wen et al.观察到使用教师logits的训练可能会受到不正确和不确定的监督的影响,因此提出了两种新的方法(Logits调整和动态温度蒸馏)来分别处理不正确的logits和不确定的logits。其主要通过平滑的正则化来修正教师的不正确的预测(知识),避免使用动态温度进行过度不确定的监督。Liu et al.着眼于将学生独立于教师,使其能够不受教师网络结构、输出空间和任务约束,都能够接收到来自于它的“知识”。Mishra et al.通过结合使用知识蒸馏的低精度数值和模型压缩这两种技术,并表明通过使用知识蒸馏技术可以显着提高低精度网络的性能。

新冠感染图像识别模型

基于深度学习的方法检测方法更为方便快捷,研究人员基于此已经开发出了许多有效的检测COVID-19模型。

Wang et al.通过改变InceptionV3结构,并使用预训练的权重微调了修改后的结构。模型取得了较为显著的效果,在实验测试中,准确率为89.5%。Heidarian et al.开发了一个两阶段全自动CT框架(COVID-FACT),其主要由胶囊网络构成。COVID-FACT不需要大量的数据扩充和大型数据集就能够捕获空间信息,其分两阶段进行:第一阶段进行感染切片的检测,第二阶段对患者CT扫描图像进行分类。其与同类型的模型相比,对数据的监督和注释依赖性少。Meng et al.利用迁移学习的方法,使用Vision Transformer作为骨干模型,构建了一个两阶段迁移学习COVID-19识别框架(TL-Med),大大缓解了数据不足的问题。Shui-Huaetal.提出了一个基于秩的平均池化模块(NRAPM)模块并受VGG网络启发提出了平均池化网络(DRAPNet)模型,即基于深度秩的平均池化网络,用于COVID-19识别。其在1164张CT图像上测试,所提模型F1值达到了95.49%。随着COVID-19病例的不断增长,深度学习在其领域的研究的重要性也越发显现。Garg etal.通过在20种经过预训练权重初始化地CNN结构的神经网络上对COVID-19进行检测实验,研究不同模型之间的差异,以期确定最准确的模型来识别COVID-19。在CNN中,卷积运算擅长提取局部特征,但在捕获全局特征表示方面还是有一定的局限性。在Vision Transformer中,级联自注意力模块可以捕获长距离的特征依赖,但会忽略局部特征的细节。Fanetal.通过利用卷积神经网络的局部特征提取能力和Transformer的全局特征提取优势结合两者优点,提出了一种基于Transformer模块和卷积神经网络模块的并行双分支模型(Trans-CNNNet),通过实验验证,其在一个大规模的COVID-19数据集(COVIDx-CT)分类准确率达到了96.7%。Ravietal.基于模型泛化性能考虑,提出了用于COVID-19分类大规模学习模型。其首先通过提取EfficientNet预训练模型倒数第二层的特征,辅以使用核主成分分析(PCA)来降低提取特征的维数,再使用特征融合的方法来进一步融合各种提取特征的特征。最后,使用基于堆叠集成元分类器的方法进行分类。通过使用预训练好的EfficientNet、核主成分分析(PCA)和特征融合方法,不断地对特征进行优化,最后,将优化好的特征送入基于堆叠集成元分类器的方法进行分类。通过实验验证,该方法的分类性能良好。

以上的COVID-19分类方法,或是在大规模有标记的COVID-19数据集上进行实验,或是采用了迁移学习引入外部知识的方法。而我们从另一个角度出发,通过构建图像重建的辅助任务和对其编码器和解码器输出表示之间进行自蒸馏来充分挖掘数据自身的特性,来提升模型的特征提取能力,大大缓解了标记数据不足的问题。

研究基于MAE自监督方法,并辅以自蒸馏学习,该模型通过自监督学习,能够有效地从数据中自我学习到领域知识,并加之自蒸馏学习进一步提升模型特征提取能力,对新冠感染分类提供很好的辅助信息。

本发明研究的整体模型框架如图3所示。它主要分为两个阶段:预训练阶段和微调阶段,且这两个阶段都在目标数据集上进行,没有引入外部数据。预训练阶段由两个辅助任务构成:图像重建和自蒸馏建模。前者完成对掩码图像的重建任务,促进编码器更好地学习领域知识。后者进一步对前者施加蒸馏约束,以优化编码器的特征提取能力。预训练完之后,我们就将学习到的编码器的权重迁移到微调阶段(编码器和微调阶段的模型使用的是同一个),之后进行新冠感染的分类。其详细的实验过程如下进行了介绍。

Vision Transformer

一个ViT主要是由patch嵌入层、位置嵌入层和Transformer Blocks组成。其结构如图4所示。

Patch嵌入层:由于ViT是以序列为输入,patch需要将任何高维的数据转换为序列的形式。对于一张多模态图像

位置嵌入层:在patch嵌入处加入位置嵌入信息。标准的ViT采用1D可学习的位置嵌入,即可学习的位置嵌入

Transformer Blocks:一个Transformer Block由多头注意力(MSA)、多层感知机(MLP)和层规范化(Layernorm,LN)交替组成。

相比于CNN结构的模型,以Transformer为中心的注意力机制能够捕捉长范围关系,这一点对于本发明研究中对于病灶的定位识别尤为重要。与自然语言处理(NLP)领域中Transformer相类似,在计算机视觉(CV)领域我们也是将一张图片处理成序列的模式。为了将图片处理2D形状,我们首先将输入图像

S′

(2)

S

(3)

带掩码的图像建模

在这部分,我们将介绍MAE中的编码器、解码器和损失函数。其结构如图5所示。

掩码自编码器(Masked Autoencoder,MAE)中的编码器使用的就是ViT中Transformer Block。与ViT处理一样,首先将输入图像划分成不重叠的图像块

MAE中的解码器使用一个完整的标记集作为输入,其由编码器输出的编码向量和mask token组成。对于mask token,其都是一个共享的、可学习的向量,表示要预测的缺失patch。且对于所有的token,加上相应的位置嵌入。如果没有加上位置嵌入,mask token将没有相应patch的位置信息,从导致图像重建效果变差。通过解码器,模型可以恢复每个特定掩蔽位置的patch。为了减少训练前的预算,解码器被设计成更轻量级的。

MAE通过预测被掩码图像块的像素值y

L

(5)

自蒸馏建模

本发明所采用的自蒸馏模型结构如图6所示。相比语言的高语义性,图像具有大量的空间冗余信号。由此我们认为掩码图像的一部分区域,剩余可见部分仍能很好的表达这张图像。就类似于我们人类观看某张有缺陷的图像,仍能很好的辨别出其主要物体。且在MAE中,使用图像可见的部分进行训练,但我们认为这是缺少全局特征的,即:不是在整张图像上训练导致的。而对于全局特征学习,一种直接的方式就是加入有监督的标签,允许网络知道重建什么概念。基于此,我们在预训练阶段引入两条有监督分支,分别位于编码器和解码器之后,如图2所示的Student和Teacher。且相对于编码器部分patches(即40%)处理具有的局部性,解码器对全部patches的进行处理更具有全局性。因此,我们使用解码器之后的结果经过Teacher分支映射向量对编码器之后的结果经过Student分支映射向量施加蒸馏约束,使用其编码器能够加入全局信息,进而提升编码器的特征提取能力。

对于两条分支,编码器那端Student分支和解码器那端Teacher分支只使用了一层MLP(见表6b和6c)。具体来说,我们将从MAE中经过编码器之后的输出向量

V

总损失的计算公式如下:

L=L

实验结果与分析

实验数据

SARS-COV-2-CT数据集

SARS-COV-2-CT来自于,其总共有2481张CT扫描图,包含1252张COVID-19的CT扫描和1229张非COVID-19感染患者的CT扫描。在本次研究实验中,其为主要实验数据集且为做特别说明的实验都是默认在此数据集上进行的。我们将数据集按照8:2的比例将数据划分为训练集和验证集,其数据划分情况如表1所示。在自监督预训练阶段,我们使用训练集。在后续微调阶段,我们使用训练集和验证集进行实验。

COVID-CT数据集

COVID-CT数据集来自于,其包含349张COVID-19CT图像和397张非新冠感染CT图像,共其包含746张CT图像。我们将其按8:2的比例划分为训练集和验证集,数据划分情况如下表2所示。与上个数据集处理相同,训练集在预训练阶段使用,验证集不参与预训练。之后在下游任务中使用训练集和验证集进行微调。

表1SARS-COV-2-CT数据集分布

表2COVID-CT数据集分布

实验设置和评价标准

在实验中,我们采用和MAE基本一致的参数设置来训练我们的模型。输入图像被调整大小为224*224,并且预训练为200轮,微调阶段为50轮。我们将图像分割为14*14个大小为16*16的patch。与大多数生成方法一样,RandomResizedCrop是预训练唯一的增强策略。与具有归纳偏差的CNN相比,ViT作为一种大型模型具有更强的泛化能力,有利于构建病理学领域的通用表示模型。因此,我们使用ViT-B(12个tansformer block)作为编码器作为我们模型自监督学习的骨干网络。在预训练阶段,我们使用交叉熵损失函数作为自蒸馏损失计算。并且我们进一步对编码器和解码器中线性层的数量进行了消融实验,其结果见表6。

本发明实验目标主要针对的是新冠感染分类。在本研究中,我们使用准确率、精确率、召回率、F1 score作为评价指标。准确率是本模型的一个基本指标,是正确预测的结果(包括阳性和阴性)与总体样本结果的比率。正确预测为阳性的占全部预测为阳性的比例称为精确率。召回率是在所有预测为阳性中真正为阳性的占总体实际为阳性的比例。精度率和召回率的加权平均值称为F1 score,其最大值为1,最小值为0。

掩码比率

表3展示了在不同掩码比率下,我们的模型在下游微调任务中所取得的性能。从图中可看到,和MAE最佳掩码比率75%不同,我们的模型在40%的掩码比率下,在下游微调任务中取得了最佳的性能,说明了新冠感染医学图像与自然图像存在着较大的不同。对于新冠感染医学图像来说,其具有更为丰富的组织特征,信息密度也高于自然图像,因此需要更多的信息去指导图像的重建。而且进一步的蒸馏操作,可以辅助编码器提高特征提取能力,为下阶段的解码器提供信息更为丰富的特征,从而指导图像的重建更为顺利。从中我们也可以看到,当我们掩码比率为90%时,模型在下游微调时仍能够取得较为良好的性能,也说明了在预训练阶段用于训练的可见patch即使很少,但我们的模型仍能够从中提取到较为有用的信息用于下游微调任务。

表3在COVID-19上不同掩码比率下微调

分类模型比较

我们在ViT、DenseNet169、VGG19、BEiT、MAE上进行了实验比较,实验结果见表4。其中我们使用ViT作为baseline,它没有经过自监督预训练,因此,能够表示自监督预训练的有效性。从表3中我们可以看到,经过自监督预训练后模型性能都得到了一定的提升,如MAE、BEiT相比于ViT分类性能分别提升了3.43%,3.64%,说明使用自监督预训练的方法对模型的性能的提升是有所帮助的,同时也进一步说明了本研究采用自监督学习方法的可行性。在自监督的基础上我们进一步引入了自蒸馏方案,构建了SSL-Covid模型,进一步优化了模型提取特征的能力,为微调提供了更为有力的帮助。与ViT、ResNet101、DenseNet169、VGG19、BEiT和MAE相比,我们模型的分类性能分别提升了8.89%,9.5%,6.67%,9.9%,5.25%和5.46%。而且,相比于其他模型,我们的模型曲线下面积(Auc)达到了99.53%,表明对于COVID-19分类我们的模型性能更为优越。且我们的模型召回率也达到了98%,意味着对阳性病例漏检的风险大大降低,也进一步为病例的筛查提供更为有力的保障,大大减少人力物力的消耗。

此外,受到自监督旋转任务的启发,我们将其引入MAE中,构建图像重建与旋转角度预测混合任务模型MAE_rotate。但通过实验对比,我们发现其与单个图像重建任务分类性能相当,并没有如我们所预估的分类性能增强。其原因我们推测是医学图像的旋转之后进行掩码分割,其各个角度类别的patch差别不大,导致模型难以精确的进行角度预测,且由于数据量是原有的4倍,数据规模较大,造成预测结果误差进一步增大,给模型学习造成了较大的困难,抑制了模型特征提取的能力。

表4不同的方法比较

COVID-CT数据集上不同分类模型比较

与在SARS-COV-2-CT数据集上进行的实验过程相同,我们也在COVID-CT数据集上进行了相关实验。实验结果如表5所示。从表5中可以看出,当数据规模较小的时候,ViT的性能落后于DenseNet169。其结果是可以预见的,因为Transfomer缺少一些CNN结构中固有的归纳偏置,如局部性和平移不变性,导致其不能很好地泛化,该结论在表4中也可得到证明。同样在该微型COVID-19数据集中,我们的模型优越性也得到了体现,相比于MAE、BEiT分类准确率分别提升了8.79%和11.49%。而且有一个比较有趣的现象是:MAE_rotate的效果在小数据集上得到了比较大的提升(相较于MAE提升了5.41%的分类准确率)。该性能的提升我们认为主要原因是:该数据规模较小,而加入旋转预测分支对编码器特征提取能力优化的增益效果大于其抑制效果,因此总体模型的性能有所增益,且其说明在一定大小规模的数据(如本发明中的小型COVID-CT数据集)中加入旋转的自监督辅助任务取得的增益效果大于抑制效果。

表5COVID-CT数据集上不同的方法比较

消融实验

在本小节中,为了证实我们所提出的组件对模型的有效性,我们SARS-COV-2-CT上进行了消融实验验证。实验设置及结果如表6所示。

在表6(a)中,我们研究了不同的预训练目标对实验结果产生的影响。其中rec表示掩码图像重建,kd表示自蒸馏,ft表示在下游任务中进行微调。从实验结果来看,对于单项预训练目标,掩码图像重建的优势要略大于自蒸馏,其主要原因我们认为是在编码器中只训练了60%可见的图像块,可以进一步促进释放模型的潜力,是模型尽可能地提取有效的特征。而且其也可以在一定程度减少图片的冗余信息,进而减少对模型的干扰,提升模型的性能。当使用两个结合时,能够将两者的优势进行融合,因此效果较为良好。

在表6(b)和(c)中,对于在编码器端和解码器端的MLP层数进行了实验研究。对于编码器端,但我们使用两层线性层时,模型的精度有所下降,我们推测认为当只有60%可见图像输入编码器进行编码所获得向量包含的关键信息相对较多,用两层线性层对其进行维度转化导致其损失的信息较多,进而抑制了其编码器提取特征的能力。而解码器中,由于其参与了全部图像的编码过程,因此其包含的全局信息较多,使用一层线性层就能够很好的获得线性可分的向量。当其使用两层线性层的话,其能力较大程度上浪费在预测上,这将对其信息传递造成一定的损失。

类别敏感性分析及可视化

从图6中各种方法的混淆矩阵,我们可以看到:对于几种方法在新冠感染识别方法,我们所提出的SSL-Covid性能更为优越,而其他模型性能提升有所制约,其主要在阳性病例的识别上,在此之上都产生了比较大的误差。对此,我们认为制约其他模型性能提升的原因可能是阳性病例的CT图像较为复杂,且每张CT图像之间的区别较小,导致病灶难以区分。而对于新冠感染阳性病例的识别,相比于其他模型,我们的模型具有较大的优势。换句话说,在其他条件相差不大的情况下,我们的模型能够极力避免假阴(实际为新冠感染阳性病例,但预测为阴性)情况的出现,这样可以进一步加块阻断新冠感染的传播蔓延,节省人力物力资源的消耗。

从图7中热力图我们可以看到在肺部区域的颜色比较深,也就意味着模型在这部分的关注度比较高。换句话说我们的模型比较关注的是肺部的某个区域,而这也正是我们期望的,因为新冠感染的病灶就分布于肺部区域。

在SARS-COV-2-CT上微调时的精度曲线

在图8中,我们更进一步报告我们的模型在SARS-COV-2-CT数据集上微调阶段每一轮的精度。MAE和SSL-Covid使用的都是ViT-B/16,而且它们预训练的轮数都为200轮。遵循Heetal.在微调中的实验设置,将预训练好的权重加载到模型上,进一步在SARS-COV-2-CT进行50轮的微调实验。我们可以看大,即使是在第一轮的时候,我们的模型就达到了一个很高的精度。这是因为我们的SSL-Covid在预训练阶段可以首先通过图像重建学习到比较好的COVID-19相关特征信息,再进一步通过自蒸馏学习到比较好的全局特性,进而逐步的优化了编码器特征提取能力,由此为微调带来了一个比较好的初始化。并且由于一个良好的初始化,我们的SSL-Covid性能得到了较为稳定的提升,波动较小。

不同的预训练轮数

在表7中,我们比较不同的预训练轮数对我们模型的影响。如表中所示,我们仅仅改变了预训练轮数,微调任务中都是50轮。当预训练的轮数较少时,如100轮,我们可以看到SSL-Covid达到了92.93%的准确率。而当预训练的轮数达到200轮时,SSL-Covid的分类性能大幅提升,达到了97.78%的准确率。说明了当预训练轮数不是很充分的情况下,不能很好的发挥模型的潜力。我们将轮数进一步的增加到300轮,不幸的是,模型的性能没有增加,与200轮时的分类性能持平。之后由于计算资源的有限,我们就没有再进一步的增加预训练轮数进行实验。并且出于节约计算资源和时间成本的目的,我们采用200轮作为我们预训练轮数。

表6SSL-Covid消融实验预训练目标

表7不同的预训练轮数下微调结果

5结论

在这项研究中,注意到医学领域的数据不足问题,我们将MAE引入该领域,并对其进行相应改进,加入了自蒸馏模块,构建了基于自监督学习新冠感染医学图像分类模型(SSL-Covid),旨在通过使用计算机断层扫描(CT)缩短COVID-19患者的诊断时间来减少疾病传播的持续时间和数量以及为放射科医生诊断COVID-19提供决策支持系统。在本次实验研究中,通过加入标签,在自监督学习中引入全局信息,在进一步进行自蒸馏,将解码器后学习到的全局信息迁移到编码器上,对编码器的特征提取能力进行优化提升。经过相关实验,我们证明了SSL-Covid模型相比于MAE在CT图像的新冠病毒感染识别方面更有优势,而且易于实现。并且针对ViT架构对于大规模数据需求的问题,SSL-Covid也进行了很好地缓解了。总之,这些实验结果表明,SSL-Covid可以进一步提高ViT在医学图像分类中的性能。

在医学领域,数据的稀缺是一个难以避免的问题,而自监督学习旨在对于无标签数据,通过设计辅助任务(Proxy tasks)来挖掘数据自身的表征特性作为监督信息,来提升模型的特征提取能力,因此自监督学习在该领域的应用具有非常大的潜力。在未来的工作中,我们将探索SSL-Covid在其他医学任务中的有效性,如:医学图像的分割任务。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号