首页> 中国专利> 一种于基于弱监督注意力的脑CT医学报告自动生成方法

一种于基于弱监督注意力的脑CT医学报告自动生成方法

摘要

本发明提出一种基于弱监督注意力的脑CT医学报告自动生成的方法,涉及医学图像,计算机视觉和自然语言处理三个领域,设计了一种弱监督注意力机制WGAM明确地引导注意模型聚焦于病灶区域,从而提高医学报告生成的准确性。WGAM是一个层级结构,包括空间注意力和序列注意力两种注意力机制,其中空间注意力被梯度加权类激活映射算法弱监督以获得更好的注意力效果。设计了关键词驱动的交互循环网络KIRN作为语言生成模块生成脑CT医学报告,通过包含病灶位置信息的关键词信息激活语言生成模块的隐藏层状态,通过LSTMword和LSTMsen的动态交互提升生成脑CT影像报告生成的准确性。本发明首此探索脑CT医学报告自动生成的工作,并取得了有效性。

著录项

  • 公开/公告号CN113313199A

    专利类型发明专利

  • 公开/公告日2021-08-27

    原文格式PDF

  • 申请/专利权人 北京工业大学;

    申请/专利号CN202110685415.7

  • 申请日2021-06-21

  • 分类号G06K9/62(20060101);G16H30/20(20180101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11203 北京思海天达知识产权代理有限公司;

  • 代理人张慧

  • 地址 100124 北京市朝阳区平乐园100号

  • 入库时间 2023-06-19 12:22:51

说明书

技术领域

本发明涉及医学图像,计算机视觉和自然语言处理三个领域,针对脑CT医学报告自动生成目标,设计了一种基于弱监督注意力的脑CT医学报告自动生成方法。

背景技术

如今医学影像技术在实际治疗中不可或缺,许多疾病都需要患者拍摄医学影像并由医生诊断后才可确诊与治疗。在许多国家中,放射科医生每天可能需要阅读数百张放射图像,并将其诊断结果写成报告。而医生诊断医学图像,并将每幅图像的分析结果输入计算机的过程需要5-10分钟,这占用了他们大部分的精力和时间。

众多医学影像技术中,颅脑影像(脑CT)可以用于诊断许多脑血管疾病,如脑出血、脑梗塞、蛛网膜下腔出血、脑内血肿等,这些疾病的共同特点为引起脑组织的缺血或出血性意外,快速且准确地确诊疾病对于临床治疗十分重要。因此,辅助医生更高效的发现病灶和书写医学报告具有较高的研究与应用价值,其中自动生成医学影像报告是确诊的关键一环,对于提升医生的诊断效率和准确率具有重要的意义。

医学报告生成是近年来医学与计算机交叉领域的新兴研究方向,其目标是为一副医学影像自动生成连贯且符合逻辑的医学报告。目前该工作的数据载体主要为胸部X光影像及其对应的诊断报告,脑CT医学报告生成任务尚未被探索。与其他影像数据相比,脑CT影像为多个序列,具有三维性;病灶具有连续与稀疏性;报告内容复杂,具有更强的非结构化性。

大多数现有的医学报告自动生成方法均采用自然图像描述领域中的编码器-解码器框架,该框架使用CNN等神经网络结构作为编码器提取输入图像的视觉特征,使用RNN等循环神经网络作为解码器生成自然流畅的语句。为了进一步提升图像描述的准确性和更好的对齐图像和文本特征,注意力机制被引入到编码器-解码器框架中。注意力机制源于对人脑视觉系统的研究,认知科学研究表明,由于神经系统信息处理的瓶颈,人脑会有选择性地关注所有信息中的重要部分,同时忽略其他无用的信息。目前注意力机制(AttentionMechanism)被广泛应用于许多图像处理相关领域,该机制通过对不同特征分配不同的权重,使得模型可以选择性地关注特征中重要的一部分,同时忽略其他可见的信息。医学报告生成中引入注意力机制可以模仿医生的阅片经验,有重点的关注医学影像的视觉信息,从而使生成的单词更加准确。

现有的基于注意力机制的医学报告自动生成的方法不考虑先验知识,比如可能的病灶区域位置,脑CT医学报告生成需要更多的集中在微小的病灶区域。因此,不引入任何先验知识,仅仅让模型通过梯度下降方法学习到对这些微小病灶区域赋予较大注意力权重是极其困难的。受引导注意力机制和梯度加权类激活映射(Grad-CAM)的启发,本发明试图在脑CT医学报告自动生成方法中使用Grad-CAM方法引导注意力机制准确地捕捉重要病灶所在区域从而生成准确的脑CT报告。

发明内容

目前脑CT报告自动生成的工作还没被探索过,国内外对于该领域的研究仍然是一片空白。如图1所示,脑CT医学影像与其他影像数据相比,其影像为多个序列,具有三维性;病灶具有连续与稀疏性;报告内容复杂,具有更强的非结构化性。现有的方法不适用于脑CT报告的自动生成。注意力机制的引入可以解决上述问题,但现有的注意力机制仅仅依靠梯度下降法自动学习为不同位置分配不同的权重却没有考虑任何先验知识比如可能的出血病灶位置。为了提升注意力机制的效果,本发明试图在脑CT医学报告自动生成方法中使用Grad-CAM方法引导注意力机制准确地捕捉重要病灶所在区域从而生成准确的脑CT报告。

为实现上述目的,本发明提出一种基于弱监督注意力的脑CT医学报告自动生成的方法,其特征在于:

1、一种基于弱监督注意力的脑CT医学报告自动生成的方法,包括训练和预测两个阶段,

训练阶段包括:

(1)制作脑CT医学报告生成的训练数据集并进行预处理,得到标准化的三维脑CT影像和对应的报告;

(2)利用脑CT影像的特征提取器提取脑CT影像的特征F=[N

(3)构建弱监督注意力模块,该模块用于从包含N张序列的脑CT影像的图像特征中提取重要病灶特征a,包括空间注意力机制、序列注意力机制、以及修正空间注意力机制:其中所述的空间注意力机制用于提取每一张脑CT序列中重要的病灶特征,该机制通过对单张序列的不同位置赋予不同权重,并对关键的特征赋予较高的权重从而具有捕捉单幅序列中重要特征的能力;所述的序列注意力机制用于提取N张序列的脑CT影像中重要的序列特征,关键的序列特征被赋予较高的权重参与特征加和,得到最终包含整个CT影像重要病灶的图像特征a;所述的修正空间注意力机制用于修正不准确的空间注意力,增强空间注意力提取病灶特征的能力,具体为使用梯度加权类激活映射Grad-CAM算法产生空间注意力的监督信息,之后计算空间注意力和监督信息两者的交叉熵损失函数Loss

(4)构建语言模型,用于生成脑CT医学报告,语言模型的输入为步骤(3)提取的重要病灶特征a,输出为脑CT医学报告,语言模型为关键词驱动的交互循环网络,关键词驱动的交互循环网络包含两个部分,第一部分为关键词驱动机制,该部分用于激活交互循环网络中LSTM的初始时刻的隐含层向量h

h

h

第二部分为交互循环网络,该部分用于生成医学报告,具体包含两层LSTM,第一层为单词LSTM,表示为LSTM

其中

其中单词LSTM生成单词的过程如下:

这里y

(5)构建整体损失函数并训练,整体损失函数包含两部分:

Loss=Loss

其中,

预测阶段包括以下步骤:

(6)对待预测的脑CT进行预处理,得到标准化的三维脑CT影像;

(7)利用训练完成的脑CT影像的特征提取器提取待预测脑CT影像的特征;

(8)利用训练完成的弱监督注意力模块,从待预测脑CT影像的特征中提取重要病灶特征;

(9)利用训练完成的构建语言模型,生成待预测脑CT影像的医学报告。

进一步的,步骤(1)的具体步骤如下:

步骤(1.1):采集脑CT影像构建数据集,每一个患者数据包含其通过脑CT影像生成的RGB矩阵I={I

步骤(1.2)将所有患者数据划分为训练集、验证集和测试集。其中,训练集用于学习神经网络的参数;验证集用于确定超参数;测试集用于验证神经网络分类效果;

步骤(1.3)数据预处理:对于序列个数不超过24的脑CT影像使用插值算法补全,序列个数超过24的脑CT影像使用均匀采样方法挑选。

进一步的,步骤(2)所述特征提取器采用Resnet101网络,所述提取脑CT影像的特征F计算过程如下:

F=Resnet101(I)。

进一步的,步骤(3)所述弱监督注意力模块的工作过程如下:

步骤(3.1)构建弱监督注意力模块中的空间注意力机制用于提取每张CT序列中的重要的病灶特征。具体来说,该机制通过对每一张脑CT序列的空间特征f

e

φ为一个前馈神经网络,用于自动学习到其内部两个参数之间的关系矩阵,h为用于生成医学报告的LSTM内部的隐含层向量,最终得到空间注意力矩阵

步骤(3.2)构建弱监督注意力模块中的序列注意力机制用于提取N张序列的脑CT影像中重要的序列特征,具体来说,该机制对每一个脑CT影像的所有序列特征计算序列注意力权重a

步骤(3.3)利用弱监督注意力修正空间注意力,具体做法为:

(I)对于单张序列使用梯度加权类激活映射Grad-CAM算法生成其所对应的类激活图,类激活图中重要病灶区域的颜色被标记,之后使用图像分割工具描绘出单张图像中病灶的检测框R

(II)将生成的检测框R

其中(l,c)代表监督矩阵的第l行第c列,当该位置在病灶检测框中,该位置的矩阵值置为1,否则置为0;

(III)生成空间注意力的监督信息之后,计算空间注意力和监督信息两者的交叉熵损失函数,作为整体损失的一部分参与整体模型训练,此时空间注意力产生的不正确的空间注意力矩阵

进一步的,输入关键词驱动机制的关键词的产生方法具体如下:

(I)定义两类关键词,一类为左侧、右侧以及双侧3个方位关键词,用于表示病灶处于脑中线的哪一侧,另一类为在脑CT医学报告中出现的高频部位词,包含额叶、颞叶、顶叶、枕叶、半卵圆、侧脑室、基底节区、丘脑、脑干、小脑、大脑11个部位;

(II)为每个脑CT影像从其对应的报告中提取其所对应的两类关键词,根据得到的关键词训练一个关键词分类网络用于自动学习图像的关键词,最后,利用训练完成的关键词分类网络预测脑CT影像的关键词,网络预测其关键词为K={k

与现有方法相比,本发明具有以下明显的优势和创新:

本发明提出一种基于弱监督注意力的脑CT医学报告自动生成的方法,所述方法具有以下特点:1)设计了一种弱监督注意力机制(WGAM)明确地引导注意模型聚焦于病灶区域,从而提高医学报告生成的准确性。WGAM是一个层级结构,包括空间注意力和序列注意力两种注意力机制,其中空间注意力被梯度加权类激活映射(Grad-CAM)算法弱监督以获得更好的注意力效果。2)设计了关键词驱动的交互循环网络作为语言生成模块生成脑CT医学报告,通过包含病灶位置信息的关键词信息激活语言生成模块的隐藏层状态,通过LSTM

附图说明

图1:脑CT影像和报告的示意图。

图2:一种基于弱监督注意力的脑CT医学报告自动生成的方法的框架图。

图3:关键词驱动的交互循环网络的示意图。

图4:生成报告和注意力可视化的展示图。

具体实施方式

本实施例中以合作医院提供的脑CT影像以及对应报告为研究对象,具体说明本方法的实施步骤:

步骤(1)获取脑CT影像以及对应的医学报告数据并预处理:

步骤(1.1)数据:采集脑CT影像构建数据集,该数据集一共包含2048例已经删除患者信息的脑CT影像以及对应报告,其中每一个患者的影像数据包含多张CT序列,脑CT报告为长段落形式:

步骤(1.2)随机将数据划分为训练集、验证集和测试集三部分,数据个数为1848/100/100。

步骤(1.3)数据预处理:首先统一不同脑CT影像序列的个数为24,所采集数据集的脑CT序列个数范围为12-64,对于序列个数不超过24的脑CT影像使用插值算法补全,序列个数超过24的脑CT影像使用均匀采样方法挑选。然后对脑CT影像序列图像的宽高统一为512×512,最后对脑CT影像序列进行标准化和均一化。

步骤(2)构建特征提取器:首先基于脑CT影像中是否存在出血病灶构建了一个二分类数据集,之后基于该数据集使用预训练过的ResNet101模型对此二分类任务微调,最后将ResNet101网络的最后一层卷积神经网络的特征图

F=ResNet101(I)

步骤(3)构建本发明提出的弱监督注意力模块用于从包含N张序列的脑CT影像的图像特征中提取重要病灶特征a,其内部包括空间注意力机制、序列注意力机制、以及修正空间注意力机制:

步骤(3.1)构建弱监督注意力模块中的空间注意力机制模块用于捕捉每张CT影像序列中的病灶区域特征,即对每一张脑CT序列I

e

φ为一个前馈神经网络,可以自动学习到其内部两个参数之间的关系矩阵,h为用于生成医学报告的LSTM内部的隐含层向量,最终得到空间注意力矩阵

步骤(3.2)构建弱监督注意力模块中的序列注意力机制用于提取N张序列的脑CT影像中重要的序列特征,该机制对每一个脑CT影像的所有序列特征计算序列注意力权重a

步骤(3.3)利用弱监督注意力以修正不准确的空间注意力。具体做法为:

(I)对于单张序列使用梯度加权类激活映射(Grad-CAM)算法生成其所对应的类激活图,类激活图中重要病灶区域的颜色被标记,之后使用图像分割工具描绘出单张图像中病灶的检测框R

(II)将生成的检测框R

其中(l,c)代表监督矩阵的第l行第c列,假如该位置在病灶检测框中,该位置的矩阵值置为1,否则置为0

(III)生成空间注意力的监督信息之后,计算空间注意力和监督信息两者的交叉熵损失函数,作为整体损失的一部分参与整体模型训练,此时空间注意力产生的不正确的空间注意力矩阵

步骤(4)构建语言模型用于生成医学报告,语言模型的输入为步骤3中弱监督注意力模块提取到的具有重要病灶特征的图像特征a,输出为模型预测的脑CT医学报告。由于医学报告的段落较长,仅仅使用图像特征驱动的传统的单层LSTM不足以生成准确的脑CT医学报告,因此我们提出关键词驱动的交互循环网络作为本发明中的语言模型。关键词驱动的交互循环网络主要包含两个部分,第一部分为关键词驱动机制,该部分用于激活交互循环网络中LSTM的初始时刻的隐含层向量h

步骤(4.1)关键词驱动机制用于激活交互循环网络初始时刻的隐含层向量h

(I)首先,在放射学专家的辅助下提前定义了两类关键词,一类为左右侧以及双侧3个方位关键词,表示病灶处于脑中线的哪一侧,另一类为在脑CT医学报告中出现的高频部位词,包含额叶、颞叶、顶叶、枕叶、半卵圆、侧脑室、基底节区、丘脑、脑干、小脑、大脑11个部位;

(II)然后为每个脑CT影像从其对应的报告中提取其所对应的关键词,如报告为“左侧基底节区出现高密度影”,其中“左侧”和“基底节区”分别出现在步骤I中的方位关键词和高频部位词中,则提取该脑CT影像对应的关键词为“左侧”和“基底节区”。根据上面方法为每个脑CT影像提取关键词,之后根据得到的关键词训练一个关键词分类网络用于自动学习图像的关键词,所述的关键词分类网络采用Resnet34。最后,输入一例脑CT影像,网络预测其关键词为K={k

(III)将网络预测的关键词和步骤3经由监督注意力机制修正后的图像特征a一同作为关键词驱动机制的输入,关键词驱动机制实际为一个单层LSTM,计算过程如下:

h

为了和交互循环网络区分开来,此处关键词机制中LSTM的隐含层向量用h

(IV)关键词驱动机制的输出用于激活交互循环网络中LSTM的初始时刻的隐含层向量h

h

步骤(4.2)使用本文提出的交互循环网络生成最终的脑CT医学报告,该网络包含两层LSTM,第一层为单词LSTM,表示为LSTM

其中

其中单词LSTM生成单词的过程如下:

这里y

步骤(5)定义整体损失函数和训练脑CT影像报告自动生成网络:

步骤(5.1)定义语言生成模块的损失函数。本发明所述的一种基于弱监督注意力的脑CT医学报告自动生成方法的数据为患者脑CT影像I={I

θ

其中θ

其中p

步骤(5.2)定义本发明所述的一种基于弱监督注意力的脑CT医学报告自动生成方法最终的损失函数,包含两部分:

Loss=Loss

最终,在Adam优化器算法下网络可以自适应的优化真实报告和预测报告的损失值,完成训练后,输入一个脑CT影像,模型可以自动生成一段连贯且准确的脑CT医学报告,同时,被引导后的注意力机制可以准确捕捉到病灶所在区域,其可视化具有很高的可解释性。

为了验证本发明所述方法的有效性,我们在脑CT医学报告数据集上对上述提出的方法进行了实验,并于现有的其他方法进行了充分的对比分析。在具体实施过程中,我们与三个应用于图像描述的主流框架CNN-RNN、Soft-ATT以及Up-Down方法进行对比,同时复现了应用于X光胸片影像报告自动生成工作的两种方法,分别为HRNN和MRMA作为对比方法。实验采用针对文本生成等自然语言处理任务的自动评价指标,包括BLEU、METEOR、ROUGE、CIDEr,这些评价指标通过计算模型生成语句与参考语句之间相似度的高低从而评价模型的有效性。

表1 本发明所提方法与不同方法的对比实验

表1展示了本发明方法和其他方法在7个语言指标上表现结果的对比。可以看出,早期没有使用注意力机制的基于编码器-解码器框架的方法即CNN-RNN的性能明显低于其他使用了注意力机制的方法如Soft-ATT,说明出注意力模型的引入有利于模型探索关键病灶区域。我们的方法可以灵活地结合基于视觉注意力的编码器-解码器框架。在本文中,我们将最先进的框架之一Up-Down作为基线方法。如表1所示,我们的方法的结果明显优于基线模型。在所有指标中,CIDEr指标提升最明显,提升幅度达到5.5,体现出所提方法在脑CT医学报告自动生成中的有效性。HRNN和本文方法有着相似的语言生成结构,即都包含了句子层面的循环网络和单词层面的循环网络。不同的是,HRNN的句子RNN用于生成主题向量和停止向量,单词RNN围绕主题向量生成句子。然而,在医学报告生成任务中,由于主题向量的抽象性和模糊性,句子RNN无法较好的生成医学长段落。相对于HRNN方法,本发明中的方法舍弃了句子RNN中的停止向量,使用单词LSTM来控制生成句子的个数,增加了单词LSTM和句子LSTM在语言生成过程中的交互,并采用关键词驱动机制激活两者在初始时刻的隐藏层状态。此外,模型中的空间注意力机制被Grad-CAM弱监督,因此我们的模型相对于HRNN具有显著的优越性。MRMA采用了基于注意力机制的多模态递归模型,其表现优于HRNN,但该方法除了METEOR指标与我们相同之外,其他度量都比我们的方法弱。

此外,我们还进行了消融实验证明本发明所提方法中两者机制的有效性,一个为注意力的弱监督模块,一个为关键词驱动的交互循环网络。消融实验仍然是将Up-Down作为基线。值得注意的是,Up-Down原论文中的图像输入为二维数据,不适用于脑CT三维影像,因此,我们将Up-Down中的注意力机制调整为包含了空间注意力机制和序列注意力机制的层级结构。我们的模型与基线模型Up-Down的区别在于添加了空间注意力的引导模块和关键词驱动的交互循环网络。

表2 本发明所提方法不同模块的消融实验

如表2所示,在BLEU@1和CIDEr中,Up-Down+WGAM和Up-Down+KIRN的性能优于Up-Down,在其他指标中,它们的表现与Up-Down相当。在大多数指标上,Up-Down+WGAM优于Up-Down+KIRN,这证明了弱监督注意力机制的有效性。我们提出用于自动生成脑CT医学报告的Up-Down+WGAM+KIRN模型利用了弱监督注意力机制和关键词驱动的交互式循环网络的优势,在所有指标上都获得了最优的性能。

综上所述,本发明通过对比实验和消融实验,验证了本文提出的方法在脑CT医学报告自动生成任务中的有效性。这是由于弱监督注意力中的层级注意力结构可以捕捉到脑CT序列中重要的病灶特征和重要的脑CT序列,其中Grad-CAM方法生成的弱监督信息可以有效的提升空间注意力机制在捕捉重要病灶特征上的准确性。另外,语言生成模块中的关键词驱动的交互式循环网络在生成长段落任务中也发挥了其独特的优势。

图4展示了我们提出的方法的定性结果。可以看出,我们的方法不仅可以提高生成的脑CT报告生成的准确性,还可以提高注意力机制的可解释性。图中展示了两种形式的注意图,分别为空间注意力可视化图和序列注意可视化图。第一行和第二行分展示了由Up-Down和我们的模型生成的空间注意可视化图,其中亮度指空间注意力模块对序列不同区域的置信度。第三行展示了序列注意可视化图,其中亮度表示序列注意力模块对不同序列的置信度。可以观察到,WGAM模块可以正确引导注意力模型聚焦病灶区域。而相比我们的方法,基线模型Up-Down的空间注意力模块生成的注意力可视化图是分散且不准确的。

最后三行分别展示了脑CT影像所对应的真实医学报告、Up-Down模型生成的报告以及本发明所述方法生成的报告。第一个例子中,我们的模型准确地生成了句子“右侧额叶可见大片状高密度影,周围可见低密度水肿带...左侧侧脑室后角受压...左侧基底节区可见斑点状低密度影,部分边界清晰。双侧侧脑室周围脑白质密度减低”,其中位置词语“额叶”与真实报告一致。另外,我们的模型还生成了“左侧侧脑室后角受压”和“左侧基底节区可见斑点状低密度影”这些没有出现在真实报告中的句子,通过咨询放射学家验证模型描述的异常存在对应脑CT影像中,这种现象验证了弱监督注意力机制和关键词驱动的交互式循环网络模块的有效性。在其他例子中,我们的模型可以准确的捕捉病灶区域并生成正确的位置词如“顶枕叶”,“右侧”和“桥脑”。相比我们的方法,基线模型Up-Down由于其注意力机制具有较差的捕捉病灶区域的能力,生成的词语如“基底节区”、“右侧”和“丘脑”都与真实报告不同。

本发明所提方法中空间注意力机制和序列注意力机制的注意图注意力可视化图表明,WGAM模块可以首先聚焦序列中的病灶区域,然后自适应捕获病变显著的相应脑CT序列。值得注意的是,比较显著的的序列注意可视化图对应的序列分布是连续的,这是由于脑CT病灶在三维空间上分布的连续性。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号