首页> 中国专利> 基于病历数据库的虚拟名医

基于病历数据库的虚拟名医

摘要

一种基于病历数据库的虚拟名医,其包括:病历数据录入装置;自诉相似度计算模块、诊断经验相似度计算模块及医学影像相似度计算模块,分别用于计算待诊疗患者与病历数据库记载的已诊疗患者针对患者自诉、检查结果及医学影像的相似度指标;综合相似度计算模块,用于将针对患者自诉、检查结果和医学影像的三个相似度指标,以及基于专家打分的患者自诉、检查结果和医学影像三者的临床判断重要性指标相融合,计算待诊疗患者与病历数据库记载的已诊疗患者的综合相似度;以及诊疗方案生成模块,用于从病历数据库选出综合相似度最高的已诊疗患者的病历并输出其诊疗方案。其能够充分发挥电子病历信息资源的临床价值,为医生或者用户提供诊疗建议。

著录项

  • 公开/公告号CN105184103A

    专利类型发明专利

  • 公开/公告日2015-12-23

    原文格式PDF

  • 申请/专利权人 清华大学深圳研究生院;

    申请/专利号CN201510665261.X

  • 发明设计人 袁克虹;王庆阳;李玉婵;

    申请日2015-10-15

  • 分类号G06F19/00(20110101);

  • 代理机构44257 深圳市汇力通专利商标代理有限公司;

  • 代理人李保明;张慧芳

  • 地址 518055 广东省深圳市南山区西丽大学城清华校区

  • 入库时间 2023-12-18 12:59:36

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-01-22

    授权

    授权

  • 2016-01-20

    实质审查的生效 IPC(主分类):G06F19/00 申请日:20151015

    实质审查的生效

  • 2015-12-23

    公开

    公开

说明书

技术领域

本发明涉及医疗数据挖掘领域,更具体地说,涉及一种基于病历数据库的虚拟名医。

背景技术

虚拟名医的目的是通过信息技术模拟现实医生诊疗过程,利用数据挖掘技术从病历中“学 习”医生的诊疗经验,通过检索到最为相似的病历为医生或者网上用户提供诊断建议。传统 医疗中,医生通过结合患者的自诉、体征、病史、医学影像等主要诊疗判据为患者诊断。病 历是医生工作内容的记录,内容上包含了患者的个人信息、病史、治疗过程及结果,但本质 上这些信息确蕴含了医生的诊断经验。电子病历是医疗信息化的必然产物,包含了患者自诉、 体征、病史、医学影像等主要患者信息,并且具备传统纸质病历所不具备的优点,比如便于 保存、传阅以及作为医疗数据挖掘的数据源。近年来,有关电子病历的应用研究逐渐增多, 但大多数仅限于提高电子病历的结构化存储能力,用于记录患者的症状和治疗过程,而对其 包含的大量信息再应用涉及较少。电子病历既是患者的诊疗过程的记录,也是医生经验的载 体,其包含了医生的经验以及患者个体化差异的大量信息。所以对于电子病历的信息挖掘, 会极大地发挥电子病历信息资源的临床价值。目前在医疗数据挖掘领域主流的研究方向是医 学图像搜索。

发明内容

本发明的目的是提供一种基于病历数据库的虚拟名医,以充分发挥电子病历信息资源的 临床价值,为医生或者用户提供诊疗建议。

本发明的具体技术方案如下:

一种基于病历数据库的虚拟名医,所述病历数据库记载了已诊疗患者的患者自述、检查 结果、医学影像以及诊疗方案,所述虚拟名医包括:

病历数据录入装置,用于录入待诊疗患者的患者自述、检查结果以及医学影像;

自诉相似度计算模块,用于计算待诊疗患者与病历数据库记载的已诊疗患者针对患者自 诉的相似度指标;

诊断经验相似度计算模块,用于计算待诊疗患者与病历数据库记载的已诊疗患者针对检 查结果的相似度指标;

医学影像相似度计算模块,用于计算待诊疗患者与病历数据库记载的已诊疗患者针对医 学影像的相似度指标;

综合相似度计算模块,用于将针对患者自诉、检查结果和医学影像的三个相似度指标, 以及基于专家打分的患者自诉、检查结果和医学影像三者的临床判断重要性指标相融合,计 算待诊疗患者与病历数据库记载的已诊疗患者的综合相似度;以及

诊疗方案生成模块,用于从病历数据库选出综合相似度最高的已诊疗患者的病历并输出 其诊疗方案。

在上述的基于病历数据库的虚拟名医中,优选地,所述自诉相似度计算模块为文本相似 度计算模块,自诉相似度计算模块设置有关键词的同义词表,用关键词计算相似度包括用关 键词及其同义词计算相似度。

在上述的基于病历数据库的虚拟名医中,优选地,所述诊断经验相似度计算模块包括:

层次模型构造子模块,用于以待诊疗患者的已检查的项目为准则、病历数据库中记载的 已诊疗患者的病历为待选方案建立目标层-准则层-方案层三层结构的层次模型;

权重计算子模块,用于计算准则层相对于目标层的权重,其权重计算方法包括:用各个 已检查的项目与疾病的关联度指数构造准则层相对于目标层的判断矩阵,将判断矩阵的各行 向量进行几何平均,然后进行归一化处理得到准则层相对于目标层的权重;

单项相似度计算子模块,用于计算待诊疗患者与病历数据库记载的已诊疗患者针对单个 检查结果的相似度;以及

多项综合相似度计算子模块,用于将相对同一个已诊疗患者的各个单项相似度与权重对 应相乘获取诊断经验相似度。

在上述的基于病历数据库的虚拟名医中,优选地,在所述单项相似度计算子模块中,采 用距离系数来判定针对单个检查结果的相似度。

在上述的基于病历数据库的虚拟名医中,优选地,在所述单项相似度计算子模块中,所 述距离系数为相对海明距离Dijn,单项相似度Sijn计算如下:

Sijn=1-1mDijn=1-1mΣk=1m|xki-xkj||xkmax-xkmin|

其中,i和j表示进行比较的两个病历,n代表第n个检查项目,xk表示已检查项目第k个指 标,xkmax表示所有病历中项目n的第k个指标的最大值,xkmin表示所有病历中项目n的第k 个指标的最小值,m为指标个数,0≤Dijn≤m。

在上述的基于病历数据库的虚拟名医中,优选地,所述医学影像相似度计算模块包括:

图像预处理子模块,用于对医学影像进行预处理;

ROI分割子模块,用于采用GMM算法从预处理后的医学影像中分割出感兴趣区域;

特征提取子模块,用于提取感兴趣区域的面积A、周长C以及最小外接矩形的面积A2, 并提取整幅图像的总面积Area;

图形描述子构造子模块,用于利用所述整幅图像的总面积Area、以及所述感兴趣区域的 面积A、周长C和最小外接矩形的面积A2构造感兴趣区域的图形描述子αi,i=1,2,3,4,5,其中,

α1=AA2,α2=C2A,α3=AArea

α4,α5是感兴趣区域的边界特征,通过获取感兴趣区域的边界像素点,求取其重心及边界上每 一个点到重心的距离,然后对这组距离值计算其平均值和方差,分别作为α4,α5的值;以及

相似度计算子模块,通过计算两个医学影像中感兴趣区域的图形描述子之间的欧氏距离, 再取倒数后作为两个医学影像的相似度。

在上述的基于病历数据库的虚拟名医中,优选地,在所述ROI分割子模块中,采用GMM 算法从预处理后的医学影像中分割出感兴趣区域的方法包括:

通过高斯混合模型计算医学影像中每个像素点灰度的加权概率密度,与加权概率密度的 经验区间比较区分出正常点和异常点,将正常点和异常点的灰度值置为两个不同的固定值从 而得到该医学影像的二值图像;

用矩形窗扫描所述二值图像,找出包含异常点最多的区域;以及

用区域增长算法处理所述的包含异常点最多的区域,作为该医学影像中的感兴趣区域。

本发明分别针对患者自述、医生诊疗经验和医学影像三部分数据进行相似度计算,综合 这三种相似度得到电子病历的综合相似度,这种全面的相似度衡量策略能够有效提高虚拟名 医的可靠性,检索到最相似的病历为医生或者其它用户诊断疾病和制定治疗计划提供参考。

附图说明

图1为一些实施例虚拟名医的流程图;

图2为一些实施例中医学影像相似度计算模块的流程图;

图3为一些实施例中图像预处理结果;

图4为一些实施例中ROI定位结果。

具体实施方式

下面结合附图和实施例对本发明进一步说明。这些更详细的描述旨在帮助理解本发明, 而不应被用于限制本发明。根据本发明公开的内容,本领域技术人员明白,可以不需要一些 或者所有这些特定细节即可实施本发明。而在其它情况下,为了避免将发明创造淡化,未详 细描述众所周知的操作过程。

图1示出了一些实施例虚拟名医的流程,该虚拟名医是基于病历数据库实现的,所述病 历数据库记载了已诊疗患者的患者自述、检查结果、医学影像以及诊疗方案。参照图1,所 述虚拟名医包括:病历数据录入装置S100,自诉相似度计算模块S200,诊断经验相似度计算 模块S300,医学影像相似度计算模块S400,综合相似度计算模块S500,诊疗方案生成模块 (图中未示出)。

病历数据录入装置S100用于录入待诊疗患者(也称作新患者)的患者自述、检查结果以 及医学影像。

自诉相似度计算模块S200用于计算待诊疗患者与病历数据库记载的已诊疗患者针对患 者自诉的相似度指标。患者自诉是纯文本形式的数据,患者自诉中有很多临床表现是衡量患 者自诉相似度的关键词,同时临床表现出现的频率很高,而且对于含义相同的术语,不同的 医生可能会有不同的表达方式,因此有必要建立关键词的同义词表,用关键词计算相似度时 包括用关键词及其同义词计算相似度,这样就能实现在衡量相似度时把同义词组作为相似的。 为了计算此类数据的相似度,以肺癌病种为例,首先需要依据语义分析技术为肺癌病种建立 同义词表,覆盖肺癌病种常见的专业术语和通俗表达形式。根据同义词表,利用目前已相对 成熟的文本检索技术可以直接获得患者自诉间的相似度。目前,计算文本相似度的技术已较 为成熟,虚拟名医是依托于互联网存在的,通过调用MySQL命令即可获得针对患者自诉的相 似度指标S1

诊断经验相似度计算模块S300,用于计算待诊疗患者与病历数据库记载的已诊疗患者针 对检查结果的相似度指标。对于医生诊断经验的相似度衡量依据如下:在诊断过程中,医生 综合考虑患者的各项检查结果(或者称作指标),根据自身经验和医疗常规对不同的信息予以 不同的重视程度,同时结合患者自述对患者的病情予以初步的诊断。一些实施例中,在计算 医生诊断经验的相似度时,将患者的各个检查项目结果(即各项检查结果)纳入衡量范围, 以海明距离衡量单个检查项目结果的相似度(即单项相似度),同时利用层次分析法获得各项 指标对于诊断结果的影响权重,通过单项相似度乘以对应的影响权重然后求和,即可求得医 生诊断经验的相似度指标。

在一些更具体的实施例中,诊断经验相似度计算模块S300包括以下子模块:层次模型构 造子模块,权重计算子模块,单项相似度计算子模块,多项综合相似度计算子模块。

层次模型构造子模块用于以待诊疗患者(新患者)的已检查的项目为准则、病历数据库 中记载的已诊疗患者的病历为待选方案建立目标层-准则层-方案层三层结构的层次模型。

权重计算子模块用于计算准则层相对于目标层的权重,其权重计算方法包括:用各个已 检查的项目与疾病的关联度指数构造准则层相对于目标层的判断矩阵,将判断矩阵的各行向 量进行几何平均,然后进行归一化处理得到准则层相对于目标层的权重。举例来说,假设新 患者已做了E1,E2,E3,E4,E5,E6,这些检查即是层次模型的准则层。首先构造出准则层 相对于目标层的判断矩阵,判断矩阵中的每个元素指代的是每一项检查结果的相对重要性, 由经验医生给出,举例如下:

则判断矩阵为:

A=1e12e13e14e15e16e211e23e24e25e26e31e321e34e35e36e41e42e431e45e46e51e52e53e541e56e61e62e63e64e651

通常eij与eji呈倒数关系。

接下来,利用判断矩阵确定各准则相对于目标的权重系数,具体的,将判断矩阵的各行 向量进行几何平均,然后进行归一化处理得到目标层的权重。对于上述例子,将上述判断矩 阵A各行向量进行几何平均,由

Wi=Πj=1neijn,i=1,2,...,n

此处n=6,可得,

W=W1W2W3W4W5W6

对W向量归一化,由

wi=wiΣi=1nwi,i=1,2,...,n,n-6

得到

w=w1w2w3w4w5w6.

为了获得更好效果,进一步地,还包括:计算判断矩阵的最大特征根,利用最大特征值 计算一致性指标,检验判断矩阵的一致性,获得具有良好一致性的权重。具体的,根据

λmax=1nΣi=1n(Aw)iwi

计算判断矩阵的最大特征根λmax;由

CI=λmax-nn-1

计算一致性指标CI,与平均随机一致性指标RI计算得到判断矩阵的一致性比率CR=CI/RI, 若CR小于0.1,说明判断矩阵具有满意的一致性,不需要调整,权重系数w可用。

单项相似度计算子模块用于计算待诊疗患者与病历数据库记载的已诊疗患者针对单个检 查结果的相似度。在获得每项检查的权重系数之后,需要确定新患者的每一项检查与其他患 者(病历数据库记载的已诊疗患者)的同一检查的相似度。一些实施例中采用距离系数来判 定针对单个检查结果的相似度。距离系数主要包括绝对距离(即海明距离)和欧氏距离,相 比而言,绝对距离更能反映两序列之间的值相似程度,所以一些较佳实施例中采用基于海明 距离的方法衡量单项相似度,如下所述

Adijn=Σk=1m|xki-xkj|

其中n为患者所接受的第n项检查,m为此项检查项目下可量化的诊断指标数量。由于在比 较病历的相似程度上,每个用于比较的指标意义不同,量纲不同,为了去除量纲的影响,一 些更佳实施例中还对海明距离进行了改进,使用相对海明距离:

Dijn=Σk=1m|xki-xkj||xkmax-xkmin|

具体的,单项相似度Sijn计算如下:

Sijn=1-1mDijn=1-1mΣk=1m|xki-xkj||xkmax-xkmin|

其中,i和j表示进行比较的两个病历,n代表第n个检查项目,xk表示已检查项目第k个指 标,xkmax表示所有病历中项目n的第k个指标的最大值,xkmin表示所有病历中项目n的第k 个指标的最小值,m为指标个数,0≤Dijn≤m,可知0≤Sijn≤1。对于上述例子,对每一检 查项目计算其单个相似度得相似度向量:

Sij=[Sij1Sij2Sij3Sij4Sij5Sij6]。

多项综合相似度计算子模块用于将相对同一个已诊疗患者的各个单项相似度与权重对应 相乘获取诊断经验相似度。具体地,通过

S2=Sij*w

即可计算出医生诊断经验的相似度指标S2

医学影像相似度计算模块S400用于计算待诊疗患者与病历数据库记载的已诊疗患者针 对医学影像的相似度指标。以肺癌CT为例,首先定位肺癌肿瘤的位置,然后利用区域增长 法获取肿瘤区域,提取肿瘤区域的几何特征组成特征向量,通过计算特征向量间的欧氏距离 即可作为图像相似度指标。

图2示出了一些实施例中医学影像相似度计算模块S400的流程。参照图2,一些实施例 中的医学影像相似度计算模块S400包括:图像预处理子模块S410,ROI分割子模块S420, 特征提取子模块S430,图形描述子构造子模块S440,相似度计算子模块S450。

图像预处理子模块S410用于对医学影像进行预处理。以肺癌CT为例,图像中背景的灰 度值较低,因此我们可以通过大津阈值法分割人体部位,然后对分割产生的二值图像进行腐 蚀处理,从而得到胸腔外壁的大致轮廓。此外,在某些断层CT图像中含有CT设备的局部零 件的成像,这些部位的成像存在于CT图像的边缘,因此可以直接将CT图像的边缘区域灰度 值置零。经过以上处理,利用图像的水平和垂直方向上的灰度累计便可以获得与胸腔外壁相 切的矩形从而可以去除胸腔外壁以外的区域。预处理结果如图3所示,图3中的子图a为肺 癌CT原始图,子图b为经分割和腐蚀处理后的结果,子图c为去除胸腔外壁以外的区域后 的结果。

ROI分割子模块S420用于采用GMM算法从预处理后的医学影像中分割出感兴趣区域 (ROI)。ROI分割环节首先使用了GMM算法定位肿瘤。以肺癌CT为例,将肺癌CT图像中的 正常区域看做背景,异常区域,即肿瘤区域当作前景。GMM的目标就是区分图像的背景和前 景。相比于异常区域,正常区域的图像特征更为稳定,因此统计正常区域的灰度值分布规律 就相对更容易而且其分布规律的适用性也更高。使用n幅来自不同正常个体的相近解剖层的 肺部CT图像作为训练样本,并对所有样本进行预处理。训练出的高斯混合模型则是正常肺 部CT图像灰度值的分布模型。以此模型区分肺癌CT图像中正常区域和异常区域。

在一些更具体的实施例中,采用GMM算法从预处理后的医学影像中分割出感兴趣区域 的方法包括:通过高斯混合模型计算医学影像中每个像素点灰度的加权概率密度,与加权概 率密度的经验区间比较区分出正常点和异常点,将正常点和异常点的灰度值置为两个不同的 固定值从而得到该医学影像的二值图像;用矩形窗扫描所述二值图像,找出包含异常点最多 的区域;以及用区域增长算法处理所述的包含异常点最多的区域,作为该医学影像中的感兴 趣区域。举例来说,以I1,I2,...,In表示n幅经过预处理的正常肺部CT图像。In是预处理后 的矩阵。pn(x,y)是第n幅图像(x,y)点的像素值。我们将pn(x,y),(n=1,2,3...)作为一个独立的点 集,每一个点集都对应一个独立的高斯混合模型,此模型便是这个点集的概率分布密度函数。 假设这个高斯混合模型函数如下式所示:

P(pn(x,y))=Σi=1Kαig(pn(x,y),μi,σi)

g(pn(x,y),μi,σi)=12π*σie-(pn(x,y)-μi)22σi2

其中,g(pn(x,y),μi,σi)是第个高斯分布在pn(x,y)上的概率密度,αi是这个高斯分布的权重。 P(pn(x,y))是pn(x,y)在这个混合高斯分布中的加权概率密度。其中,公式里的参数及其相应的 限制条件如下:

α1,α2,...,αK;Σi=1Kαi=1,αi>0

μ1,μ2,...,μK

σ1,σ2,...,σK

对于每一个点集的混合高斯模型来说,需要确定的参数有3×K个。这里采用Expectation MaximizationAlgorithm确定这些参数。在实验中,K=[2,4]时,肿瘤区域定位的准确性最高。 以正常肺部CT图像为训练集所建立的高斯混合模型能够很好的拟合肺部CT图像正常区域中 每一个像素点灰度的概率分布密度。如果某一部位存在肿瘤,那么此部位的灰度值与相应部 位在正常情况下的灰度值之间必定存在差异,从而导致由高斯混合模型得出的加权概率密度 是一个异常值。因此,只需判断某一点的加权概率密度是否异常即可确定它是否是异常点。 为了判别某一点是否是异常点,实例中通过多次实验确定了一个加权概率密度的经验区间 (0.6,2.5),如果某一个像素点的加权概率密度位于此区间内,则判定其为异常点,同时将 此点的灰度值置为一;反之,将此像素点的灰度值置零。通过以上处理,可以得到一幅二值 图像。为了去除边缘效应和噪声影响,依次对二值图像做边缘区域处理和腐蚀处理。此时, 二值图像中还会存在一些离散的非零点,为了提高肿瘤区域定位的准确性,进一步采用一个 16×16的矩形窗扫描二值图像,图像中落入矩形窗内的非零点(异常点)个数最多的区域则 为肿瘤区域。然后利用区域增长算法就能够分割出完整的肿瘤。图4示出了处理过程的各种 状态,图4中的子图a为处理前的状态,子图b为处理过程中生成的二值图像,子图c为得 到的包含异常点最多的区域,子图d为区域增长后得到的感兴趣区域(ROI)。

分割出ROI之后,通过特征提取子模块S430提取感兴趣区域的面积A、周长C以及最小 外接矩形的面积A2,并提取整幅图像的总面积Area。

图形描述子构造子模块S440用于利用所述整幅图像的总面积Area、以及所述感兴趣区 域的面积A、周长C和最小外接矩形的面积A2构造感兴趣区域的图形描述子αi,i=1,2,3,4,5, 其中,

α1=AA2,α2=C2A,α3=AArea

α4,α5是感兴趣区域的边界特征,通过获取感兴趣区域的边界像素点,求取其重心及边界上每 一个点到重心的距离,然后对这组距离值计算其平均值和方差,分别作为α4,α5的值。

然后,在相似度计算子模块S450中,通过计算两个医学影像中感兴趣区域的图形描述子 之间的欧氏距离,再取倒数后作为两个医学影像的相似度指标S3

综合相似度计算模块S500用于将针对患者自诉、检查结果和医学影像的三个相似度指标 S1、S2、S3,以及基于专家打分的患者自诉、检查结果和医学影像三者的临床判断重要性指标 (即权重)W1、W2、W3相融合,计算待诊疗患者与病历数据库记载的已诊疗患者的综合相似 度。更具体地说,基于专家打分的患者自诉、检查结果和医学影像三者的临床判断重要性指 标(即权重)W1、W2、W3,可以由若干(如10-20)个行业内专家根据患者自述、诊断经验、 医学影像对于临床判断的重要性进行打分,并综合考虑专家的权威性后获得,三者之间满足 W1+W2+W3=1。然后,将三个相似度指标S1、S2、S3与三个权重W1、W2、W3对应相乘,得到改 进后的相似度S1’、S2’、S3’。在获得三个改进后的相似度指标S1’、S2’、S3’后,将它们作为 相应电子病历的特征向量,通过衡量特征向量间的欧氏距离,值越小这说明这两份电子病历 相似度越高。每份电子病历对应一个患者,因此可以得到待诊疗患者与病历数据库记载的已 诊疗患者的综合相似度。

在诊疗方案生成模块中,通过从病历数据库选出与待诊疗患者综合相似度最高的已诊疗 患者的病历并输出其诊疗方案,为医生或者其它用户诊断疾病和制定治疗计划提供参考。

上述虚拟名医综合考虑了病历中的患者自诉、医生的诊断经验和医学影像以及经验丰富 的专家意见,通过衡量三种数据各自的相似度及其对于临床诊断重要性来综合考察完整病历 间的相似度。这种相似度衡量方式不仅较全面利用了电子病历中的数据,还考虑了行业内权 威人士的意见,同时将医生诊断疾病的模式移植到网络平台,完成了虚拟医生的功能。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号