首页> 中国专利> 一种从中文电子病历构建医疗知识图谱的半监督学习方法

一种从中文电子病历构建医疗知识图谱的半监督学习方法

摘要

本发明涉及中文电子病历处理技术领域,公开了一种从中文电子病历构建医学知识图谱的半监督学习方法。该方法是一种端到端的方法,首先获取中文电子病历原始语料,进行数据预处理、知识描述体系设计和人工标记实体关系等操作,整理相关医学术语构建中文医学分词词典;然后结合机器学习算法和深度神经网络完成知识提取工作,同时结合半监督学习方法逐步扩展中文电子病历标记数据集,将抽取出的所有知识三元组存入Neo4j数据库,构建出医疗知识图谱。本发明提供的方法提供了一种中文电子病历标注语料,并可以准确的识别出病历中的医疗知识。

著录项

  • 公开/公告号CN112542223A

    专利类型发明专利

  • 公开/公告日2021-03-23

    原文格式PDF

  • 申请/专利权人 西南科技大学;

    申请/专利号CN202011517866.1

  • 发明设计人 杨春明;郭鑫;张晖;李波;赵旭剑;

    申请日2020-12-21

  • 分类号G16H10/60(20180101);G16H50/70(20180101);G06F16/33(20190101);G06F16/35(20190101);G06F16/36(20190101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构51214 成都九鼎天元知识产权代理有限公司;

  • 代理人贾年龙

  • 地址 621000 四川省绵阳市涪城区青龙大道中段59号

  • 入库时间 2023-06-19 10:21:15

说明书

技术领域

本发明涉及中文电子病历处理技术领域,尤其涉及一种从中文电子病历构建医学知识图谱的半监督学习方法。

背景技术

知识图谱(Knowledge Graph)的本质上是一种语文网络,其结点代表实体(entity),连线代表实体之间的各种语义关系(relation),能够将零散的知识相互连接.从而组成一个以“语义网络”为骨架构建起来的巨型、网络化的知识系统。随着越来越多的语义万维网数据在互联网上开放,国内外各个互联网搜索引擎公司开始以此为基础构建知识图谱从而提升服务质量,如Google知识图谱(GoogleKnowledge Graph),百度“知心”等。医疗领域的知识图谱构建是目前的一大研究热点。电子病历(Electronic MedicalRecords,EMRs)是指医务人员在医疗活动期间使用电子医疗系统生成的数字化信息。相比于国外英文电子病历领域的大量研究,国内对于中文电子病历的研究工作仍处于起步阶段。中文电子病历是一种宝贵的中文医学资源,包含大量有价值的医疗知识和患者健康信息,但同时中文电子病历也是一种非结构化信息,这为在其之上的医学研究制造了障碍。医疗知识图谱将病历中的医学知识以结构化的方式进行存储、管理、传输和重现,可以帮助建立临床辅助决策系统、个性化健康模型和智能医疗问答等,对于推动智慧医疗的发展具有重要意义。

目前,国内中文电子病历的医学知识图谱主要存在以下难题:

1、由于包含患者敏感信息,且医疗实体和实体关系的标注依赖领域知识,目前国内缺少高质量、大规模的中文电子病历标注语料。

2、中文电子病历包含大量专业医学词汇和特殊字符,且中文的词与词之间没有明显界限,导致句子特征非常复杂、难以提取,现有的技术无法准确地识别出病历中的医疗知识。

发明内容

本发明所要解决的技术问题是:针对上述存在的问题,提供了一种从中文电子病历构建医疗知识图谱的方法,本方法通过数据预处理、知识提取和知识存储三个阶段,将医疗知识从中文电子病历中提取出来并存储,构建成医疗知识图谱。

本发明采用的技术方案如下:

一种从中文电子病历构建医疗知识图谱的半监督学习方法,包括:

步骤S1:获取中文电子病历的原始数据集,根据原始数据集中的中文电子病历设计出医疗知识描述体系,并人工标记医疗实体关系,初步构建中文电子病历标记语料库;

步骤S2:根据医疗知识描述体系,结合深度神经网络和机器学习算法,使用中文电子病历标记语料库训练知识提取模型,在训练过程中,结合半监督学习算法优化知识提取模型,同时逐步扩展中文电子病历标记语料库,最后使用优化后的知识提取模型从扩展后的中文电子病历标记语料库中提取出所有的医疗知识;

步骤S3:将提取出的医疗知识以三元组的格式存入Neo4j数据库,构建出医疗知识图谱。

其中,步骤S1具体包括:

步骤S11:从专业医学会议所发布的关于中文电子病历的测评任务中,获取中文电子病历的原始数据集;

步骤S12:通过对获取到的中文电子病历的文本特点进行分析,并参考已有的电子病历规范和知识图谱构建的相关权威文献,设计出医疗知识描述体系;

步骤S13:在专业医务人员的指导下,对不同来源的病历进行医疗实体标记的融合,并人工标记部分医疗实体关系,初步构建中文电子病历标记语料库;

步骤S14:对中文电子病历文本进行规范化和向量化处理,将规范化和向量化后的电子病历按一定的比例划分为训练集、测试集和开发集。

所述步骤S3具体包括:

步骤S31:从扩展后的中文电子病历标记语料库中提取出所有的医疗知识,并进行去重处理,之后以三元组的形式将其保存为csv文件;

步骤S32:将结构化的csv导入Neo4j数据库,生成最终的医疗知识图谱。

通过上述S1、S2、S3三个大步骤以及各个详细的小步骤,即可构建出医疗知识图谱。

进一步的,所述步骤S14包括:

步骤S141:对中文电子病历的文本进行规范化处理,包括去除病人隐私信息、切分长句、英文大小写转换和符号的全半角统一;

步骤S142:将病历文本转化为计算机能够识别的数值向量表示形式,原始输入句子设为S={c

进一步的,所述步骤S2中,知识提取模型的训练包括医疗实体识别和医疗关系抽取两个过程;

其中,在医疗实体识别过程中,先采用深度神经网络对中文电子病历的文本特征进行自动提取,并结合机器学习算法完成句子标签的自动标注,再使用爬虫代码从医疗健康网站爬取专业医学术语,并结合中文临床药物标准知识库和国际疾病分类编码,整理出中文常见医学术语词典,自动纠正识别错误的实体;

在医疗关系抽取过程中,采用深度神经网络以及机器学习算法自动学习文本特征,然后通过激活函数完成关系类别的预测,实现对医疗实体对之间的关系分类。

进一步的,所述步骤S2中,结合半监督学习算法优化知识提取模型的过程包括:

首先利用已经进行人工实体标记的标注集作为种子数据集,训练出一个初始的知识提取模型,通过初始的知识提取模型从未进行人工标记的未标注集中选择得分最高的示例,将示例与种子数据集合并得到新的标注集;

然后利用新的标注集再次训练知识提取模型,不断迭代,在知识提取模型得到优化的同时,不断更新标注集,从而扩展中文电子病历标记语料库的规模;

训练过程结束后,得到一个最终的知识提取模型和扩展后的中文电子病历标记语料库;最后使用优化后的模型自动地从扩展后的中文电子病历标记语料库中提取出所有的医疗知识。

进一步的,所述医疗知识描述体系包括实体的类型、概念和示例;以及包括实体关系的类型、概念和示例。

进一步的,所述深度神经网络包括长短期记忆网络、门控循环单元神经网络、图神经网络、卷积神经网络和注意力机制神经网络。

进一步的,所述激活函数包括softmax函数和sigmoid函数。

进一步的,所述测评任务包括中文电子病历命名实体识别、关系抽取、属性抽取和临床术语标准化。

与现有技术相比,采用上述技术方案的有益效果为:第一,对于获取到的原始电子病历数据集进行了一系列的数据预处理操作,使得构建出医疗知识图谱具有高精度和高质量,且不包含任何患者敏感信息,具有更广的适用范围。第二,在知识提取阶段结合使用深度神经网络和机器学习算法,与以往的技术相比,避免了繁杂的模板设计和特征工程,同时加入了中文常见医学术语词典,能有效减少医疗知识提取的错误。第三,采用了bootstrapping半监督学习算法扩展中文电子病历标记语料库的规模,同时结合了有监督方法和无监督方法的优势,节约了人工标记的成本。

附图说明

图1是本发明实施例提供的一种从中文电子病历构建医疗知识图谱的半监督学习方法流程示意图。

具体实施方式

下面结合附图对本发明做进一步描述。

如图1所示,本发明实施例提供一种从中文电子病历构建医疗知识图谱的半监督学习方法,主要包括三个阶段,分别是数据预处理阶段、知识提取阶段和知识存储阶段。

其中,数据预处理阶段主要内容为:获取中文电子病历的原始数据集,根据原始数据集中的中文电子病历设计出医疗知识描述体系,并人工标记医疗实体关系,初步构建中文电子病历标记语料库。

知识提取阶段主要内容为:根据医疗知识描述体系,结合深度神经网络和机器学习算法,使用中文电子病历标记语料库训练知识提取模型,在训练过程中,结合半监督学习算法优化知识提取模型,同时逐步扩展中文电子病历标记语料库,最后使用优化后的知识提取模型从扩展后的中文电子病历标记语料库中提取出所有的医疗知识;

知识提取阶段主要内容为:将提取出的医疗知识以三元组的格式存入Neo4j数据库,构建出医疗知识图谱。

具体的,在本实施例中,每个阶段的具体步骤如下:

A、数据预处理阶段。

步骤S1:从CCKS(全国知识图谱会议)的和CHIP(中国健康信息处理会议)所发布的关于中文电子病历命名实体识别、关系抽取、属性抽取和临床术语标准化等评测任务中,获取中文电子病历原始数据集。

步骤S2:通过对获取到的中文电子病历的文本特点进行分析,并参考已有的中文电子病历规范、知识图谱构建的相关权威文献,设计出医疗知识描述体系。医疗知识描述体系包括实体关系的类型、概念和示例等;以及包括实体的类型、概念和示例等。

步骤S3:针对获取到的病历中仅缺少医疗关系标记的问题,在专业医务人员的指导下,对不同来源的中文电子病历进行实体标记的融合,并人工标记部分医疗实体关系,初步构建小规模的中文电子病历标记语料库。

步骤S4:对中文电子病历文本进行规范化处理,包括去除病人隐私信息、切分长句、英文大小写转换、符号的全半角统一等。然后将中文电子病历文本转化为计算机能够识别的数值向量表示形式,原始输入句子设为S={c

B、知识提取阶段。

知识提取阶段根据构建好的医疗知识描述体系,结合深度神经网络和机器学习算法,使用标注集训练知识提取模型,知识提取模型的训练包括医疗实体识别(步骤S5)和医疗关系抽取(步骤S6)两个过程,在训练过程中采用半监督学习算法优化知识提取模型,同时不断扩展标注集(步骤S7)。该阶段的最后,使用优化后的模型自动地从扩展后的标注集中提取出所有的医疗知识。一条医疗知识由句子中任意两个医疗实体(指具有独立医学概念的术语)以及两个实体之间的关系组成。

步骤S5:医疗实体识别过程中,采用长短期记忆网络(LSTM)、门控循环单元(GRU)、图神经网络(GCN)、卷积神经网络(CNN)、注意力机制(attention machism)等深度神经网络对文本特征进行自动提取,并结合条件随机场(CRF)等机器学习算法完成句子标签的自动标注。实体表示为Entity={word,position,label},包含实体字符、实体位置和实体类型。其次,使用python语言编写爬虫代码从“39健康网”、“华健网”、“寻医问药”等医疗健康网站爬取专业医学术语,并结合中文临床药物标准知识库(NCCD)、国际疾病分类编码(ICD-10),整理出中文常见医学术语词典,自动纠正识别错误的实体。

步骤S6:医疗关系抽取过程是在步骤S5医疗实体识别过程的基础上,对于已经识别出的医疗实体对(指一个句子中出现的任意两个医疗实体),判断它们之间的关系。该过程首先采用深度神经网络以及机器学习算法自动学习文本特征,然后通过softmax、sigmoid等激活函数完成关系类别的预测。

步骤S7:采用bootstrapping半监督学习算法调整知识提取模型的训练过程(该训练过程由步骤S5和步骤S6组成):首先利用已经进行人工实体标记的标注集(Labeledset)作为种子数据集,训练出一个初始的知识提取模型,通过初始的知识提取模型从未标注集(Unlabeledset)中选择得分最高的示例,将示例与种子数据集合并得到新的标注集,然后利用新的标注集再次训练知识提取模型。不断迭代,在知识提取模型得到优化的同时,标注集也得到了更新,从而扩展了中文电子病历语料库的规模。训练过程结束后,将得到一个最终的知识提取模型(Extraction model)和扩展后的中文电子病历标记语料库(Extensionset)。最后使用优化后的知识提取模型自动地从扩展后的中文电子病历标记语料库中提取出所有的医疗知识。

C、知识存储阶段。

步骤S8:将知识提取阶段提取出的医疗知识进行去重处理,以三元组SPO

步骤S9:将得到的结构化的csv文件导入Neo4j数据库,生成最终的医疗知识图谱。通过使用match等语句搜索带疾病、症状等实体,并根据与其他医疗实体之间的关系,将相关治疗方案、检查手段反馈给医务人员,达到辅助医疗的作用。

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。如果本领域技术人员,在不脱离本发明的精神所做的非实质性改变或改进,都应该属于本发明权利要求保护的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号