首页> 中国专利> 病案自动编码方法、装置、电子设备及存储介质

病案自动编码方法、装置、电子设备及存储介质

摘要

本公开实施例提供了一种病案自动编码方法、装置、电子设备及计算机可读存储介质,属于医疗数据技术领域,该病案自动编码方法包括:获取待处理的医疗数据;结合医疗分类模型和医疗注意力模型对所述待处理的医疗数据进行病案编码分类识别,以得到所述待处理的医疗数据的分类结果;通过所述分类结果确定所述待处理的医疗数据对应的编码信息。本公开实施例能够自动确定待处理的医疗数据的编码信息,提高编码信息确定的准确性。

著录项

  • 公开/公告号CN113012774A

    专利类型发明专利

  • 公开/公告日2021-06-22

    原文格式PDF

  • 申请/专利权人 医渡云(北京)技术有限公司;

    申请/专利号CN201911310848.3

  • 发明设计人 丁浩洋;

    申请日2019-12-18

  • 分类号G16H10/60(20180101);G06F16/35(20190101);

  • 代理机构11438 北京律智知识产权代理有限公司;

  • 代理人王辉;阚梓瑄

  • 地址 100191 北京市海淀区花园北路35号9号楼8层801

  • 入库时间 2023-06-19 11:32:36

说明书

技术领域

本公开实施例涉及医疗数据技术领域,具体而言,涉及一种病案自动编码方法、病案自动编码装置、电子设备及计算机可读存储介质。

背景技术

医院病案管理部门可以将每个患者病历整理归档,为患者分配国际疾病分类编码是其中一个重要过程。

相关技术中,一般由人工按照出院诊断信息以及电子病历的其他信息,依据专业知识并参照码表完成编码。在这种方式中,工作效率较低且对人工的知识范围要求较多,具有一定的依赖性和局限性。另外,对同一个数据进行处理时,得到的结果可能不同,因此一致性和可靠性较差。并且可能导致误识别,从而使得编码错误,准确性较低。

需要说明的是,在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开实施例的目的在于提供一种病案自动编码方法、病案自动编码装置、电子设备及计算机可读存储介质,进而至少在一定程度上克服效率较低以及可靠性较差的问题。

本公开实施例的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。

根据本公开实施例的一个方面,提供一种病案自动编码方法,包括:获取待处理的医疗数据;结合医疗分类模型和医疗注意力模型对所述待处理的医疗数据进行病案编码分类识别,以得到所述待处理的医疗数据的分类结果;通过所述分类结果确定所述待处理的医疗数据对应的编码信息。

在本公开的一种示例性实施例中,结合医疗分类模型和医疗注意力模型对所述待处理的医疗数据进行病案编码分类识别,以得到所述待处理的医疗数据的分类结果包括:通过所述医疗分类模型对所述待处理的医疗数据进行特征提取,以确定所述待处理的医疗数据的特征表示;基于所述医疗注意力模型对所述特征表示进行加权处理,得到所述待处理的医疗数据的文本表示;根据所述待处理的医疗数据的文本表示确定所述分类结果。

在本公开的一种示例性实施例中,所述方法还包括:通过历史医疗数据以及所述历史医疗数据的真实编码信息对机器学习模型进行训练,并将训练好的机器学习模型作为所述医疗分类模型。

在本公开的一种示例性实施例中,通过历史医疗数据以及所述历史医疗数据的编码信息对机器学习模型进行训练包括:获取所述历史医疗数据对应的词嵌入向量表示;根据所述词嵌入向量表示以及所述历史医疗数据的所述真实编码信息,对所述机器学习模型进行训练,以得到所述训练好的机器学习模型。

在本公开的一种示例性实施例中,获取所述历史医疗数据对应的词嵌入向量表示包括:获取第一类型数据和第二类型数据作为所述历史医疗数据,并对所述历史医疗数据进行分词处理得到分词后的历史医疗数据;根据所述分词后的历史医疗数据训练所述词嵌入向量表示。

在本公开的一种示例性实施例中,根据所述词嵌入向量表示以及所述历史医疗数据的所述真实编码信息,对所述机器学习模型进行训练,以得到所述训练好的机器学习模型包括:根据所述词嵌入向量表示确定所述历史医疗数据的预测编码信息;基于所述预测编码信息与所述真实编码信息对所述机器学习模型进行训练,以得到所述训练好的机器学习模型。

在本公开的一种示例性实施例中,根据所述词嵌入向量表示确定所述历史医疗数据的预测编码信息包括:将所述词嵌入向量表示输入所述机器学习模型,以得到历史特征表示;对多个编码信息配置编码向量,并将所述历史医疗数据对应的历史特征表示与所述编码向量进行匹配,以确定匹配度;根据所述匹配度对所述历史特征表示进行加权处理,以得到文本表示;根据所述文本表示确定所述历史医疗数据的所述预测编码信息。

在本公开的一种示例性实施例中,将所述历史医疗数据对应的历史特征表示与所述编码向量进行匹配,以确定匹配度包括:将所述历史特征表示与所述编码向量进行第一逻辑操作,以得到所述历史特征表示与所述编码信息之间的匹配度。

在本公开的一种示例性实施例中,根据所述匹配度对所述历史特征表示进行加权处理,以得到文本表示包括:将所述匹配度以及每个所历史特征表示进行第二逻辑操作,以确定所述文本表示。

根据本公开的一个方面,提供一种病案自动编码装置,包括:数据获取模块,用于获取待处理的医疗数据;编码分类模块,用于结合医疗分类模型和医疗注意力模型对所述待处理的医疗数据进行病案编码分类识别,以得到所述待处理的医疗数据的分类结果;编码确定模块,用于通过所述分类结果确定所述待处理的医疗数据对应的编码信息。

根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意一项所述的病案自动编码方法。

根据本公开的一个方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的病案自动编码方法。

本公开实施例提供的病案自动编码方法、装置、电子设备和计算机可读存储介质中,由于通过医疗分类模型确定待处理的医疗数据的特征表示,并进一步在特征表示的基础上由医疗注意力模型确定待处理的医疗数据的分类结果,进而根据分类结果确定待处理的医疗数据的编码信息。一方面,由于可以通过模型对待处理的医疗数据进行病案预测分类,以自动完成对待处理的医疗数据的病案编码过程,避免了人工操作时对知识范围的依赖性和导致的局限性,提高了编码效率。另一方面,由于是通过同样的编码规则确定待处理的医疗数据的编码信息,避免了人工方式中对同一个数据的结果因人而异的问题,提高了一致性和可靠性。再一方面,由于通过历史医疗数据训练得到医疗分类模型和医疗注意力模型,并通过模型准确确定数据的特征并进行自动分类识别,能够避免误识别的情况,同时提高了确定编码信息的准确性。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:

图1示意性示出了本公开实施例的病案自动编码方法的流程示意图;

图2示意性示出了本公开实施例的确定训练好的机器学习模型的流程示意图;

图3示意性示出了本公开实施例的模型训练的流程示意图;

图4示意性示出了本公开实施例的确定预测编码信息的流程示意图;

图5示意性示出了根据本公开实施例的病案自动编码装置的框图;

图6示意性示出了用来实现上述病案自动编码方法的电子设备的框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。

此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。

为了解决上述问题,本公开实施例中首先提出一种病案自动编码方法,该病案自动编码方法可以应用于对医疗数据进行处理的应用场景。该病案自动编码方法的执行主体可以为服务器,参考图1所示,该病案自动编码方法可以包括步骤S110、步骤S120以及步骤S130。其中:

在步骤S110中,获取待处理的医疗数据;

在步骤S120中,结合医疗分类模型和医疗注意力模型对所述待处理的医疗数据进行病案编码分类识别,以得到所述待处理的医疗数据的分类结果;

在步骤S130中,通过所述分类结果确定所述待处理的医疗数据对应的编码信息。

在本公开的示例实施例所提供的技术方案中,一方面,由于可以通过模型对待处理的医疗数据进行编码分类识别,以自动完成对待处理的医疗数据的自动编码过程,避免了人工操作时对知识范围的依赖性和导致的局限性,提高了编码效率。另一方面,由于是通过同样的编码规则确定待处理的医疗数据的编码信息,避免了人工方式中对同一个数据的结果因人而异的问题,提高了一致性和可靠性。再一方面,由于通过历史医疗数据训练得到医疗分类模型和医疗注意力模型,能够避免误识别的情况,同时提高了确定编码信息的准确性。

接下来,结合附图对本公开实施例中的病案自动编码方法进行进一步解释说明。

在步骤S110中,获取待处理的医疗数据。

本公开实施例中,待处理的医疗数据可以为目标对象对应的数据。目标对象可以是预设场所中的患者,预设场所例如可以为医院或者是医疗中心等能够便于患者访问的机构。待处理的医疗数据可以为与该患者相关联的所有的医疗数据,例如每个患者所有的病历数据。病历数据用于记录目标对象在该预设场所中的所有记录。病历数据中可以包括多个类型的文本数据,多个类型可以包括但不限于目标对象的一诉五史、诊疗过程、诊断依据、术后病程记录、会诊记录以及检查结论中的任意一种或多种。

病历数据指的是目标对象就医的过程中所产生的病历中的数据,具体可以包括存储于电子病历数据库中的临床病历数据。该电子病历数据库可以是设置于终端设备中的用于存储医疗数据的数据仓库,也可以设于用于存储医疗数据的服务器。服务器可以从终端设备的数据仓库中获取病历数据,也可以从存储数据的服务器中获取病历数据。待处理的医疗数据的形式可以为文本数据,例如医生在病历中输入或者是手动写入的文本,此处不作限定。

在步骤S120中,结合医疗分类模型和医疗注意力模型对所述待处理的医疗数据进行病案编码分类识别,以得到所述待处理的医疗数据的分类结果。

本公开实施例中,医疗分类模型指的是用于对待处理的医疗数据进行分析,以用于识别和预测目标对象的待处理的医疗数据为哪一种编码信息的模型。医疗分类模型可以为任意合适的且能够进行分类的机器学习模型,举例而言,可以为决策树、神经网络模型、线性回归分析模型、支持向量机、随机森林模型中的任意一个,此处以机器学习模型为卷积神经网络模型为例进行说明。具体而言,医疗分类模型用于对待处理的医疗数据进行特征提取,以得到用于表示待处理的医疗数据的主要特征的特征数据。特征数据具体可以用特征表示来描述,特征表示指的是用于表示特征数据的形式。因此,特征表示为经过卷积神经网络得到的输出。

医疗注意力模型指的是基于注意力机制的网络,注意力机制可以让一个神经网络能够只关注其输入的一部分信息,它能够选择特定的输入。注意力机制可以被应用到任意类型的输入,不管其形状如何,对于矩阵形式的输入,例如图像或者是向量等等。在基于医疗分类模型得到特征表示之后,可以基于医疗注意力模型对从医疗分类模型得到的特征表示进行进一步处理,进而得到待处理的医疗数据的文本表示。文本表示指的是直接用于确定待处理的医疗数据的编码分类的特征数据,且文本表示可以与特征表示存在关联的。在文本分类中,文本需要转换为计算机算法能够处理的形式,所以文本表示的准确度直接影响着自然语言处理的结果的准确性。通过确定准确的文本表示,能够准确地确定待处理的医疗数据的特征,进而能够提高分类结果的准确性。

本公开实施例中,医疗注意力模型用于对待处理的医疗数据进行加权变化,例如对待处理的医疗数据中的所有数据计算出注意力权重,或者是在生成注意力权重后筛选掉一部分不符合条件的注意力,让它的注意力权重为0等等。医疗注意力模型主要用于将注意力集中在重要的数据上。医疗注意力模型的原理在于计算当前输入序列与输出向量的匹配程度,匹配度高也就是注意力集中点其相对的得分越高。医疗注意力模型的输入可以为特征表示对应的文本表示。通过医疗注意力模型对待处理的医疗数据进行筛选,能够从其中筛选出重要的数据,从而将注意力集中在重要的数据上,以提高数据处理的准确性。并且能够从病历数据中得到与编码信息有关的词语或句子,给出编码依据,增加可解释性。

在使用医疗分类模型之前,为了提高其准确性,可以首先对机器学习模型进行训练。此处可以采用编码信息已经确定的历史医疗数据对其进行训练,具体可以使用历史医疗数据以及历史医疗数据的真实编码信息对机器学习模型进行训练,直至得到训练好的机器学习模型并将其作为医疗分类模型。其中,历史医疗数据指的是该预设场所中多个对象的数据,多个对象的数据可以为除目标对象之外的其他对象的历史病历数据,也可以为目标对象的历史病历数据。

图2中示意性示出了确定训练好的机器学习模型的流程图,参考图2中所示,主要包括以下步骤:

在步骤S210中,获取所述历史医疗数据对应的词嵌入向量表示。

本步骤中,词嵌入向量指的是词汇中的单词被映射到相对于词汇量的大小而言低维空间的实数向量,可以为以词嵌入形式表示的词向量。也即是说,将历史医疗数据用词嵌入向量表示的形式来描述。词嵌入向量表示可以直接用于输入机器学习模型。具体而言,用于获取词嵌入向量表示的步骤S210可以包括步骤S211和步骤S212,其中:

在步骤S211中,获取第一类型数据和第二类型数据作为所述历史医疗数据,并对所述历史医疗数据进行分词处理,得到分词后的历史医疗数据;

在步骤S212中,根据所述分词后的历史医疗数据训练所述词嵌入向量表示。

本公开实施例中,第一类型数据与第二类型数据的来源不同,第一类型数据可以为病历数据中包含的数据,例如一诉五史、诊疗过程、诊断依据、术后病程记录、会诊记录、检查结论等自然文本数据;第二类型数据指的是出院记录中包含的数据,例如可以为出院记录中的诊断字段数据。基于此,可以根据第一类型数据和第二类型数据得到多个对象的历史医疗数据。

进一步地,可以对历史医疗数据进行分词,以得到分词后的历史医疗数据。具体可以采用分词算法对历史医疗数据进行分词,分词算法可以包括最小匹配算法、正向(逆向)最大匹配法、逐字匹配算法以及神经网络算法中的任意一种,此处不作限定。通过对历史医疗数据进行分词,能够更好地辅助进行自动识别语句含义,提高分类的准确性。

在得到分词后的历史医疗数据时,可以对分词后的历史医疗数据进行训练,以得到词嵌入向量表示。具体而言,可以通过word2vec模型或者是glove模型等对分词后的历史医疗数据进行训练,此处以word2vec模型为例进行说明。word2vec是一个自然语言处理工具,可以将所有的词汇向量化,以定量的度量词汇与词汇之间的关系。具体过程可以包括:使用Skip-Gram模型或者CBOW模型(连续词袋模型)获得(输入词,输出词)对。使用one-hot(独热编码)将输入词、输出词进行编码,以得到模型的训练样本。最后将编码过的输入词、输出词带入神经网络进行训练,输入矩阵乘输入-隐层权重矩阵结果即为输入词的词向量结果,从而得到每个分词后的历史医疗数据的词嵌入向量表示。举例而言,可以提取历史电子病历中的文本数据作为历史医疗数据,例如可以包括自然文本数据和出院记录中的诊断字段信息;进一步地对文本数据完成中文分词,并将分词后的文本数据表示为X。进一步可以提取对应病历中病案首页的ICD编码字段信息,表示为Y。通过将历史医疗数据表示为词嵌入向量表示,能通过分布式向量来描述数据,从而减少了计算和存储量。

在步骤S220中,根据所述词嵌入向量表示以及所述历史医疗数据的真实编码信息,对所述机器学习模型进行训练,以得到所述训练好的机器学习模型。

本公开实施例中,真实编码信息指的是人工标注的已经确定的编码信息,编码信息指的是ICD(International Classification of Diseases,国际疾病分类)编码。具体是根据疾病的某些特征,按照规则将疾病分门别类,并用编码的方法来表示。不同疾病信息的编码信息不同,且每个编码信息分别对应一种疾病信息。此处的编码信息指的是已经根据历史医疗数据进行了分类的编码信息,例如编码1、编码2等等。

机器学习模型可以通过历史医疗数据训练而得到,真实编码信息可以看作是历史医疗数据的标签,例如“1”代表编码1,“2”代表编码2等等。在此基础上可以将分词后的历史医疗数据对应的词嵌入向量表示作为机器学习模型的输入,将经过机器学习模型和医疗注意力模型得到的预测编码信息作为输出,以训练模型。在训练机器学习模型时,可以采用梯度下降算法进行模型训练。梯度下降算法可以包括批量梯度下降或者是随机梯度下降等等,此处不作特殊限定。当然也可以采用其他算法进行模型训练,此处不作特殊限定。

图3中示意性示出了对机器学习模型进行训练的流程图,且图3中的步骤是步骤S220的具体实现方式,参考图3中所示,主要包括以下步骤:

在步骤S310中,根据所述词嵌入向量表示确定所述历史医疗数据的预测编码信息。

本公开实施例中,预测编码信息指的是经过机器学习模型以及医疗注意力模型自动输出的历史医疗数据的编码信息。预测编码信息可以与真实编码信息相同,也可以不同,此处不作限定。

图4中示意性示出了确定预测编码信息的流程图,且图4中的步骤是步骤S310的具体实现方式,参考图4中所示,主要包括步骤S410至步骤S440,其中:

在步骤S410中,将所述词嵌入向量表示输入机器学习模型,以得到历史特征表示;

在步骤S420中,对多个编码信息配置编码向量,并将所述历史医疗数据对应的历史特征表示与所述编码向量进行匹配,以确定匹配度;

在步骤S430中,根据所述匹配度对所述历史特征表示进行加权处理,以得到所述文本表示;

在步骤S440中,根据所述文本表示确定所述历史医疗数据的所述预测编码信息。

本公开实施例中,由于此时是结合医疗注意力模型对机器学习模型进行训练,而机器学习模型的输出是特征表示,其输入是词嵌入向量表示。在确定预测编码信息时,是根据机器学习模型的输出得到的,因此此处首先可以将历史医疗数据的词嵌入向量表示输入机器学习模型,以得到历史医疗数据对应的历史特征表示,以便于根据历史特征表示来准确对历史医疗数据的编码信息进行预测。

例如,将词嵌入向量表示以及真实编码信息输入到卷积神经网络中,由卷积神经网络完成数据表征得到特征表示,由医疗注意力模型完成文本表示,进一步利用梯度下降方法完成模型训练。

本公开实施例中,分类结果为表示编码信息的标签或者是概率,则输出向量指的是编码信息对应的编码向量。基于此,可以通过医疗注意力模型对要输出的每个编码信息分别配置一个编码向量,以用于表示编码信息的主要特征,该编码向量与每个编码信息一一对应,且每个编码信息对应的编码向量可以不同。

进一步地,可以将历史医疗数据对应的历史特征表示与编码信息对应的编码向量进行匹配,以确定二者之间的匹配度,并根据匹配度对历史特征表示进行加权处理,以得到历史医疗数据的文本表示。匹配度指的即是计算的历史医疗数据的注意力权重,根据历史特征表示以及注意力权重,可以得到历史医疗数据的文本表示。具体地,每个编码信息会有一个编码向量表示,历史医疗数据中的每个标记或者理解成词语,也会有一个向量表示,例如历史特征表示。这两个向量长度一致,因此可以将二者进行匹配,以得到两个向量之间的匹配度。具体而言,可以将历史特征表示与编码向量进行第一逻辑操作,以得到历史特征表示与编码信息之间的匹配度。第一逻辑操作可以为点乘操作,以用于将两个向量转换为一个标量表示的匹配度。匹配度可以用于衡量该编码信息与该历史医疗数据(词语)之间的匹配程度。匹配度具体可以为一个分数或者是数值,匹配程度高,表示相关性强;匹配程度低,表示相关性弱。通过匹配分数高的词语或者短语,能够增加编码信息的可解释性或者依据。

进一步地,在得到匹配度之后,可以基于匹配度对历史医疗数据的历史特征表示进行加权处理,以得到用于描述整个历史医疗数据的文本表示。具体过程可以包括:将所述匹配度以及每个历史特征表示进行第二逻辑操作,以确定历史医疗数据对应的文本表示。第二逻辑操作指的是乘法操作以及加法操作。具体地,在得到的匹配度之后,历史医疗数据中每个词语都存在一个匹配分数,首先可以对所有的分数经过归一化处理,即将分数按一定比例或者按照某个函数映射之后缩放,使缩放后的分数之和等于1。进一步地,可将归一化之后的匹配度再分别乘以每个历史医疗数据中的词语的历史特征表示,得到多个相乘的结果;再将多个相乘的结果相加,得到整个历史医疗数据包含的词语的加权表示,这个表示作为整个历史医疗数据的文本表示,用来预测历史医疗数据的编码分类。需要说明的是,由于每个编码信息的编码向量不同,所以最后经过医疗注意力模型计算的每个编码信息对应的文本表示也不相同。

进一步地,可以将文本表示再次输入至医疗分类模型,可以得到历史医疗数据的预测编码信息。具体地,首先可以通过卷积操作进行特征提取,以确定历史医疗数据的特征表示和文本表示,进而进行后续的卷积和归一化过程等等,以确定历史医疗数据的类别标签。基于此,可以通过医疗分类模型以及医疗注意力模型来确定输入的历史医疗数据属于某一种编码信息的预测概率或者是预测标签,即历史医疗数据属于哪一种编码信息。举例而言,当历史医疗数据1属于编码信息1的预测概率大于某一个阈值,例如0.8时,可以认为历史医疗数据1对应的预测标签为1。进一步地,可以根据预测标签或者是预测概率确定历史医疗数据的预测编码信息。通过计算匹配度来对历史特征表示进行加权处理进而确定预测编码信息,能够为历史医疗数据确定出相关性较大的编码信息,从而提高了预测编码信息确定的准确性。

在步骤S320中,基于所述预测编码信息与所述真实编码信息对所述机器学习模型进行训练,以得到所述训练好的机器学习模型。

在此基础上,将预测编码信息与分词后的历史医疗数据对应的真实编码信息对比,在两者不相同时持续调整机器学习模型的参数,直至二者相同为止。通过多次迭代,得到准确率较高的训练好的机器学习模型,并将训练好的机器学习模型作为医疗分类模型。通过匹配度确定的额预测编码信息与真实编码信息进行对比,能够得到更准确的模型,且能够提高模型训练的效率和准确率。

在得到训练好的机器学习模型并将其作为医疗分类模型后,可以将目标对象的待处理的医疗数据输入至该医疗分类模型,以便于医疗分类模型对待处理的医疗数据进行特征提取,并对提取的特征数据进行卷积操作,从而得到待处理的医疗数据对应的特征表示,即特征向量。进一步地,可以将特征表示输入至医疗注意力模型,以便于通过医疗注意力模型将特征表示转换为更准确的文本表示。随后,可以将文本表示再次输入至机器学习模型中,根据文本表示对待处理的医疗数据进行编码分类识别,以得到每个待处理的医疗数据对应的分类结果。通过由匹配度训练得到的医疗分类模型,能够准确的确定分类结果。通过医疗注意力模型以及匹配度对待处理的医疗数据进行筛选,能够从其中筛选出重要的数据,从而将注意力集中在重要的数据上,以提高数据处理的准确性。并且能够从待处理的医疗数据中得到与编码信息有关的词语或句子,给出编码依据,增加可解释性。

在步骤S130中,通过所述分类结果确定所述待处理的医疗数据对应的编码信息。

本公开实施例中,分类结果的类别可以为预测标签或者是预测概率,具体根据模型的类别而不同。基于此,可以基于分类结果的类别确定对待处理的医疗数据的识别结果,进而确定待处理的医疗数据所属的编码信息。

本公开实施例中提供的技术方案,通过医疗分类模型和医疗注意力模型可以待处理的医疗数据自动进行编码,以得到待处理的医疗数据的ICD编码信息。引入自然语言处理方法,对病历数据自动完成病案编码推荐,解决了人工编码费时费力,提高了编码效率,解决了编码信息不一致的问题,同时通过有关的短语或者句子给出了编码依据,具体是指病历数据中与该编码为每个编码信息提供了编码依据,提供基于医疗注意力模型的可解释性。直接遍历推荐编码结果和对应依据,完成自动编码过程,增加了便捷性。

本公开实施例中,还提供了一种病案自动编码装置,参考图5中所示,该装置500主要包括:数据获取模块501、编码分类模块502以及编码确定模块503,其中:

数据获取模块501,可以用于获取待处理的医疗数据;

编码分类模块502,可以用于结合医疗分类模型和医疗注意力模型对所述待处理的医疗数据进行病案编码分类识别,以得到所述待处理的医疗数据的分类结果;

编码确定模块503,可以用于通过所述分类结果确定所述待处理的医疗数据对应的编码信息。

在本公开的一种示例性实施例中,编码分类模块包括:特征表示获取模块,用于通过所述医疗分类模型对所述待处理的医疗数据进行特征提取,以确定所述待处理的医疗数据的特征表示;文本表示获取模块,用于基于所述医疗注意力模型对所述特征表示进行加权处理,得到所述待处理的医疗数据的文本表示;分类结果确定模块,用于根据所述待处理的医疗数据的文本表示确定所述分类结果。

在本公开的一种示例性实施例中,所述装置还包括:模型训练模块,用于通过历史医疗数据以及所述历史医疗数据的真实编码信息对机器学习模型进行训练,并将训练好的机器学习模型作为所述医疗分类模型。

在本公开的一种示例性实施例中,模型训练模块包括:词向量确定模块,用于获取所述历史医疗数据对应的词嵌入向量表示;训练控制模块,用于根据所述词嵌入向量表示以及所述历史医疗数据的所述真实编码信息,对所述机器学习模型进行训练,以得到所述训练好的机器学习模型。

在本公开的一种示例性实施例中,词向量确定模块包括:数据分词模块,用于获取第一类型数据和第二类型数据作为所述历史医疗数据,并对所述历史医疗数据进行分词处理得到分词后的历史医疗数据;词向量训练模块,用于根据所述分词后的历史医疗数据训练所述词嵌入向量表示。

在本公开的一种示例性实施例中,根据所述词嵌入向量表示以及所述历史医疗数据的所述真实编码信息,对所述机器学习模型进行训练,以得到所述训练好的机器学习模型包括:根据所述词嵌入向量表示确定所述历史医疗数据的预测编码信息;基于所述预测编码信息与所述真实编码信息对所述机器学习模型进行训练,以得到所述训练好的机器学习模型。

在本公开的一种示例性实施例中,根据所述词嵌入向量表示确定所述历史医疗数据的预测编码信息包括:将所述词嵌入向量表示输入所述机器学习模型,以得到历史特征表示;对多个编码信息配置编码向量,并将所述历史医疗数据对应的历史特征表示与所述编码向量进行匹配,以确定匹配度;根据所述匹配度对所述历史特征表示进行加权处理,以得到文本表示;根据所述文本表示确定所述历史医疗数据的所述预测编码信息。

在本公开的一种示例性实施例中,将所述历史医疗数据对应的历史特征表示与所述编码向量进行匹配,以确定匹配度包括:将所述历史特征表示与所述编码向量进行第一逻辑操作,以得到所述历史特征表示与所述编码信息之间的匹配度。

在本公开的一种示例性实施例中,根据所述匹配度对所述历史特征表示进行加权处理,以得到文本表示包括:将所述匹配度以及每个所历史特征表示进行第二逻辑操作,以确定所述文本表示。

需要说明的是,本公开实施例的病案自动编码装置的各个功能模块与上述病案自动编码方法的示例实施例的步骤相同,因此此处不再赘述。

应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外,尽管在附图中以特定顺序描述了本发明中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。

在本发明的示例性实施例中,还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。

下面参照图6来描述根据本发明的这种实施方式的电子设备600。图6显示的电子设备600仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。

如图6所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:上述至少一个处理单元610、上述至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630以及显示单元640。

其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元610执行,使得所述处理单元610执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元610可以执行如图1中所示的步骤。

存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。

存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器660通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本发明实施方式的病案自动编码方法。

在本发明的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

根据本发明的实施方式的用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。

用于执行本发明操作的程序代码可以以一种或多种程序设计语言的任意组合来编写,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其他实施例。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由权利要求指出。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号