首页> 中国专利> 文本结构化模型训练、医疗文本结构化方法及装置

文本结构化模型训练、医疗文本结构化方法及装置

摘要

本公开涉及数据处理技术领域,具体涉及一种文本结构化模型训练方法、装置、医疗文本结构化方法、装置、计算机可读存储介质及电子设备,所述方法包括:将医疗文本样本对应的目标实体对输入待训练文本结构化模型以判断目标实体对中目标实体是否存在关联关系,得到对应的判断结果;将目标实体对和对应的判断结果输入预设关系推理模块以输出医疗文本样本对应的结构化字段;根据医疗文本样本对应的标注字段确定结构化字段是否正确,得到对比结果;获取多个对比结果,并根据多个对比结果对待训练文本结构化模型进行训练直至待训练文本结构化模型收敛。本公开能够减少对医疗文本样本进行标注的工作量,提高标注效率,降低标注成本。

著录项

  • 公开/公告号CN113032469A

    专利类型发明专利

  • 公开/公告日2021-06-25

    原文格式PDF

  • 申请/专利权人 医渡云(北京)技术有限公司;

    申请/专利号CN201911351016.6

  • 发明设计人 丁浩洋;

    申请日2019-12-24

  • 分类号G06F16/25(20190101);G06F16/28(20190101);G06K9/62(20060101);

  • 代理机构11438 北京律智知识产权代理有限公司;

  • 代理人王辉;阚梓瑄

  • 地址 100191 北京市海淀区花园北路35号9号楼8层801

  • 入库时间 2023-06-19 11:35:49

说明书

技术领域

本公开涉及数据处理技术领域,具体而言,涉及一种文本结构化模型训练方法、文本结构化模型训练装置、医疗文本结构化方法、医疗文本结构化装置、计算机可读存储介质及电子设备。

背景技术

在医疗领域中,由于地域不同的原因,可能存在很多不同格式的数据,例如不同格式的病历、不同格式的收费单等。为了能够对不同格式的医疗数据进行统一管理和分析,往往需要对医疗文本进行结构化得到格式统一的数据,进而便于对数据进行统一管理、分析和处理。

目前,医疗文本数据的结构化通常通过结构化引擎实现。结构化引擎包括命名实体识别、关系判断和关系推理三个模块。其中,关系判断模块用于判断识别出的实体对是否有关联关系。关系判断通常有两种方法,一是通过经验建立人工规则,二是通过大规模的实体对样本以及对应的标注对文本结构化模型进行训练。

然而,上述两种方法中,第一种需要依赖于人工经验,规则表达能力有限,因此无法适用所有的医疗文本格式;第二种虽然能够适用所有的医疗文本格式,但是需要对医疗文本样本包含的所有实体之间的关系进行标注,标注的工作量较大,效率较低,成本较高。

需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种文本结构化模型训练方法、文本结构化模型训练装置、医疗文本结构化方法、医疗文本结构化装置、计算机可读存储介质及电子设备,进而至少在一定程度上克服相关技术中对医疗实体的关联关系进行标注时工作量大、效率低、成本高的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。

根据本公开的第一方面,提供了一种文本结构化模型训练方法,包括:

将医疗文本样本对应的目标实体对输入待训练文本结构化模型以判断所述目标实体对中的目标实体是否存在关联关系,得到对应的判断结果;

将所述目标实体对和对应的判断结果输入预设关系推理模块以输出所述医疗文本样本对应的结构化字段;

根据所述医疗文本样本对应的标注字段确定所述结构化字段是否正确,得到对比结果;

获取多个所述对比结果,并根据多个所述对比结果对所述待训练文本结构化模型进行训练直至所述待训练文本结构化模型收敛。

可选的,基于前述方案,根据所述对比结果对所述待训练文本结构化模型进行训练,包括:

计算所述待训练文本结构化模型的梯度值,根据所述对比结果对所述梯度值进行更新,并根据更新后的所述梯度值对所述待训练文本结构化模型进行训练。

可选的,基于前述方案,所述关联关系包括K种类别,所述待训练文本结构化模型包括与K种关联关系类别对应的K个关系判断文本结构化模型;其中,K取正整数;

所述将医疗文本样本对应的目标实体对输入待训练文本结构化模型以判断所述目标实体对中的目标实体是否存在关联关系,包括:

根据所述目标实体对中的目标实体的类型确定对应的关联关系类别;

根据所述关联关系类别将所述目标实体对输入对应的目标关系判断文本结构化模型,以确定所述目标实体对是否存在关联关系。

可选的,基于前述方案,所述根据所述对比结果对所述待训练文本结构化模型进行训练,包括:

计算所述目标关系判断文本结构化模型的梯度值,根据所述对比结果对所述梯度值进行更新,并根据更新后的所述梯度值对所述目标关系判断文本结构化模型进行训练。

可选的,基于前述方案,所述根据所述对比结果对所述梯度值进行更新,包括:

根据所述对比结果确定对应的反馈参数;

将所述梯度值与所述反馈参数相乘得到更新后的梯度值。

可选的,基于前述方案,所述根据所述医疗文本样本对应的标注字段确定所述结构化字段是否正确,包括:

在所述结构化字段与所述标注字段相同时,判断所述结构化字段正确;

在所述结构化字段与所述标注字段不同时,判断所述结构化字段错误。

可选的,基于前述方案,在所述将医疗文本样本对应的目标实体对输入待训练文本结构化模型以判断所述目标实体对中的目标实体是否存在关联关系之前,所述方法还包括:

对所述医疗文本样本进行命名实体识别和关系抽取以获取所述目标实体对。

根据本公开的第二方面,提供了一种医疗文本结构化方法,包括:对待处理医疗文本进行命名实体识别和关系抽取以获取所述目标实体对;

将所述目标实体对输入关系判断文本结构化模型以判断所述目标实体对中的目标实体是否存在关联关系;其中,所述关系判断文本结构化模型是根据上述第一方面所述的文本结构化模型训练方法训练得到的;

将所述目标实体对和对应的判断结果输入预设关系推理模块以输出所述医疗文本样本对应的结构化字段。

可选的,基于前述方案,所述关联关系包括K种类别,所述关系判断文本结构化模型包括与K种关联关系类别对应的K个关系判断文本结构化模型;其中,K取正整数;

所述将所述目标实体对输入待训练文本结构化模型以判断所述目标实体对中的目标实体是否存在关联关系,包括:

根据所述目标实体对中的目标实体的类型确定对应的关联关系类别;

根据所述关联关系类别将所述目标实体对输入对应的目标关系判断文本结构化模型,以确定所述目标实体对是否存在关联关系。

根据本公开的第三方面,提供了一种文本结构化模型训练装置,包括:

第一关系判断模块,用于将医疗文本样本对应的目标实体对输入待训练文本结构化模型以判断所述目标实体对中的目标实体是否存在关联关系,得到对应的判断结果;

第一结构化模块,用于将所述目标实体对和对应的判断结果输入预设关系推理模块以输出所述医疗文本样本对应的结构化字段;

字段对比模块,用于根据所述医疗文本样本对应的标注字段确定所述结构化字段是否正确,得到对比结果;

文本结构化模型训练模块,用于获取多个所述对比结果,并根据多个所述对比结果对所述待训练文本结构化模型进行训练直至所述待训练文本结构化模型收敛。

根据本公开的第四方面,提供了一种医疗文本结构化装置,包括:

实体识别模块,用于对待处理医疗文本进行命名实体识别和关系抽取以获取所述目标实体对;

第二关系判断模块,用于将所述目标实体对输入关系判断文本结构化模型以判断所述目标实体对中的目标实体是否存在关联关系;其中,所述关系判断文本结构化模型是根据权利要求1至7中任一项所述的文本结构化模型训练方法训练得到的;

第二结构化模块,用于将所述目标实体对和对应的判断结果输入预设关系推理模块以输出所述医疗文本样本对应的结构化字段。

根据本公开的第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述任意一示例性实施例所述的文本结构化模型训练方法或任意一示例性实施例所述的医疗文本结构化方法。

根据本公开实施例的第六方面,提供了一种电子设备,包括:

处理器;以及

存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述任意一示例性实施例所述的文本结构化模型训练方法或任意一示例性实施例所述的医疗文本结构化方法。

本公开实施例提供的技术方案可以包括以下有益效果:

本公开的一种实施例所提供的文本结构化模型训练方法,一方面,通过预设关系推理模块将待训练文本结构化模型输出的判断结果转换为医疗文本样本对应的结构化字段,进而根据该结构化字段与标注字段的对比结果对待训练文本结构化模型进行训练,能够将对医疗文本样本包含的所有目标实体之间的关联关系的标注转换为对结构化结果的标注,减少了对医疗文本样本进行标注的工作量,提高了结构化过程中的标注效率,降低了标注成本;另一方面,由于文本结构化模型训练的样本可以是各种医疗文本格式的样本,因此训练后的待训练文本结构化模型也能够适用所有的医疗文本格式。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:

图1示意性示出本公开示例性实施例中一种文本结构化模型训练方法的流程图;

图2示意性示出本公开示例性实施例中判断目标实体对中的目标实体是否存在关联关系的方法的流程图;

图3示意性示出本公开示例性实施例中根据医疗文本样本对应的标注字段确定结构化字段是否正确的方法的流程图;

图4示意性示出本公开示例性实施例中根据对比结果对梯度值进行更新的方法的流程图;

图5示意性示出本公开示例性实施例中一种文本结构化模型训练方法中数据流转示意图;

图6示意性示出本公开示例性实施例中一种医疗文本结构化方法的流程图;

图7示意性示出本公开示例性实施例中另一判断目标实体对中的目标实体是否存在关联关系的方法的流程图;

图8示意性示出本公开示例性实施例中一种文本结构化模型训练装置的组成示意图;

图9示意性示出本公开示例性实施例中一种医疗文本结构化装置的组成示意图;

图10示意性示出了适于用来实现本公开示例性实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参照附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

本公开示例性实施方式的文本结构化模型训练方法和/或医疗文本结构化方法可以由一服务器来实现,也就是说,服务器可以执行下述文本结构化模型训练方法和/或医疗文本结构化方法的各个步骤。在这种情况下,文本结构化模型训练方法和/或医疗文本结构化方法对应的装置、模块可以被配置为在该服务器中。另外,文本结构化模型训练的过程可以在一服务器上实现,医疗文本结构化的过程可以在另一服务器上实现,即文本结构化模型训练和文本结构化模型应用(医疗文本结构化)可以由两个不同的服务器执行。容易理解的是,文本结构化模型训练和文本结构化模型应用也可以基于同一服务器来实现,本示例性实施方式中对此不做特殊限定。

此外,应当理解的是,终端设备也可以实现下述方法的各个步骤,对应的装置、模块可以配置在终端设备上。例如,可以通过手机、平板电脑等终端设备对待处理医疗文本进行医疗文本结构化。

图1示意性示出了本公开的示例性实施方式的文本结构化模型训练方法的流程图。参照图1中所示,上述的文本结构化模型训练方法可以包括以下步骤:

步骤S110,将医疗文本样本对应的目标实体对输入待训练文本结构化模型以判断所述目标实体对中的目标实体是否存在关联关系,得到对应的判断结果。

在本公开的一种示例实施例中,所述医疗文本样本可以是一段文字或者一个医疗文本文档。在一段文字或者一个医疗文本文档中,可以存在多个目标实体。其中,目标实体是自定义的需要在医疗文本样本中识别的具有特定意义的实体。例如,地名、企业名等;再如,解剖部位、诊断、手术、症状、药品名称等。

在本公开的一种示例实施例中,由于需要将医疗文本样本对应的目标实体对输入待训练文本结构化模型中,因此在将医疗文本样本对应的目标实体对输入待训练文本结构化模型以判断所述目标实体对中的目标实体是否存在关联关系之前,所述方法还包括:对所述医疗文本样本进行命名实体识别和关系抽取以获取所述目标实体对。

在本公开的一种示例实施例中,首先通过命名实体识别对医疗文本样本进行识别以识别其中的实体,然后对识别出的实体进行关系抽取,得到目标实体对。例如通过命名实体识别对医疗文本样本识别出“感冒”“阿司匹林”时,可以抽取“感冒”和“阿司匹林”为目标实体对,以进一步判断两者之间的关联关系。

在本公开的一种示例实施例中,目标实体对之间的关联关系能有很多种类别。例如,病症和药品之间存在关联关系,药品和药效之间存在关联关系,这两种关联关系不同,属于不同类别的关联关系。针对不同类别的关联关系,由于关联关系的属性不同,因此可以通过针对不同关联关系类别分别训练对应的文本结构化模型进行判断,提高关系判断文本结构化模型的准确性。

具体的,在关联关系包括K种类别时,对应的待训练文本结构化模型可以包括与K种关联关系类别对应的K个关系判断文本结构化模型;其中,K取正整数。此时,将医疗文本样本对应的目标实体对输入待训练文本结构化模型以判断所述目标实体对中的目标实体是否存在关联关系,参照图2所示,可以包括如下步骤S210至S220:

步骤S210,根据所述目标实体对中的目标实体的类型确定对应的关联关系类别。

在本公开的一种示例实施例中,目标实体对中包括两个目标实体,可以根据两个目标实体的类型确定目标实体对可能存在的关联关系的类别。例如,在目标实体对包含的两个目标实体分别为“感冒”和“阿司匹林”时,“感冒”为病症、“阿司匹林”为药品名称,因此可以判断目标实体对可能存在的关联关系的类别为“病症与对应的药品”。

步骤S220,根据所述关联关系类别将所述目标实体对输入对应的目标关系判断文本结构化模型,以确定所述目标实体对是否存在关联关系。

在本公开的一种示例实施例中,根据关联关系类别分别将目标实体对输入对应的目标关系判断文本结构化模型,以将相同关联关系类别的目标实体对输入至相同的关系判断文本结构化模型,进而实现对各类别的关系判断文本结构化模型的训练。例如,上例中的目标实体对“感冒”和“阿司匹林”可能存在的关联关系类别为“病症与对应的药品”,则可以将该目标实体对输入至“病症与对应的药品”对应的关系判断文本结构化模型中。

步骤S120,将所述目标实体对和对应的判断结果输入预设关系推理模块以输出所述医疗文本样本对应的结构化字段。

在本公开的一种示例实施例中,将通过待训练文本结构化模型得到的目标实体对和对应的关联关系判断结果输入预设关系推理模块,预设关系推理模块可以根据目标实体对和对应的关联关系判断结果输出对应的结构化字段。例如,上例中的目标实体对“感冒”和“阿司匹林”存在“病症与对应的药品”的关系,因此可以输出对应的结构化字段“病症:感冒;处方:阿司匹林”;再如,目标实体对为“感冒”和“蒙脱石散”,由于“感冒”和“阿司匹林”不存在“病症与对应的药品”的关联关系,因此无法输出对应的结构化字段。

需要说明的是,预设关系推理模块可以根据不同领域的医疗文本进行不同的设置,其中的规则可以是简单的判断两者的关联关系,也可以是根据关联关系满足的条件进行对应的输出,还可以是其它方式,本公开对此不做特殊限制。此外,根据预设关系推理模块输出的结构化字段也可以根据不同领域的医疗文本进行对应的设置。

例如,在医疗文本样本中的两对目标实体对,分别为“流鼻涕”、“感冒”和“感冒”、“阿司匹林”,在“流鼻涕”、“感冒”存在“症状与对应病症”的关联关系,且“感冒”、“阿司匹林”存在“病症与对应的药品”的关联关系时,才可以输出“症状:流鼻涕;病症:感冒;处方:阿司匹林”的结构化字段。

步骤S130,根据所述医疗文本样本对应的标注字段确定所述结构化字段是否正确,得到对比结果。

在本公开的一种示例实施例中,在根据预设关系推理模块输出所述医疗文本样本对应的结构化字段后,可以将其与医疗文本样本对应的标注字段进行对比,以判断根据待训练文本结构化模型和预设关系推理模块得到的结构化字段是否正确。具体的,参照图3所示,可以包括如下步骤S310至S320:

步骤S310,在所述结构化字段与所述标注字段相同时,判断所述结构化字段正确。

步骤S320,在所述结构化字段与所述标注字段不同时,判断所述结构化字段错误。

在本公开的一种示例实施例中,在将结构化字段与对应的标注字段进行对比时,在结构化字段与标注字段相同时,可以判断出根据待训练文本结构化模型和预设关系推理模块处理后得到的结构化字段正确;在结构化字段与标注字段不同时,可以判断出根据待训练文本结构化模型和预设关系推理模块处理后得到的结构化字段错误。

需要说明的是,上述对结构化字段与标注字段进行对比时,可以根据样本医疗文本的结构化要求对相同或不相同进行定义。例如,可以要求在结构化字段与标注字段一字不差时,才认为两者相同;也可以要求在结构化字段与标注字段中的关键字相同时,就认为两者相同。

步骤S140,获取多个所述对比结果,并根据多个所述对比结果对所述待训练文本结构化模型进行训练直至所述待训练文本结构化模型收敛。

在本公开的一种示例实施例中,待训练文本结构化模型收敛是指通过将待训练文本结构化模型输出的目标实体对和对应的关联关系输入预设关系推理模块得到的结构化字段与标注字段的差别小于预设值。其中,预设值可以根据对文本结构化模型训练结果的要求进行设定。

在本公开的一种示例实施例中,根据对比结果对待训练文本结构化模型进行训练可以包括:计算所述待训练文本结构化模型的梯度值,根据所述对比结果对所述梯度值进行更新,并根据更新后的所述梯度值对所述待训练文本结构化模型进行训练。

在本公开的一种示例实施例中,可以根据梯度下降的方式对待训练文本结构化模型进行训练。此时,可以先根据待训练文本结构化模型判断目标实体对的关联关系时的输出结果计算待训练文本结构化模型对应的梯度值,然后根据对比结果对梯度值进行更新,最后根据更新后的梯度值对待训练文本结构化模型的参数进行更新,以完成对待训练文本结构化模型的训练。

此外,在本公开的一种示例实施例中,在关联关系包括K种类别时,对应的待训练文本结构化模型可以包括与K种关联关系类别对应的K个关系判断文本结构化模型;其中,K取正整数。此时,根据对比结果对待训练文本结构化模型进行训练可以包括:计算所述目标关系判断文本结构化模型的梯度值,根据所述对比结果对所述梯度值进行更新,并根据更新后的所述梯度值对所述目标关系判断文本结构化模型进行训练。

在本公开的一种示例实施例中,由于每次输入的医疗文本样本所包括的目标实体对有可能无法同时包括K种关联关系类别,因此在一个医疗文本样本输入时,有的关系判断文本结构化模型可能并无目标实体对输入,有的关系判断文本结构化模型可能有多个目标实体对输入。在这种情况下,在根据对比结果对待训练文本结构化模型进行训练时,需要计算本次有输入的目标关系判断文本结构化模型的梯度值,然后对目标关系判断文本结构化模型的梯度值进行更新,进而对目标关系判断文本结构化模型进行训练。在这种情况下,文本结构化模型训练方法中的数据流转如图5所示。

举例而言,在根据所述对比结果对所述梯度值进行更新时,可以根据结构化字段与标注字段的对比结果确定一个反馈参数,根据反馈参数对待训练文本结构化模型或者待训练文本结构化模型中的目标关系判断文本结构化模型的梯度值进行更新。

此时,参照图4所示,根据所述对比结果对所述梯度值进行更新可以包括如下步骤S410至S420:

步骤S410,根据所述对比结果确定对应的反馈参数。

在本公开的一种示例实施例中,所述反馈参数可以用于反馈结构化字段正确或者错误。举例而言,在结构化字段正确时,反馈参数可以取1;在结构化字段错误时,反馈参数可以取-1。需要说明的是,反馈参数的设定可以根据医疗文本样本所属的领域、预设关系推理模块的规则设定进行具体的设定,本公开对此不做特殊限定。例如,在预设关系推理模块中包括n个条件确定一个输出时,可以将反馈参数设定为

步骤S420,将所述梯度值与所述反馈参数相乘得到更新后的梯度值。

在本公开的一种示例实施例中,可以通过将反馈参数与梯度值相乘的方式对梯度值进行更新,得到更新后的梯度值,进而根据更新后的梯度值对待训练文本结构化模型或者待训练文本结构化模型中的目标关系判断文本结构化模型进行训练。

此外,由于在训练过程中使用的命名实体识别方法有可能无法识别所有的目标实体,因此可能导致最终的结构化字段与标注字段不同的情况。为了避免这种情况,可以在命名实体识别得到目标实体后,根据识别出的目标实体对医疗文本文档进行标注,得到标注字段,避免在标注字段中出现未被识别的目标实体导致的结构化字段错误的问题。

此外,在本公开的一种示例实施例中,还提供了一种医疗文本结构化方法,参照图6所示,包括如下步骤S610至S630:

步骤S610,对待处理医疗文本进行命名实体识别和关系抽取以获取所述目标实体对。

在本公开的一种示例实施例中,通过对待处理医疗文本进行命名实体识别和关系抽取,可以得到可能存在关联关系的两个目标实体,形成目标实体对。

步骤S620,将所述目标实体对输入关系判断文本结构化模型以判断所述目标实体对中的目标实体是否存在关联关系。

在本公开的一种示例实施例中,关系判断文本结构化模型是根据上述文本结构化模型训练方法训练得到的。在关联关系包括K种类别时,对应的关系判断文本结构化模型包括与K种关联关系类别对应的K个关系判断文本结构化模型。此时,参考图7所示,可以通过以下步骤S710至S720判断目标实体对中的目标实体是否存在关联关系:

步骤S710,根据所述目标实体对中的目标实体的类型确定对应的关联关系类别;

步骤S720,根据所述关联关系类别将所述目标实体对输入对应的目标关系判断文本结构化模型,以确定所述目标实体对是否存在关联关系。

在本公开的一种示例实施例中,在包括K种关联关系类别时,可以根据目标实体对中目标实体的类型确定目标实体对可能存在的关联关系类别,然后将其输入至对应的类型的目标关系判断文本结构化模型中,输出目标实体对是否存在该类型的关联关系,得到判断结果。

步骤S630,将所述目标实体对和对应的判断结果输入预设关系推理模块以输出结构化字段。

在本公开的一种示例实施例中,将步骤S620中得到的目标实体对和对应的判断结果输入预设关系推理模块,可以得到医疗文本样本对应的结构化字段。需要说明的是,预设关系推理模块可以与上述文本结构化模型训练方法中的预设关系推理模块相同,也可以是其它的关系推理模块。但是由于训练关系判断文本结构化模型时使用的预设关系推理模块与训练得到的关系判断文本结构化模型更加匹配,因此得到的结构化字段也会更加匹配。

需要注意的是,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。

以下介绍本公开的装置实施例,可以用于执行本公开上述的文本结构化模型训练方法。参照图8所示,所述文本结构化模型训练装置800包括:第一关系判断模块810,第一结构化模块820,字段对比模块830和文本结构化模型训练模块840。

其中,所述第一关系判断模块810可以用于将医疗文本样本对应的目标实体对输入待训练文本结构化模型以判断所述目标实体对中的目标实体是否存在关联关系,得到对应的判断结果;所述第一结构化模块820可以用于将所述目标实体对和对应的判断结果输入预设关系推理模块以输出所述医疗文本样本对应的结构化字段;所述字段对比模块830可以用于根据所述医疗文本样本对应的标注字段确定所述结构化字段是否正确,得到对比结果;所述文本结构化模型训练模块840可以用于获取多个所述对比结果,并根据多个所述对比结果对所述待训练文本结构化模型进行训练直至所述待训练文本结构化模型收敛。

在本公开的一种示例性实施例中,基于前述方案,所述文本结构化模型训练模块840可以用于计算所述待训练文本结构化模型的梯度值,根据所述对比结果对所述梯度值进行更新,并根据更新后的所述梯度值对所述待训练文本结构化模型进行训练。

在本公开的一种示例性实施例中,基于前述方案,所述第一关系判断模块810可以用于根据所述目标实体对中的目标实体的类型确定对应的关联关系类别;根据所述关联关系类别将所述目标实体对输入对应的目标关系判断文本结构化模型,以确定所述目标实体对是否存在关联关系。

在本公开的一种示例性实施例中,基于前述方案,所述文本结构化模型训练模块840可以用于计算所述目标关系判断文本结构化模型的梯度值,根据所述对比结果对所述梯度值进行更新,并根据更新后的所述梯度值对所述目标关系判断文本结构化模型进行训练。

在本公开的一种示例性实施例中,基于前述方案,所述文本结构化模型训练模块840可以用于根据所述对比结果确定对应的反馈参数;将所述梯度值与所述反馈参数相乘得到更新后的梯度值。

在本公开的一种示例性实施例中,基于前述方案,所述字段对比模块830可以用于在所述结构化字段与所述标注字段相同时,判断所述结构化字段正确;在所述结构化字段与所述标注字段不同时,判断所述结构化字段错误。

在本公开的一种示例性实施例中,基于前述方案,所述第一关系判断模块810可以用于对所述医疗文本样本进行命名实体识别和关系抽取以获取所述目标实体对。

此外,在本公开的一种示例性实施例中还提供一种医疗文本结构化装置,可以用于执行本公开上述的医疗文本结构化方法。参照图9所示,所述医疗文本结构化装置900包括:实体识别模块910,第二关系判断模块920和第二结构化模块930。

其中,所述实体识别模块910可以用于对待处理医疗文本进行命名实体识别和关系抽取以获取所述目标实体对;所述第二关系判断模块920可以用于将所述目标实体对输入关系判断文本结构化模型以判断所述目标实体对中的目标实体是否存在关联关系;其中,所述关系判断文本结构化模型是根据上述文本结构化模型训练方法训练得到的;所述第二结构化模块930可以用于将所述目标实体对和对应的判断结果输入预设关系推理模块以输出所述医疗文本样本对应的结构化字段。

在本公开的一种示例性实施例中,基于前述方案,所述第二关系判断模块920可以用于根据所述目标实体对中的目标实体的类型确定对应的关联关系类别;根据所述关联关系类别将所述目标实体对输入对应的目标关系判断文本结构化模型,以确定所述目标实体对是否存在关联关系。

由于本公开的示例实施例的文本结构化模型训练装置和医疗文本结构化装置的各个功能模块与上述文本结构化模型训练方法和医疗文本结构化方法的示例实施例的步骤对应,因此对于本公开装置实施例中未披露的细节,请参照本公开上述的文本结构化模型训练方法和医疗文本结构化方法的实施例。

应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外,在本公开的示例性实施例中,还提供了一种能够实现上述文本结构化模型训练方法和医疗文本结构化方法的电子设备。

所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施例、完全的软件实施例(包括固件、微代码等),或硬件和软件方面结合的实施例,这里可以统称为“电路”、“模块”或“系统”。

下面参照图10来描述根据本公开的这种实施例的电子设备1000。图10显示的电子设备1000仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。

如图10所示,电子设备1000以通用计算设备的形式表现。电子设备1000的组件可以包括但不限于:上述至少一个处理单元1010、上述至少一个存储单元1020、连接不同系统组件(包括存储单元1020和处理单元1010)的总线1030、显示单元1040。

其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元1010执行,使得所述处理单元1010执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施例的步骤。例如,所述处理单元1010可以执行如图1中所示的步骤S110:将医疗文本样本对应的目标实体对输入待训练文本结构化模型以判断所述目标实体对中的目标实体是否存在关联关系,得到对应的判断结果;S120:将所述目标实体对和对应的判断结果输入预设关系推理模块以输出所述医疗文本样本对应的结构化字段;S130:根据所述医疗文本样本对应的标注字段确定所述结构化字段是否正确,得到对比结果;S140:获取多个所述对比结果,并根据多个所述对比结果对所述待训练文本结构化模型进行训练直至所述待训练文本结构化模型收敛。

又如,所述的电子设备可以实现如图2至图6所示的各个步骤。

存储单元1020可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)1021和/或高速缓存存储单元1022,还可以进一步包括只读存储单元(ROM)1023。

存储单元1020还可以包括具有一组(至少一个)程序模块1025的程序/实用工具1024,这样的程序模块1025包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1030可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1000也可以与一个或多个外部设备1070(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备1000交互的设备通信,和/或与使得该电子设备1000能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1050进行。并且,电子设备1000还可以通过网络适配器1060与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1060通过总线1030与电子设备1000的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备1000使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施例的方法。

在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施例的步骤。

此外,本公开的示例性实施例中还提供了一种用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号