首页> 中国专利> 基于药物名称挖掘自动发现药物成分的方法和装置

基于药物名称挖掘自动发现药物成分的方法和装置

摘要

本申请公开了一种基于药物名称挖掘自动发现药物成分的方法和装置。所述方法包括根据药物成分实体匹配模型,对待挖掘通用药物名集合进行匹配,得到未对应有成分实体的待挖掘通用药物名,以及所述待挖掘通用药物名对应的候选成分实体集合,其中,所述候选成分实体集合中包括至少一个候选成分实体;根据打分机制对所述候选成分实体集合中每个候选成分实体进行打分;选择评分最高的N个候选成分实体作为所述待挖掘通用药物名对应的有效候选成分实体,其中,N为大于0的整数。本申请解决了通过药物通用名称自动发现新药物成分的技术问题。

著录项

  • 公开/公告号CN112463895A

    专利类型发明专利

  • 公开/公告日2021-03-09

    原文格式PDF

  • 申请/专利权人 零氪科技(北京)有限公司;

    申请/专利号CN202011391719.4

  • 发明设计人 刘辉;曹代军;

    申请日2020-12-01

  • 分类号G06F16/28(20190101);G06F16/2458(20190101);

  • 代理机构11541 北京知果之信知识产权代理有限公司;

  • 代理人卜荣丽

  • 地址 100089 北京市海淀区海淀大街8号A座11层B区

  • 入库时间 2023-06-19 10:08:35

说明书

技术领域

本申请涉及数据处理技术领域,具体而言,涉及一种基于药物名称挖掘自动发现药物成分的方法和装置。

背景技术

在医疗领域药物名称往往包括商品名、通用名、成分名几个部分,商品名通常是药物的唯一标识,而通用名和成分名在不同的生产厂商是可能存在相同的。成分名标识了药物的主要成分,通用名通常除含有药物成分外还有药物制剂类型额外信息等。在医疗制药领域,药物成分名往往标识了药物的关键信息,挖掘分析市面上药物成分名往往是下游使用药物成分信息做研究的基础。

传统上对药物成分的分析往往依赖人工的先验知识,通过人工看通用名来整理出药物成分表,这会带来比较大的人力消耗,同时对于新药成分的发现也是滞后的。从通用名中获取成分名的问题,可以转化为实体抽取的过程,但是鉴于文本过短的问题,很难做到有效抽取。还可以人工设计模板,使用模板进行成分匹配,但这需要有经验的药物学专业人员介入,对经验要求较高,门槛比较高。

相关技术中从药物通用名中抽取出成分名,理论上可将该问题转化为实体抽取任务,目前实体抽取的方法比较多样,在不同的任务场景中表现各异。由于药物通用名文本较短,通用名本身可以看着是一种实体类型,在这种场景上下文语义信息并不明确,所以对药物成分名使用实体抽取并不太适用。

在实施本申请实施例的过程中,发明人发现相关技术至少存在以下问题:

相关技术中存在难以通过药物通用名进行数据分析得到药物成分的问题。

发明内容

本申请的主要目的在于提供一种基于药物名称挖掘自动发现药物成分的方法和装置,以相关技术中解决难以通过药物通用名进行数据分析得到药物成分的问题。

为了实现上述目的,第一方面,本申请实施例提供了一种基于药物名称挖掘自动发现药物成分的方法,包括:

根据药物成分实体匹配模型对待挖掘通用药物名集合进行匹配,得到未对应有成分实体的待挖掘通用药物名以及所述待挖掘通用药物名对应的候选成分实体集合,其中,所述候选成分实体集合中包括至少一个候选成分实体;

根据打分机制对所述候选成分实体集合中每个候选成分实体进行打分;

选择评分最高的N个候选成分实体作为所述待挖掘通用药物名对应的有效候选成分实体,其中,N为大于0的整数。

可选地,所述方法还包括:

将药物成分实体种子库中每个成分实体种子在样本通用药物名集合中进行匹配,得到多个匹配模型,其中,所述药物成分实体种子库中包含多个成分实体种子,所述样本通用药物名集合包含有多种不同的通用药物名,且每个通用药物名均对应有成分实体;

根据打分机制对所述多个匹配模型中的每个匹配模型进行打分;

将所述评分最高的K个匹配模型作为所述药物成分实体匹配模型,其中,K为大于0的整数。

可选地,该方法还包括:

获取所述样本通用药物名集合。

可选地,该方法还包括:

在所述待挖掘通用药物名对应的有效候选成分实体中确定出所述待挖掘通用药物名对应的成分实体;

将所述待挖掘通用药物名对应的成分实体在所述药物成分实体种子库进行更新。

可选地,该方法还包括:

获取多个不同的待挖掘通用药物名集合。

第二方面,本申请还提供了一种基于药物名称挖掘自动发现药物成分的装置,包括:

第一匹配模块,用于根据药物成分实体匹配模型对待挖掘通用药物名集合进行匹配,得到未对应有成分实体的待挖掘通用药物名以及所述待挖掘通用药物名对应的候选成分实体集合,其中,所述候选成分实体集合中包括至少一个候选成分实体;

第一打分模块,用于根据打分机制对所述候选成分实体集合中每个候选成分实体进行打分;

选择模块,用于选择评分最高的N个候选成分实体作为所述待挖掘通用药物名对应的有效候选成分实体,其中,N为大于0的整数。

可选地,所述装置还包括:

第二匹配模块,将药物成分实体种子库中每个成分实体种子在样本通用药物名集合中进行匹配,得到多个匹配模型,其中,所述药物成分实体种子库中包含多个成分实体种子,所述样本通用药物名集合包含有多种不同的通用药物名,且每个通用药物名均对应有成分实体;

第二打分模块,用于根据打分机制对所述多个匹配模型中的每个匹配模型进行打分,得到评分最高的匹配模型;

第一确定模块,用于将所述评分最高的匹配模型作为所述药物成分实体匹配模型。

可选地,该装置还包括:

获取模块,用于获取所述样本通用药物名集合。

可选地,该装置还包括:

第二确定模块,用于在所述待挖掘通用药物名对应的有效候选成分实体中确定出所述待挖掘通用药物名对应的成分实体;

更新模块,用于将所述待挖掘通用药物名对应的成分实体在所述药物成分实体种子库进行更新。

第三方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机代码,当计算机代码被执行时,上述的图像识别模块训练方法被执行。。

在本申请实施例中,通过根据药物成分实体匹配模型对待挖掘通用药物名集合进行匹配,得到未对应有成分实体的待挖掘通用药物名以及所述待挖掘通用药物名对应的候选成分实体集合,其中,所述候选成分实体集合中包括至少一个候选成分实体;根据打分机制对所述候选成分实体集合中每个候选成分实体进行打分;选择评分最高的N个候选成分实体作为所述待挖掘通用药物名对应的有效候选成分实体,其中,N为大于0的整数。这样,本方法的整个流程不需人工介入,相较于传统方法人工设计patter提取,减少了对人工的依赖,同时由于自动挖掘,可在互联网上大规模数据上应用,达到自动发现新药成分的目的。进而解决了难以通过药物通用名进行数据分析得到药物成分的技术问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是根据本申请实施例提供的一种基于药物名称挖掘自动发现药物成分的方法的流程图;

图2是根据本申请实施例提供的一种基于药物名称挖掘自动发现药物成分的方法的整体流程图;

图3是根据本申请实施例提供的一种自动挖掘的匹配模式的示意图;

图4是根据本申请实施例提供的一组通用药物名的示意图;

图5根据本申请实施例提供的一组药物成分名称的示意图;

图6是根据本申请实施例提供的另一种基于药物名称挖掘自动发现药物成分的方法的流程图;

图7是根据本申请实施例提供的一种基于药物名称挖掘自动发现药物成分的装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明实施例提供了一种基于药物名称挖掘自动发现药物成分的方法,图1是根据本申请实施例提供的一种基于药物名称挖掘自动发现药物成分的方法的流程图,如图1所示,该方法包括如下步骤110至步骤130:

110,根据药物成分实体匹配模型对待挖掘通用药物名集合进行匹配,得到未对应有成分实体的待挖掘通用药物名以及所述待挖掘通用药物名对应的候选成分实体集合,其中,所述候选成分实体集合中包括至少一个候选成分实体。

其中,成分实体即为药物成分名称。

具体的,根据以获取的药物成分实体匹配模型对待挖掘通用药物名集合(例如,图4中的通用药物名)中的每个通用药物名进行匹配,由于药物成分实体匹配模型可以确定出对应有成分实体的待挖掘通用药物名,因此,药物成分实体匹配模型可以先确定出未对应有成分实体的待挖掘通用药物名,进而再计算出所述待挖掘通用药物名对应的候选成分实体集合,其中,所述候选成分实体集合中包括至少一个候选成分实体(例如,图5中的药物成分名称),也就是说,每个待挖掘通用药物名至少对应有一个候选成分实体。例如,如图2所示,根据pattern(模型)解析实体可以得到候选药物(待挖掘通用药物名)复方喜树碱贴片,候选成分实体为喜树碱贴。

120,根据打分机制对所述候选成分实体集合中每个候选成分实体进行打分。

具体的,基于打分机制可以对候选成分实体集合中每个候选成分实体进行打分,进而得到每个候选成分实体对应的评分。该打分机制的方法可以如图2中实体置信度评估所示的计算公式进行评估打分。

130,选择评分最高的N个候选成分实体作为所述待挖掘通用药物名对应的有效候选成分实体,其中,N为大于0的整数。

其中,N可以是预设值,例如,N可以取值为1、2、3、4等。

具体的,根据候选成分实体集合中每个候选成分实体的评分,对候选成分实体集合中每个候选成分实体进行评分排序,进而选取评分最高的N个候选成分实体作为所述待挖掘通用药物名对应的有效候选成分实体,从而将有效候选成分实体进行输出,这样,仅需要从N个有效候选成分实体确定出真实的成分实体即可,相较于传统方法人工设计patter提取,本申请实施例减少了对人工的依赖。

可选地,图6是根据本申请实施例提供的另一种基于药物名称挖掘自动发现药物成分的方法的流程图,如图6所示,所述方法还包括如下步骤010至步骤030:

010,将药物成分实体种子库中每个成分实体种子在样本通用药物名集合中进行匹配,得到多个匹配模型,其中,所述药物成分实体种子库中包含多个成分实体种子,所述样本通用药物名集合包含有多种不同的通用药物名,且每个通用药物名均对应有成分实体。

其中,由于样本通用药物名集合包含有多种不同的通用药物名,且每个通用药物名均对应有成分实体,因此,通过将药物成分实体种子库中每个成分实体种子在样本通用药物名集合中进行匹配,得到多个用于通用药物名与对应成分实体的匹配模型,如图3所示。

020,根据打分机制对所述多个匹配模型中的每个匹配模型进行打分。

具体的,基于打分机制可以对多个匹配模型中的每个匹配模型进行打分,进而得到每个匹配模型对应的评分。该打分机制的方法可以如图2中Pattern质量评估所示的计算公式进行评估打分。

030,将所述评分最高的K个匹配模型作为所述药物成分实体匹配模型,其中,K为大于0的整数。

具体的,其中,K可以是预设值,例如,K可以取值为2、3、4等。

具体的,根据每个匹配模型的评分,对全部候选成分实体进行评分排序,进而选取评分最高的K个匹配模型作为药物成分实体匹配模型,这样,每次自动挖掘均会重新选出K个匹配模型作为药物成分实体匹配模型,这样,本申请实施例以成分名种子实体库资源作为冷启动,使用匹配方法构建pattern集,然后对pattern集进行质量评估,选出合适的pattern,进一步在候选库中匹配成分实体,然后对成分实体进行置信度的评估,选择准确率高的药物成分作为有效成分实体,而随着药物成分实体种子库数据的完善和更新都会提高药物成分实体匹配模型的计算准确性,由于本申请实施例可以实施自动挖掘,可在互联网上大规模数据上应用,达到自动发现新药成分的目的。

可选地,该方法还包括以下步骤:

获取所述样本通用药物名集合。

具体的,获取所述样本通用药物名集合用于后面得到匹配pattern集(匹配模块集合)。

可选地,该方法还包括:

在所述待挖掘通用药物名对应的有效候选成分实体中确定出所述待挖掘通用药物名对应的成分实体;

将所述待挖掘通用药物名对应的成分实体在所述药物成分实体种子库进行更新。

具体的,在输出待挖掘通用药物名对应的N个有效候选成分实体后,仅需要从N个有效候选成分实体确定出真实的成分实体即可,该过程可以人工check一下药物成分实体的有效性,然后更新到药物成分实体种子库中,完成一轮迭代。

可选地,该方法还包括:

获取多个不同的待挖掘通用药物名集合。

具体的,可以应用互联网上大规模数据上应用,以获取多个不同的待挖掘通用药物名集合,进而完成基于药物名称挖掘自动发现药物成分。

在本申请实施例中,通过根据药物成分实体匹配模型对待挖掘通用药物名集合进行匹配,得到未对应有成分实体的待挖掘通用药物名以及所述待挖掘通用药物名对应的候选成分实体集合,其中,所述候选成分实体集合中包括至少一个候选成分实体;根据打分机制对所述候选成分实体集合中每个候选成分实体进行打分;选择评分最高的N个候选成分实体作为所述待挖掘通用药物名对应的有效候选成分实体,其中,N为大于0的整数。这样,本方法的整个流程不需人工介入,相较于传统方法人工设计patter提取,减少了对人工的依赖,同时由于自动挖掘,可在互联网上大规模数据上应用,达到自动发现新药成分的目的。进而解决了难以通过药物通用名进行数据分析得到药物成分的技术问题。

基于相同的技术构思,本申请还提供了一种基于药物名称挖掘自动发现药物成分的装置,如图7所示,包括:

第一匹配模块10,用于根据药物成分实体匹配模型对待挖掘通用药物名集合进行匹配,得到未对应有成分实体的待挖掘通用药物名以及所述待挖掘通用药物名对应的候选成分实体集合,其中,所述候选成分实体集合中包括至少一个候选成分实体;

第一打分模块20,用于根据打分机制对所述候选成分实体集合中每个候选成分实体进行打分;

选择模块30,用于选择评分最高的N个候选成分实体作为所述待挖掘通用药物名对应的有效候选成分实体,其中,N为大于0的整数。

可选地,所述装置还包括:

第二匹配模块,将药物成分实体种子库中每个成分实体种子在样本通用药物名集合中进行匹配,得到多个匹配模型,其中,所述药物成分实体种子库中包含多个成分实体种子,所述样本通用药物名集合包含有多种不同的通用药物名,且每个通用药物名均对应有成分实体;

第二打分模块,用于根据打分机制对所述多个匹配模型中的每个匹配模型进行打分,得到评分最高的匹配模型;

第一确定模块,用于将所述评分最高的匹配模型作为所述药物成分实体匹配模型。

可选地,该装置还包括:

获取模块,用于获取所述样本通用药物名集合。

可选地,该装置还包括:

第二确定模块,用于在所述待挖掘通用药物名对应的有效候选成分实体中确定出所述待挖掘通用药物名对应的成分实体;

更新模块,用于将所述待挖掘通用药物名对应的成分实体在所述药物成分实体种子库进行更新。

基于相同的技术构思,本申请还提供了一种存储介质,其内存储有处理器可执行指令,所述指令由一个或一个以上处理器加载,以执行上述的基于药物名称挖掘自动发现药物成分的方法。

基于相同的技术构思,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机代码,当计算机代码被执行时,上述的图像识别模块训练方法被执行。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的计算机可读存储介质的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。

本申请所涉及的计算机程序可以存储于计算机可读存储介质中,计算机可读存储介质可以包括:能够携带计算机程序代码的任何实体装置、虚拟装置、优盘、移动硬盘、磁碟、光盘、计算机存储器、只读计算机存储器(Read-Only Memory,ROM)、随机存取计算机存储器(Random Access Memory,RAM)、电载波信号、电信信号以及其他软件分发介质等。

显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号