首页> 中国专利> 基于深度神经网络的中医文献指代词识别方法及装置

基于深度神经网络的中医文献指代词识别方法及装置

摘要

本发明公开了一种基于深度神经网络的中医文献指代词识别方法及装置,所述方法包括:提取中医文献的中医文本序列中的字符序列特征向量;根据字符序列特征向量得到中医文献的词序列特征向量;根据中医文献中的中医文本序列的相邻上下文之间的依赖关系,对所述词序列特征向量进行预测,并根据预测结果为对应的词序列特征向量指派一个指代词标签。本发明可以有效对中医文献中的指代词进行识别,从而便于下游任务的开展,例如问题问答、信息检索、信息抽取等。

著录项

  • 公开/公告号CN114861659A

    专利类型发明专利

  • 公开/公告日2022-08-05

    原文格式PDF

  • 申请/专利权人 成都信息工程大学;

    申请/专利号CN202210575047.5

  • 发明设计人 王亚强;梁海峰;唐聃;舒红平;

    申请日2022-05-24

  • 分类号G06F40/289(2020.01);G06F40/30(2020.01);G06N3/04(2006.01);

  • 代理机构北京元本知识产权代理事务所(普通合伙) 11308;

  • 代理人曹广生

  • 地址 610225 四川省成都市西南航空港经济开发区学府路1段24号

  • 入库时间 2023-06-19 16:17:34

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-23

    实质审查的生效 IPC(主分类):G06F40/289 专利申请号:2022105750475 申请日:20220524

    实质审查的生效

  • 2022-08-05

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及中医文献识别领域,具体的说,涉及一种基于深度神经网络的中医文献指代词识别方法及装置。

背景技术

由于信息技术和人工智能的快速发展,它们被广泛用于挖掘医学文本,包括中医文献。但是由于中医文献中频繁出现的指代引用给之前的自然语言处理任务带来了极大的挑战。我们收集了《妇科心法要诀》和《医学三字经》两篇中医文献的部分内容,对其中指代词的数量进行了一个统计。统计结果如下表1所示。

表1.指代词数量和句子数量统计

从上表中可以看出,在我们获得到的这两篇中医文献中,平均每句话大约含有0.6个到1个指代词。因此,指代词的识别对于中医文献的信息处理有着关键作用,例如更有利于下游任务如问题问答、信息抽取、信息检索的开展。

中医文献的指代词的识别属于自然语言处理下序列标注任务的实体识别范畴。在过去,针对序列标注任务下的实体识别,常常采用基于统计学习的方法,其中基于条件随机场(Conditional Random Fields,CRFs)的方法优于其它一般的统计学习方法,如最大熵马尔可夫模型(Maximum entropy Markov models,MEMMs)、隐马尔科夫模型(Hidden Markovmodels,HMMs)。条件随机场是一个用于建立概率模型以分割和标记序列数据的框架,它能结合文本上下文的观察特征,从而动态规划的高效训练与解码,克服了HMMs、MEMMs的输出独立性假设问题以及MEMMs的标注偏置问题。然而条件随机场和其他统计学习模型一样,需要手工制作繁杂的特征以及特定任务资源,耗费大量时间成本、人力成本;并且不能够抽取文本中丰富的语义特征。

然而近年来,因为深度神经网络其自身复杂的学习结构,拥有复杂丰富的特征表达能力和预测能力,有很多研究人员将它应用在自然语言处理任务中。深度神经网络具有多层非线性映射的深层结构,其优势之一是可以完成抽取文本丰富的语义特征;此外深度神经网络理论上可获取分布式表示,即通过逐层学习获取输入数据的主要驱动变量。

因此,本发明提出利用深度神经网络模型来对中医文献中的指代词进行识别。

发明内容

本发明提供了一种基于深度神经网络的中医文献指代词识别方法及装置,以解决现有技术中存在的耗费大量时间成本、人力成本,并且不能够抽取文本中丰富的语义特征等问题。

本发明的具体技术方案如下:

根据本发明的第一技术方案,提供一种基于深度神经网络的中医文献指代词识别方法,所述方法包括:提取中医文献的中医文本序列中的字符序列特征向量;根据字符序列特征向量得到中医文献的词序列特征向量;根据中医文献中的中医文本序列的相邻上下文之间的依赖关系,对所述词序列特征向量进行预测,并根据预测结果为对应的词序列特征向量指派一个指代词标签。

根据本发明的第二技术方案,提供一种基于深度神经网络的中医文献指代词识别装置,所述装置包括:卷积神经网络单元,被配置为提取中医文献的中医文本序列中的字符序列特征向量;双向长短期记忆网络单元,被配置为根据字符序列特征向量得到中医文献的词序列特征向量;无向图表示的马尔科夫随机场单元,被配置为根据中医文献中的中医文本序列的相邻上下文之间的依赖关系,对所述词序列特征向量进行预测,并根据预测结果为对应的词序列特征向量指派一个指代词标签。

根据本发明各个实施例公开的一种基于深度神经网络的中医文献指代词识别方法及装置,基于深度神经网络,通过字符序列特征向量来确定词序列特征向量,并为对应的词序列特征向量指派一个指代词标签,处理效率得到有效提升,并且可以抽取到文本中丰富的语义特征,提高识别的准确率。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。

图1示出了根据本发明实施例的一种基于深度神经网络的中医文献指代词识别方法的流程图。

图2示出了根据本发明实施例的一种基于深度神经网络的中医文献指代词识别方法所构建的模型结构图。

图3示出了根据本发明实施例的模型在中医文献中某例句“孕妇腹痛”序列上进行字符序列特征提取的过程。

图4示出了根据本发明实施例的中医文本词序列特征提取器在某句中医文本“孕妇腹痛,须审其痛”序列上获取词序列特征并通过用无向图表示的马尔科夫随机场进行预测指代词标签的流程图。

图5示出了根据本发明实施例所构造的中医文献语料示例图。

图6示出了根据本发明实施例的一种基于深度神经网络的中医文献指代词识别装置的结构图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定发明。

现在结合说明书附图对本发明做进一步的说明。

图1示出了根据本发明实施例的一种基于深度神经网络的中医文献指代词识别方法的流程图。本发明实施例提供一种基于深度神经网络的中医文献指代词识别方法,所述方法始于步骤S100,提取中医文献的中医文本序列中的字符序列特征向量。需要说明的是,本文中所述的“中医文献的中医文本序列”可以是现有的任意中医文献中的文本序列。文本序列具体可以是一句话或者一段话。在步骤S100中就是基于其中的一句话或一段话来提取到对应的字符序列特征向量。所述指代词标签包括中医文献疑问代词标签、中医文献指示代词标签、中医文献人称代词标签、中医文献人物标签以及中医文献事物标签。

在一些实施例中,利用中医文献的中医文本序列中的字符来训练卷积神经网络,将训练好的卷积神经网络作为字符序列特征提取器,以提取中医文献的中医文本序列中的字符序列特征向量。所述卷积神经网络具体可以是四层。

步骤S200,根据字符序列特征向量得到中医文献的词序列特征向量。

在一些实施例中,利用中医文献的字符序列特征来训练双向长短期记忆网络,将训练好的双向长短期记忆网络作为词序列特征提取器,以根据字符序列特征向量得到中医文献的词序列特征向量。

最后在步骤S300,根据中医文献中的中医文本序列的相邻上下文之间的依赖关系,对所述词序列特征向量进行预测,并根据预测结果为对应的词序列特征向量指派一个指代词标签。

在一些实施例中,通过无向图表示的马尔科夫随机场捕获中医文献中的中医文本序列的相邻上下文之间的依赖关系,对所述词序列特征向量进行预测,并根据预测结果为对应的词序列特征向量指派一个指代词标签。

在一些实施例中,根据字符序列特征向量,在中医文献词序列中的过去信息和中医文献中词序列中未来信息两个方向来提取得到词序列特征向量。具体说来,分别是中医文献词序列中的过去信息、中医文献中词序列中未来信息来提取词序列的特征表示,并将提取到的中医文献的词序列特征输入到下一层的用于预测中医文献指代词的推断层——一个用无向图表示的马尔可夫随机场。

图2示出了根据本发明实施例的一种基于深度神经网络的中医文献指代词识别方法所构建的模型结构图。如图2所示,本发明实施例设计了一个带有针对中医文献字符序列特征提取的卷积神经网络并结合用于中医文献词序列特征提取的双向长短期记忆网络,最后结合用于预测中医文献指代词的用无向图表示的马尔科夫随机场的深度神经网络模型,其中双向长短期记忆网络作为中医文献中词序列特征提取器,负责通过中医文献的字符序列特征来学习中医文献的词序列特征;卷积神经网络作为中医文献中字符序列的特征提取器,负责通过中医文献的序列中的字符来学习其字符序列特征;针对预测中医文献指代词的用无向图表示的马尔科夫随机场作为最后一层,捕获中医文献中的中医文本序列的相邻上下文之间的依赖关系,从而对中医文献词序列特征表示进行更好地推断预测,为最后学习到的中医文本序列的特征表示指派一个指代词标签。

图3示出了根据本发明实施例的模型在中医文献中某例句“孕妇腹痛”序列上进行字符序列特征提取的过程。如图3所示,针对中医文献的字符序列的特征提取,设计了一个提取中医文献字符序列特征的4层卷积神经网络,输出中医文献字符序列特征给下一层的中医文献的词序列特征提取网络——双向长短期记忆网络,针对中医文献词序列特征的提取,只设计了一层网络,这是因为“双向”的特点已经能足够提取中医文献词序列的特征。

图4示出了根据本发明实施例的中医文本词序列特征提取器在某句中医文本“孕妇腹痛,须审其痛”序列上获取词序列特征并通过用无向图表示的马尔科夫随机场进行预测指代词标签的流程图。如图4所示,针对中医文本字符序列的卷积网络,在经过针对中医文献的激活映射以及减少参数的过程后,将中医文献的字符序列特征输出到下一层的词序列特征提取器——双向长短期记忆网络,该中医文本的词序列特征提取器将输入来的中医文本的字符序列特征在两个方向上进行学习表示。

最后,模型中用于预测中医文献指代词的推断层——无向图表示的马尔科夫随机场,将中医文献的词序列特征作为输入,为其指派一个指代词标签。

此外,对于中医文献语料,指代词有“中医文献疑问代词”、“中医文献指示代词”、“中医文献人称代词”、“中医文献人物”、“中医文献事物”五种指代词,其中,在引用指代的概念中,前三个属于代词,后两个属于先行语指代词。如下图5所示,是根据本发明实施例所构造的中医文献语料示例图。

本发明实施例针对两篇不同的中医文献分别进行了实验,分别是:《妇科心法要诀》、《医学三字经》。实验结果如下表2所示,首先在基于统计的学习方法HMMs和CRFs上分别进行《妇科心法要诀》和《医学三字经》的指代词的识别。随后在我们的深度神经网络模型上进行实验,我们使用常见的评价指标Precision(准确率)、Recall(召回率)、F1Score(F1分数)来评价实验模型的性能。

表3.实验结果表

因此,本发明实施例提供的方法可以有效对中医文献中的指代词进行识别,从而便于下游任务的开展,例如问题问答、信息检索、信息抽取等。

本发明实施例还提供了一种基于深度神经网络的中医文献指代词识别装置,所述装置包括:

卷积神经网络单元100,被配置为提取中医文献的中医文本序列中的字符序列特征向量;

双向长短期记忆网络单元200,被配置为根据字符序列特征向量得到中医文献的词序列特征向量;

无向图表示的马尔科夫随机场单元300,被配置为根据中医文献中的中医文本序列的相邻上下文之间的依赖关系,对所述词序列特征向量进行预测,并根据预测结果为对应的词序列特征向量指派一个指代词标签。

在一些实施例中,利用中医文献的中医文本序列中的字符来训练卷积神经网络,将训练好的卷积神经网络作为所述卷积神经网络单元100。

在一些实施例中,利用中医文献的字符序列特征来训练双向长短期记忆网络,将训练好的双向长短期记忆网络作为所述双向长短期记忆网络单元200。

在一些实施例中,所述双向长短期记忆网络单元200被进一步配置为根据字符序列特征向量,在中医文献词序列中的过去信息和中医文献中词序列中未来信息两个方向来提取得到词序列特征向量。

在一些实施例中,所述指代词标签包括中医文献疑问代词标签、中医文献指示代词标签、中医文献人称代词标签、中医文献人物标签以及中医文献事物标签。

本发明实施例所提供的基于深度神经网络的中医文献指代词识别装置与在前阐述的方法的技术效果基本一致,在此不累述。

以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号