首页> 中国专利> 融合实体和句子推理信息的问题答案提取方法及电子装置

融合实体和句子推理信息的问题答案提取方法及电子装置

摘要

本发明提供一种融合实体和句子推理信息的问题答案提取方法及电子装置,包括:将一问题与若干目标文档拼接,输入预训练语言模型,得到问题表示Q与文档上下文表示C;获取融合文档信息的问题表示Q0与融合问题信息的文档表示C0;依据问题表示Q(t‑1)与文档表示Ct‑1,获取实体图节点集合E(t‑1)与句子图节点集合并采用图注意力网络对实体图与句子图更新,获取问题表示Q(t)与文档表示Ct;对实体图节点集合E(t)与句子图节点集合融合并与文档表示Ct交互;依据推理更新后上下文表示C′(t),获取问题答案预测结果。本发明提出引入句子节点的图神经网络,通过门机制将实体表示与句子表示融合,利用句子级别推理信息弥补实体推理信息的缺失,提升推理阅读理解任务的性能。

著录项

  • 公开/公告号CN112380835A

    专利类型发明专利

  • 公开/公告日2021-02-19

    原文格式PDF

  • 申请/专利权人 中国科学院信息工程研究所;

    申请/专利号CN202011078614.3

  • 发明设计人 林政;付鹏;刘欢;王伟平;孟丹;

    申请日2020-10-10

  • 分类号G06F40/205(20200101);G06F40/295(20200101);G06F40/30(20200101);G06N3/04(20060101);

  • 代理机构11200 北京君尚知识产权代理有限公司;

  • 代理人陈艳

  • 地址 100093 北京市海淀区闵庄路甲89号

  • 入库时间 2023-06-19 09:55:50

说明书

技术领域

本发明属于自然语言处理领域,尤其涉及一种融合实体和句子推理信息的问题答案提取方法及电子装置。

背景技术

推理阅读理解是给定用户一个问题的多个相关文档,从文档中找到问题的答案和相关的证据句子。推理阅读理解问题需要模型结合问题,对文本语义上的含义进行推理,找到问题的相关证据句子和最终答案。推理阅读模型整体上可以分为三大类方法。一类是记忆网络的方法,通过不断迭代更新推理状态来模拟推理过程;另一类是基于图神经网络的方法,通过图神经网络的更新来进行推理;还有一些其他的基于深度学习的方法。其中,基于图神经网络的推理阅读理解模型的框架整体可以分为三个部分:1)语义编码阶段;2)推理建模阶段;3)证据和答案预测阶段。语义编码阶段将问题、文档编码成具有上下文语义信息的文本向量;推理建模阶段使用图神经网络技术对推理过程进行建模,建立问题和文档之间的联系;答案预测阶段从得到文本表示中进行相关证据句子和答案片段的预测。针对一些候选段落较多的数据,还需要进行段落选择,段落选择阶段将从候选段落中选择相关段落,用作后续语义编码的输入。

基于记忆网络的方法比较典型的有Dynamic Co-attention Network(CaimingXiong,Victor Zhong,Richard Socher;Dynamic Coattention Networks For QuestionAnswering.ICLR,2017),该方法将模型分为编码和解码两部分。一方面,编码阶段使用了Co-attention机制将问题和文档进行编码,得到问题相关的文档表示;另一方面,在解码阶段,利用答案预测的结果进行迭代,每轮都会根据当前状态值去预测答案,根据答案预测结果更新当轮状态值,不断迭代更新,最后一轮的结果作为最终答案。

基于图神经网络的方法比较典型的有DFGN模型(Lin Qiu,Yunxuan Xiao,YanruQu,Hao Zhou,Lei Li,Weinan Zhang,Yong Yu;Dynamically Fused Graph Network forMulti-hop Reasoning.ACL 2019:6140-6150)。DFGN模型首先使用BERT(BidirectionalEncoder Representation from Transformer)对文档独立分类,进行段落选择,语义编码阶段使用BERT得到文档和问题的上下文表示,推理建模阶段采用GAT(Graph AttentionNetworks)的图神经网络实现,使用BiLSTM建模图与上下文表示双向融合的过程,将图推理后得到的节点信息融合到上下文表示中,通过不断迭代这个图推理的过程来完成图信息与文本信息的双向融合,从而预测抽取式答案;此外,DFGN还建模了问题在图构建过程中的作用,采用Bi-Attention更新问题表示,根据问题表示与节点表示的匹配程度构建动态图,同时在迭代过程中不断更新问题表示。

基于图神经网络的方法还有一些其他的改进,比如SAE模型(Ming Tu,KevinHuang,Guangtao Wang,Jing Huang,Xiaodong He,Bowen Zhou:Select,Answer andExplain:Interpretable Multi-Hop Reading Comprehension over MultipleDocuments.AAAI 2020:9073-9080),模型首先改进了文档选择模块,将分类问题转化为排序问题,设计新的损失函数来提升相关文档的准确率;SAE模型在推理阶段,直接使用句子嵌入表示作为节点来预测相关证据句子;在句子嵌入表示学习中,使用了答案预测的打分,采用混合注意力池化机制将答案预测结果与上下文表示融合,得到句子表示,这个过程实际上是将答案预测的结果用来做证据预测。

其他非图神经网络的方法中,Jianxing Yu、Zhengjun Zha、Jian Yin等人设计了一种推理神经元(Inferential Machine Comprehension:Answering Questions byRecursively Deducing the Evidence Chain from Text.ACL 2019:2241-2251),通过循环链接这种推理神经元,模拟推理过程的链式结构。这种推理神经元包括记忆向量、读操作单元、写操作单元、控制器操作单元组成,控制器单元基于问题产生一系列基于注意力的操作,读操作单元根据控制器的操作指示读取相关内容,写单元根据控制器操作和读单元结果产生新的结果,并更新记忆向量,这个推理神经元是递归链接在一起的,前一步的输出是后一步的结果;此外,由于不同样本推理深度的不确定性,推理过程的终止动作是动态决定的,整个网络通过强化学习来训练。

但目前基于图神经网络的方法,因为推理信息不是只存在于实体信息当中,以实体构建图神经网络来建模推理过程会缺失非实体信息的推理信息。

发明内容

本发明的目的是提出一种融合实体和句子推理信息的问题答案提取方法及电子装置,利用句子中的信息来补充实体信息,将实体和句子的信息互相融合来提升推理阅读理解任务的性能。

为达到上述目的,本发明采用如下技术方案:

一种融合实体和句子推理信息的问题答案提取方法,其步骤包括:

1)将一问题与若干目标文档拼接到一起,输入到预训练语言模型中,得到问题的表示Q与文档的上下文表示C;

2)对表示Q与上下文表示C进行交互,得到融合文档信息的问题表示Q

3)依据问题表示Q

4)对实体图节点集合E

进一步地,通过以下步骤得到目标文档:

1)将若干原始文档输入一由由预训练语言模型与一层线性分类器组成的段落选择模型;

2)根据一阈值,在各原始文档中选取与所述问题相关的段落,得到若干目标文档。

进一步地,所述预训练语言模型包括:BERT模型。

进一步地,对表示Q与上下文表示C进行交互的方法包括:使用双向注意力机制。

进一步地,通过以下步骤获取实体图节点集合E

1)通过MeanMaxPooling,得到问题表示q

2)计算问题表示q

3)对各相关度

4)获取实体图节点集合

进一步地,通过以下步骤得到的实体图节点集合E

1)计算实体图节点的中间计算表示

2)获取归一化后的注意力系数

3)计算实体图节点

进一步地,通过以下步骤得到句子图节点集合

1)通过双向LSTM网络,得到问题表示

2)计算问题表示

3)对对所有相关度β

4)获取句子图节点集合

进一步地,采用双向注意力机制,获取问题表示Q

进一步地,通过以下步骤得到推理更新后的上下文表示C

1)计算门机制参数

2)计算推理更新后的上下文表示C

进一步地,得到该问题答案预测结果的方法包括:将上下文表示C

进一步地,答案预测结果包括:相关证据句子、答案开始位置、答案结束位置和答案类型中的一种或多种。

一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述所述的方法。

一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机以执行上述所述的方法。

与现有技术相比,本发明具有以下积极效果:

1)提出引入句子节点的图神经网络推理模型,来完善实体推理图的非实体类推理信息,提升推理阅读理解的效果。

2)通过门机制将实体表示与句子表示进行融合,对实体推理信息与句子推理信息交互建模,提升推理阅读理解的效果。

3)利用句子级别的推理信息来弥补实体推理信息的缺失,将句子推理信息与实体推理信息进行交互融合,提升推理阅读理解任务的性能。

附图说明

图1为本发明的模型框架示例图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂,下文特举实例,并配合所附图作详细说明如下。

请参考图1,本发明模型采用的框架整体分为四个部分:1)段落选择模块;2)语义编码模块;3)图神经网络推理模块;4)证据和答案预测模块。语义编码模块将问题、文档编码成具有上下文语义信息的文本向量,推理模块使用图神经网络对推理过程进行建模,得到上下文文档表示后进行相关证据句子和答案片段的预测。

过程一:段落选择模块。

段落选择模块,使用BERT模型(Jacob Devlin,Ming-Wei Chang,Kenton Lee,Kristina Toutanova:BERT:Pre-training of Deep Bidirectional Transformers forLanguage Understanding.NAACL-HLT 2019:4171-4186.)和一层线性分类器来微调训练一个文本分类的模型,单独判断问题与段落是否相关,设置阈值为0.3来选取较为相关的段落。这是在保证召回率下的选择,同时召回的相关文档总长度基本满足下一阶段的最大输入长度512。

过程二:语义编码模块。

语义编码层将问题和上下文文档编码成具有上下文语义信息的文档向量表示。问题和该问题所有的相关文档拼接在一起构成编码模块的输入,编码模块采用预训练的BERT模型。经过编码后,获得问题的表示

然后,利用双向注意力机制(Min Joon Seo,Aniruddha Kembhavi,Ali Farhadi,Hannaneh Hajishirzi:Bidirectional Attention Flow for MachineComprehension.ICLR 2017)对问题和上下文进行交互建模。模型使用双向注意力机制,对问题和上下文进行交互建模,学习融合文档信息的问题的表示

过程三:图神经网络推理模块。

推理建模层的设计是模拟人类单步推理的行为,从问题和上下文开始,找到单步推理的中间实体和相关句子,然后迭代这个单步推理的过程完成最终推理。一个单步推理过程包括三个部分:实体图推理、句子图推理、实体-句子的融合与文档交互。

1)实体图推理部分。

实体图推理中,对融合文档信息的问题的表示Q

q=MeanMaxPooling(Q

其中Q

进一步计算实体e在实体图中的表示:

e

其中C

然后,计算实体图中问题的表示q和实体表示e之间的相关度γ:

将所有的相关度γ进行归一化有:

最后得到实体图网络上各个实体节点的表示:

E=[α

其中,i∈{1,2,…,J}J是实体的个数,V是模型要学习的参数。

进一步将实体图中的节点表示为

然后,采用图注意力网络进行节点更新,得到推理后的实体节点表示。计算公式如下:

进一步的,

然后,采用双向注意力机制来根据实体集合表示E更新问题表示Q。计算公式如下:

Q

进一步地,t代表推理更新次数。Q(

2)句子图推理部分。

句子推理图中,通过双向LSTM对融合了文档信息的问题表示Q

q

S=LSTM(C

计算问题和文档表示的相关度:

其中,U是参数,d

然后,采用图注意力网络进行节点更新,得到推理后的句子节点表示。计算公式如下:

句子推理图与实体推理图共用一个问题表示,问题表示更新见1)中的问题表示更新,得到文档表示C

3)实体-句子的融合与文档交互。

根据1)和2)得到实体与句子的节点表示后,通过门机制将实体表示与句子表示进行融合,然后与文档表示进行交互。计算公式如下:

C

进一步地,g是根据句子表示计算得到的门机制参数,其中σ是sigmoid函数,C

过程四:证据与答案预测模块。

最后是证据和答案预测模块,将过程三输出的推理更新后的文档表示C′作为预测层的输入,整个预测层的输出有四个维度,包括相关证据句子、答案的开始位置、答案的结束位置、答案的类型。预测层采用一种垂直结构设计来解决输出之间的依赖关系,四个不共享参数的LSTM层通过层层的堆叠在一起。最后一轮推理模块的上下文表示是第一层LSTM的输入,每层LSTM都会输出一个概率分布

O

O

O

O

进一步地,C是过程三输出的推理更新后的文档词表示,F

最终联合优化这四个交叉熵损失函数。

L=L

进一步地,L

此外,模型在实体推理阶段还引入了一种弱监督的信息来规范实体推理中的掩码分布。这种弱监督信息的获取是以问题中的实体作为起始的掩码,在图上根据邻接矩阵进行宽度为1的宽度优先搜索而获取。对应的损失函数采用二分类的交叉熵损失函数。

在实验效果中,本部分在HotpotQA推理阅读理解数据集(Zhilin Yang,Peng Qi,Saizheng Zhang,Yoshua Bengio,William W.Cohen,Ruslan Salakhutdinov,ChristopherD.Manning:HotpotQA:A Dataset for Diverse,Explainable Multi-hop QuestionAnswering.EMNLP 2018:2369-2380)上进行了实验。训练数据有90247个样本,验证数据有7405个样本。

本发明的评价指标为EM值和F1值。EM值是比较预测的答案与真实答案完全一致的占比情况,F1值综合度量了预测结果和真实结果的准确率与召回率。

本发明与主流方法进行了比较,其中最后一行是本发明提出的模型,具体结果如表1所示。可以看到本发明提出的模型超过了当前大多数模型的效果,证明了本发明提出方法的有效性。

表1:主要模型的性能结果对比

以上通过形式表达和实施例对本发明方法进行了详细的说明,但本发明的具体实现形式并不局限于此。本领域的一般技术人员,可以在不背离本发明所述方法的精神和原则的情况下对其进行各种显而易见的变化与修改。本发明的保护范围应以权利要求书所述为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号