法律状态公告日
法律状态信息
法律状态
2022-11-01
授权
发明专利权授予
技术领域
本发明涉及基于阅读理解的汉越跨语言新闻事件要素抽取方法,属于自然语言处理技术领域。
背景技术
新闻事件要素抽取任务旨在抽取新闻文本中描述主题事件的事件要素,如时间、地点、人物和组织机构名等。新闻事件要素抽取是新闻事件抽取的重要子任务之一,是新闻文本相似度计算、新闻事件关联关系分析以及事件检索等下游任务的基础。
跨语言事件要素抽取旨在联合多语言训练数据共同训练事件要素抽取模型,以缓解目标语言事件要素标注语料稀缺的问题。目前,在事件要素抽取方面,基于端到端的神经网络模型在有大规模标注数据的语种上取得了很好的效果,如英语和中文,但在只有少量或者无标注数据的小语种上的性能还有很大的提升空间;同时由于篇章级事件要素抽取需要捕获长距离的语义信息,支持跨事件的关联性分析,因此需要更强的语义理解和推断能力。因此,本发明将阅读理解的思想应用于新闻事件要素抽取任务,利用中文阅读理解数据集预训练源语言端的阅读理解模型,然后利用mBERT(multilingual BERT)同时建模中文和越南语的关系,并融合两种语言的表示来实现中文到越南语的跨语言知识迁移,完成资源稀缺型语言(越南语)新闻事件要素抽取。
发明内容
本发明提供了基于阅读理解的汉越跨语言新闻事件要素抽取方法,以用于解决低资源情境下跨语言新闻事件要素抽取问题。
本发明的技术方案是:基于阅读理解的汉越跨语言新闻事件要素抽取方法,所述基于阅读理解的汉越跨语言新闻事件要素抽取方法的具体步骤如下:
Step1、实验数据集构建:构建实验所需要的数据集,数据集包含阅读理解中文数据集、中文事件可比数据集(即和越南语描述的相同类型事件的中文新闻文本)和越南语新闻事件要素抽取数据集;
Step2、新闻文本关键句检索模型构建:训练了一个新闻文本句子打分模型,来动态检索出有可能包含答案的序列;
Step3、新闻事件要素抽取模型构建:在Step2的基础上,同时对源语言和目标语言的训练数据进行建模,从而实现源语言到目标语言的知识迁移,获得新闻事件要素抽取结果。
作为本发明的优选方案,所述Step1包括:
Step1.1、除了阅读理解中文数据集采用CMRC 2018之外,到目前为止还没有公开的汉越双语新闻事件要素抽取数据集,因此首先在越南网站爬取了708篇越南新闻文本,并根据抽取式阅读理解的形式进行标注;
Step1.2、然后根据预先定义的事件类型的关键词爬取并筛选了932篇中文新闻,形成了中文事件可比数据集。
作为本发明的优选方案,所述Step2的具体步骤为:
Step2.1、切分新闻文本数据:使用Step1中的语料作为输入,通过使用动态规划算法将新闻长文本P切分成[X
Step2.2、检索关键句子:训练了一个评分模型,对新闻长文本中的句子序列[X
作为本发明的优选方案,所述Step2.2的具体步骤为:
Step2.2.1、给定一个问题Q={q
Step2.2.2、训练一个基于mBERT(multilingual BERT)的一个评分模型judge,对每个子序列进行评分judge([Z
每个子序列的分数为序列中每个词的平均分,将其表示为:judge(Z
作为本发明的优选方案,所述Step3的具体步骤为:
Step3.1、问题生成:使用一种基于模板的问题生成方法,将所有的语义角色划分为不同的类别,与时间相关的语义角色、与地点相关的语义角色、与人物相关的语义角色、与组织机构相关的语义角色,然后为每个类别设计不同的问题模板;
Step3.2、双语编码器:利用mBERT(multilingual BERT)对源语言和目标语言进行编码,提取新闻文本特征;
Step3.3、双语解码器:利用多头注意力机制来提取源语言知识,以提高目标语言答案抽取性能;
Step3.4、新闻事件要素过滤层:通过启发式规则来过滤非法答案,得到新闻事件要素集。
作为本发明的优选方案,所述Step3.2的具体步骤为:
使用mBERT(multilingual BERT)对中文和越南语的问题Q和新闻文本的关键子序列Z进行编码。给定越南语的问题Q
P
相应地将中文问题Q
作为本发明的优选方案,所述Step3.3的具体步骤为:
Step3.3.1、分别将目标语言BERT的深度表示B
Step3.3.2、为进一步提升注意力计算的精度,计算A
Step3.3.3、在Step3.3.2的基础上,计算
R=W
Step3.3.4、在Step3.3.3的基础上,通过残差连接和层归一化以获得最终的表示H
H
Step3.3.5、在Step3.3.4的基础上,利用H
Step3.3.6、最后计算其交叉熵损。
作为本发明的优选方案,所述步骤Step3.4的具体步骤为:
由于同一新闻文本描述其核心事件的事件要素会重复出现的情况,设计了几个启发式规则来过滤非法答案:(1)有效答案的开始位置在结束位置之前;(2)有效答案的似然概率
本发明的有益效果是:
1、本发明通过利用新闻长文本关键子句检索模型检索出与问题高度相关的句子,过滤包含噪声的句子,以解决新闻长文本语义建模困难的问题;
2、本发明使用中文阅读理解数据集预训练源语言端的阅读理解模型,利用mBERT同时建模中文和越南语<文本,问题,答案>之间的关系,并融合两种语言的表示来实现中文到越南语的跨语言知识迁移;
3、本发明提出的基于阅读理解的汉越跨语言新闻事件要素抽取方法,优于传统的基线方法,验证了跨语言阅读理解对资源稀缺型语言(越南语)新闻事件要素抽取任务的有效性。
附图说明
图1为本发明中的流程图;
图2为本发明中抽取模型示意图。
具体实施方式
实施例1:如图1-2所示,基于阅读理解的汉越跨语言新闻事件要素抽取方法,所述方法的具体步骤如下:
Step1、构建实验所需要的数据集,数据集包含阅读理解中文数据集、中文事件可比数据集(即和越南语描述的相同类型事件的中文新闻文本)和越南语新闻事件要素抽取数据集;
作为本发明的优选方案,所述步骤Step1的具体步骤为:
Step1.1、除了阅读理解中文数据集采用CMRC 2018之外,到目前为止还没有公开的汉越双语新闻事件要素抽取数据集,因此首先在越南网站爬取了708篇越南新闻文本,并根据抽取式阅读理解的形式进行标注;
Step1.2、然后根据预先定义的事件类型的关键词爬取并筛选了932篇中文新闻,形成了中文事件可比数据集。
Step2、新闻文本关键句检索模型构建:训练了一个新闻文本句子打分模型,来动态检索出有可能包含答案的序列;
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、切分新闻文本数据:使用Step1中的语料作为输入,通过使用动态规划算法将新闻长文本P切分成[X
算法1新闻长文本分割算法
Step2.2、检索关键句子:训练了一个评分模型,对新闻长文本中的句子序列[X
作为本发明的优选方案,所述步骤Step2.2的具体步骤为:
Step2.2.1、给定一个问题Q={q
Step2.2.2、训练一个基于mBERT(multilingual BERT)的一个评分模型judge,对每个子序列进行评分judge(Z
每个子序列的分数为序列中每个词的平均分,将其表示为:judge(Z
算法2检索新闻长文本关键句
Step3、新闻事件要素抽取模型构建:在Step2的基础上,同时对源语言和目标语言的训练数据进行建模,从而实现源语言到目标语言的知识迁移,获得新闻事件要素抽取结果;
作为本发明的优选方案,所述步骤Step3的具体步骤为:
Step3.1、问题生成:使用一种基于模板的问题生成方法,将所有的语义角色划分为不同的类别,与时间相关的语义角色、与地点相关的语义角色、与人物相关的语义角色、与组织机构相关的语义角色,然后为每个类别设计不同的问题模板,不同问题疑问词如表1所示:进而根据问题疑问词生成问句表述。为了让问题编码先验知识,我们针对每个事件类型设置了如下的问题模板:{事件触发词}+{疑问词}。例如:触发词是[签署],则问题可表示为:何时签署了《区域全面经济伙伴关系协定》?
表1问题疑问词模
Step3.2、双语编码器:利用mBERT(multilingual BERT)对源语言和目标语言进行编码,提取新闻文本特征;
作为本发明的优选方案,所述步骤Step3.2的具体步骤为:
使用mBERT(multilingual BERT)对中文和越南语的问题Q和新闻文本的关键子序列Z进行编码。给定越南语的问题Q
P
相应地将中文问题Q
Step3.3、双语解码器:利用多头注意力机制来提取源语言知识,以提高目标语言答案抽取性能;
作为本发明的优选方案,所述步骤Step3.3的具体步骤为:
Step3.3.1、分别将目标语言BERT的深度表示B
Step3.3.2、为进一步提升注意力计算的精度,计算A
Step3.3.3、在Step3.3.2的基础上,计算
R=W
Step3.3.4、在Step3.3.3的基础上,通过残差连接和层归一化以获得最终的表示H
H
Step3.3.5、在Step3.3.4的基础上,利用H
Step3.3.6、最后计算其交叉熵损。
Step3.4、新闻事件要素过滤层:通过启发式规则来过滤非法答案,得到新闻事件要素集;
作为本发明的优选方案,所述步骤Step3.4的具体步骤为:
由于同一新闻文本描述其核心事件的事件要素会重复出现的情况,设计了几个启发式规则来过滤非法答案:(1)有效答案的开始位置在结束位置之前;(2)有效答案的似然概率
为了说明本发明的抽取效果,采用基线方法与本发明抽取的结果进行对比,具体为与下述的事件要素抽取方法进行对比。
·DMCNN:基于卷积神经网络的事件抽取方法;
·JMEE:基于图卷积神经网络挖掘句法信息来进行事件抽取;
·MTL-CRF:基于CRF的方法,设计了一个有效挖掘不同事件之间事件要素关系的多任务学习的序列标注模型,同时抽取了事件触发词和事件要素;
·DMBERT:有效利用预先训练语言模型的方法并使用动态多池化方法来聚合特征。为了与本发明提出的方法进行比较,本文将其预训练语言模型修改为mBERT;
·RCEE:基于机器阅读理解的事件抽取方法,在检测事件的基础上进行事件要素抽取。
同时,也将本发明提出的方法与目前篇章级的事件要素抽取模型进行对比,这些方法包括:
·DCFEE:一种端到端模型从财务公告抽取金融事件的信息,通过将事件结构化任务转换为路径扩展子任务,进而生成一个基于实体的有向无环图实现文档级事件抽取;
·MGRDEE:句子级和段落级的多粒度编码器,以动态融合句子级和段落级特征,提高了篇章级的事件要素抽取性。
汉越跨语言新闻事件要素抽取实验结果如表2所示:
表2汉越跨语言新闻事件要素抽取实验结果(%)
从表2中的实验结果可以看出,本发明提出的基于阅读理解的汉越跨语言新闻事件要素抽取方法优于其他方法。其中*代表显著性水平为ρ=0.05。和篇章级事件要素抽取方法MGRDEE方法进行对比发现,我们的方法在召回率(R)和F1值上有明显的提升,召回率和F1值分别提升了4.0%和1.8%。篇章级事件抽取方法MGRDEE动态融合了句子级的局部特征和篇章级的全局特征,有效的提高了事件要素抽取的精确率(P),其可能原因是本文提出的方法首先利用关键句检索出与答案相关度高的句子,再基于候选句抽取出新闻主题事件要素,在此过程中可能会带来一定误差传递,进而影响了模型的精确率,但基于序列标注的事件要素抽取方法会导致数据稀疏,召回率较低。对于篇章级事件抽取模型DCFEE,以金融文档中的一个关键句子为事件中心句进行要素的补充,由于在新闻报到中,描述一个核心事件往往需要多个句子,新闻事件的事件要素分散在不同的句子中,从而导致了该模型在本文所构建的数据集上效果不明显。同样,在多分类任务中,对于部分新闻事件要素标注较少的类别很难识别。
综上可以看出:1)在所有的方法中,在越南语有部分标注语料的前提下,本文提出的方法基本上取得了最好的性能,篇章级新闻事件要素抽取方面显著优于其他方法(F1值提升了1.8%),这直接证明了方法的有效性。2)本文提出的方法取得了较高的召回率,这说明了与其他的方法相比,其可以预测更多的样例。
为了进一步的验证本发明方法的有效性,设置了两组消融实验:新闻文本关键句检索模型和跨语言知识迁移对模型性能的影响。表3是新闻文本关键句检索模块消融实验结果:
表3新闻文本关键句检索模块消融实验结果(%)
从表3中的实验结果我们可以看出,新闻文本关键句检索可以有效捕获篇章级局部和全局语义信息,明显提升了越南语新闻事件要素抽取模型性能(F1相差4.4%)。其中*代表显著性水平为ρ=0.05。由于新闻长文本中含有大量的冗余信息,让模型直接对新闻文本进行语义建模,对给模型带入大量的噪声数据,从而影响了越南语新闻事件要素抽取模型的性能。
为了验证跨语言知识迁移对越南语新闻事件要素抽取模型性能的影响,本文在设置了如表4所示的对比实验。
表4为对比实验结果
其中*代表显著性水平为ρ=0.05。从实验结果可以看出,如果不使用中文阅读理解语料和中文可比事件语料进行预训练模型,越南语新闻事件要素抽取模型的性能会显著下降(F1值分别下降了3.8%和1.6%),这也证明了模型通过共享编码器,实现了跨语言知识的迁移,提高了越南语新闻事件要素抽取性能。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
机译: 培养阅读理解模型的方法,以及阅读理解处理的方法
机译: 培养阅读理解模型的方法,以及阅读理解处理的方法
机译: 阅读理解模型的培训方法和阅读理解的处理方法