首页> 中国专利> 一种面向教育领域的实体和关系联合抽取方法

一种面向教育领域的实体和关系联合抽取方法

摘要

本发明公开了一种面向教育领域的实体和关系联合抽取方法,用于解决现有方法缺少在教育领域中的应用,本发明利用预训练的XLNET语言模型获得高层次特征嵌入,并通过Mogrifier BiGRU神经网络捕获文本上下文语义信息,同时在Mogrifier BiGRU神经网络后引入MultiHead Attention机制捕捉文本特征中较为重要的部分,有效解决了实体内部存在大量修饰词干扰的问题;本发明通过联合提取的方式,同时进行实体与关系的抽取,通过参数共享编码层实现实体与关系子任务间的依赖,从而缓解了错误传播的问题。

著录项

  • 公开/公告号CN112364654A

    专利类型发明专利

  • 公开/公告日2021-02-12

    原文格式PDF

  • 申请/专利权人 安徽工业大学;

    申请/专利号CN202011252896.4

  • 发明设计人 秦锋;张志文;郑啸;

    申请日2020-11-11

  • 分类号G06F40/295(20200101);G06F40/30(20200101);G06F16/33(20190101);G06N3/08(20060101);G06Q50/20(20120101);

  • 代理机构32307 南京九致知识产权代理事务所(普通合伙);

  • 代理人严巧巧

  • 地址 243032 安徽省马鞍山市马向路新城东区

  • 入库时间 2023-06-19 09:54:18

说明书

技术领域

本发明涉及一种面向教育领域的实体和关系联合抽取方法,属于自然语言处理技术。

背景技术

随着教育领域中在线学习的飞速发展,在线课程数据量呈指数增长,如何高效准确地从这些数据中抽取有用的实体和关系信息成为了研究热点。在过去的几十年里,文本挖掘和自然语言处理(NLP)取得了很大的进展;但是教育领域的信息抽取技术还有很大的提升空间。在线教育领域具有代表性的信息抽取技术包括从在线课程的文本信息中提取特定类型的课程知识点实体信息以及实体之间的关系。提取的信息用于各种类型的研究,它不仅适用于各种NLP任务(如文档分类和问答系统),同时也在线上学习的个性化推荐中具有重要的作用。由于实体识别和关系提取广泛应用于知识发现和数据挖掘分析中,所以对该技术的需求将继续增长。

实体识别和关系提取主要有以下几种方法,包括基于字典的方式、基于规则的方式、基于机器学习的方式和基于深度学习的方式。在基于字典的方法中,字典中的术语与目标序列中的单词进行简单的匹配,以便进行实体提取。虽然这种方法很简单,但在线课程文本数据中实体数量的持续增加和符号的多样性使得提取困难。在基于规则的方法中,当只应用于一个特定的领域时,实体提取往往表现出较高的性能。在基于机器学习的方法中,使用各种算法和统计模型进行实体提取。然而,基于规则和机器学习的方法都高度依赖于特征工程,这不仅耗费人力和时间,而且也需要大量的领域知识。与以前的方法不同,深度学习方法不需要繁重的人工来制作特征,深度学习方法使用神经网络自动提取最具代表性的特征,获得了非常好的效果。

现有的关于命名实体识别和关系抽取的研究中,大部分学者把这一过程被分为两个独立的任务,以流水线的方式来解决实体及关系的抽取问题,这类方法把实体及关系抽取看成是先后执行的两个单独子任务:命名实体识别(NER)和关系抽取(RE)。具体而言,首先抽取句子中的命名实体,然后对抽取出的命名实体进行两两组合配对,最后识别命名实体对之间存在的语义关系。但是,这类方法存在两个主要的弊端:第一是错误传播,命名实体识别模块的错误会传递给下游的关系抽取模块,进而影响关系抽取的性能;第二是忽视了两个子任务之间存在的依赖关系。

发明内容

发明目的:为了克服现有技术中存在的不足,本发明提供一种面向教育领域的实体和关系联合抽取方法,用于解决现有方法缺少在教育领域中的应用,同时,利用预训练的XLNET语言模型及注意力机制获得高层次特征嵌入,并通过联合模型同时处理实体识别和关系分类来缓解错误传播的问题。

技术方案:为实现上述目的,本发明采用的技术方案为:

一种面向教育领域的实体和关系联合抽取方法,包括如下步骤:

(1)建立课程知识点命名实体语料库,课程知识点命名实体语料库由包含课程知识点的文本数据组成;

(2)对预处理后的含有课程知识点的文本数据进行分布式表示,将句子作为输入,通过XLNET语言模型(乱序语言模型)得到文本预训练向量;

(3)将得到的文本预训练向量输入到Mogrifier BiGRU神经网络(形变的双向门控循环神经网络)中进行文本特征提取;

(4)在Mogrifier BiGRU神经网络后引入MultiHead Attention机制(多头注意力机制)捕捉文本特征中较为重要的部分;其中,较为重要的部分指文本特征中能够组成知识实体的部分;

(5)结合CRF模型(条件随机场模型),得到课程知识点命名实体和知识实体之间的关系。

具体的,所述步骤(1)中,先采用BIO标注方法(将一个序列转换为原始标注的标准方法)对课程知识点命名实体语料库中的文本数据进行知识实体标注,即将文本数据分为P个类别,每个类别为一个标签,第p个类别表示为标签p,p=1,2,…,P;再将知识实体之间的关系分为Q种关系,第q种关系表示为关系q,q=1,2,…,Q;然后将文本数据分为训练集和测试集;BIO标注方法中,B代表知识实体的开端、I代表知识实体的其他部分、O代表非知识实体。

具体的,所述步骤(2)中,输入XLNET语言模型的句子表示为S=[s

具体的,Mogrifier BiGRU神经网络区别于传统的GRU网络(补充中文解释)在于它可以通过预先交互的方式增强整体模型的上下文建模能力;Mogrifier BiGRU神经网络包括前向GRU网络和后向GRU网络,Mogrifier BiGRU神经网络的输入和隐藏层输出分别为X=[x

以上标t和t-1表示t时刻和t-1时刻,对

对前向GRU网络,交互过程如下:

(a41)对

(a42)对

(a43)对

(a44)对

(a45)

对后向GRU网络,交互过程如下:

(b41)对

(b42)对

(b43)对

(b44)对

(b45)

其中:σ为逻辑回归函数,R

具体的,所述步骤(4)中,在Mogrifier BiGRU神经网络后引入MultiHeadAttention机制,是使用MultiHead Attention机制进一步捕获字s

具体的,所述MultiHead Attention机制的计算过程包括如下步骤:

(41)将X=[x

(42)K、Q、V对应MultiHead Attention机制的第j头注意力分别为

(43)计算第j头注意力的值

(44)对D个注意力的值进行拼接得到多头注意力

(45)结合字s

(46)在Mogrifier BiGRU神经网络后引入MultiHead Attention机制捕捉到的文本特征中较为重要的部分为C=[c

具体的,所述步骤(5)中,将CRF模型作为标签得分层,先使用CRF模型计算每个字在各个标签下的标签得分,再应用Viterbi算法(维特比算法)获得标签得分最高的标签序列,接着通过关系提取层得到课程知识点命名实体和知识实体之间的关系。

更为具体的,所述步骤(5)中,使用CRF模型计算字s

其中:上标(ner)表示知识实体标注识别;V

对句子S中的所有字分配标签,即可得到句子S的标签序列,每个句子S有R=N

其中:Y

对标签序列的标签得分

应用Viterbi算法获得标签得分最高的标签序列

其中:在标签得分最高的标签序列

使用最小化交叉熵损失方法训练标签得分层。

更为具体的,所述步骤(5)中,采用关系提取层提取课程知识点命名实体和知识实体之间的关系时,先计算在给定关系q下字s

S

其中:m

字s

使用最小化交叉熵损失方法训练关系提取层。

具体的,所述关系提取层的训练过程中的交叉熵损失L

目标函数为min(L

有益效果:本发明提供的面向教育领域的实体和关系联合抽取方法,相对于现有技术,具有如下优势:1、本发明利用预训练的XLNET语言模型设计高层次特征嵌入,对同一个词不是直接使用固定的词向量信息,而是根据上下文信息进行动态嵌入表征,能够极大提高词嵌入层文本转化为低密度嵌入向量的精准性,降低多义词对模型性能造成的负面影响,有效地捕捉单词的局部和全局信息;2、本发明在Mogrifier BiGRU神经网络后引入MultiHead Attention机制捕捉文本特征中较为重要的部分,有效解决了实体内部存在大量修饰词干扰的问题;3、本发明通过联合提取的方式,同时进行实体与关系的抽取,通过参数共享编码层实现实体与关系子任务间的依赖,从而缓解了错误传播的问题。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

如图1所示为一种面向教育领域的实体和关系联合抽取方法,包括如下步骤:

步骤一:建立课程知识点命名实体语料库,课程知识点命名实体语料库由包含课程知识点的文本数据组成。

先采用BIO标注方法对课程知识点命名实体语料库中的文本数据进行知识实体标注,即将文本数据分为P个类别,每个类别为一个标签,第p个类别表示为标签p,p=1,2,…,P;再将知识实体之间的关系分为Q种关系,第q种关系表示为关系q,q=1,2,…,Q;然后将文本数据分为训练集和测试集;BIO标注方法中,B代表知识实体的开端、I代表知识实体的其他部分、O代表非知识实体。

步骤二:对预处理后的含有课程知识点的文本数据进行分布式表示,将句子作为输入,通过XLNET语言模型得到文本预训练向量。

输入XLNET语言模型的句子表示为S=[s

步骤三:将得到的文本预训练向量输入到Mogrifier BiGRU神经网络中进行文本特征提取。

Mogrifier BiGRU神经网络包括前向GRU网络和后向GRU网络,Mogrifier BiGRU神经网络的输入和隐藏层输出分别为X=[x

以上标t和t-1表示t时刻和t-1时刻,对

对前向GRU网络,交互过程如下:

(a41)对

(a42)对

(a43)对

(a44)对

(a45)

对后向GRU网络,交互过程如下:

(b41)对

(b42)对

(b43)对

(b44)对

(b45)

其中:σ为逻辑回归函数,R

步骤四:在Mogrifier BiGRU神经网络后引入MultiHead Attention机制捕捉文本特征中较为重要的部分;其中,较为重要的部分指文本特征中能够组成知识实体的部分。

在Mogrifier BiGRU神经网络后引入MultiHead Attention机制,是使用MultiHead Attention机制进一步捕获字s

(41)将X=[x

(42)K、Q、V对应MultiHead Attention机制的第j头注意力分别为

(43)计算第j头注意力的值

(44)对D个注意力的值进行拼接得到多头注意力

(45)结合字s

(46)在Mogrifier BiGRU神经网络后引入MultiHead Attention机制捕捉到的文本特征中较为重要的部分为C=[c

步骤五:结合CRF模型,得到课程知识点命名实体和知识实体之间的关系。

将CRF模型作为标签得分层,先使用CRF模型计算每个字在各个标签下的标签得分,再应用Viterbi算法获得标签得分最高的标签序列,接着通过关系提取层得到课程知识点命名实体和知识实体之间的关系。

使用CRF模型计算字s

其中:上标(ner)表示知识实体标注识别;V

对句子S中的所有字分配标签,即可得到句子S的标签序列,每个句子S有R=N

其中:Y

对标签序列的标签得分

应用Viterbi算法获得标签得分最高的标签序列

其中:在标签得分最高的标签序列

使用最小化交叉熵损失方法训练标签得分层。

采用关系提取层提取课程知识点命名实体和知识实体之间的关系时,先计算在给定关系q下字s

S

其中:m

字s

使用最小化交叉熵损失方法训练关系提取层。

关系提取层的训练过程中的交叉熵损失L

目标函数为min(L

以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号