首页> 中国专利> 一种基于数字人文的实体识别方法

一种基于数字人文的实体识别方法

摘要

本发明公开了一种基于数字人文的实体识别方法,包括以下步骤:从数据库中提取相关数据,并将数据库中相关数据表进行处理,删除脏数据,清理不相关样本和字段;对于现今地址、朝代、字号采用规则匹配的方式进行实体提取;对人名、古地址、官职、机构名使用Bert‑BiLSTM‑CRF模型进行实体提取;将提取正确的实体加入到词典中;在有新样本加入时,重复步骤,并将提取正确的实体加入到相应的词典中;在模型效果达到要求后,对提取出的实体,进行人工审核,以保证提取实体的准确性。

著录项

  • 公开/公告号CN113190541A

    专利类型发明专利

  • 公开/公告日2021-07-30

    原文格式PDF

  • 申请/专利号CN202110515350.1

  • 申请日2021-05-12

  • 分类号G06F16/215(20190101);G06F40/295(20200101);G06F40/242(20200101);G06F40/30(20200101);G06N3/04(20060101);

  • 代理机构11340 北京天奇智新知识产权代理有限公司;

  • 代理人陈新胜

  • 地址 100084 北京市海淀区清华园清华大学36区1407、1408、1409

  • 入库时间 2023-06-19 12:02:28

说明书

技术领域

本发明涉及自然语言处理领域和文本数据处理技术领域,尤其涉及一种基于数字人文的实体识别方法。

背景技术

随着自然语言处理技术的发展和科技的进步,自然语言处理领域的相关需求日益复杂,因而所需完成的任务更加困难,所要满足的效果也日益提高,其中,基于数字人文的命名实体识别任务便是其中的代表,数字人文有时也被称为人文计算,它是针对计算与人文学科之间的交叉领域进行学习、研究、发明以及创新的一门交叉学科,其中人文学科包括艺术、哲学、历史、宗教、教育、文化等诸多方面。

一般地,命名实体识别任务的解决方法通常分为三种:

1、基于规则和词典的方法,基于规则的方法多采用规则模板,以正则表达式匹配为主要手段,该方法主要依赖于知识库和词典的建立。基于规则和词典的方法是命名实体识别中最早使用的方法,一般而言,当提取的规则能比较精确地反映语言现象时,基于规则的方法性能要优于基于统计的方法。但是这些规则往往依赖于具体语言、领域和文本风格,模板构建过程比较耗时,系统可移植性不好,往往只能完成特定的任务。

2、基于统计机器学习的方法主要包括:隐马尔可夫模型(HiddenMarkovMode,HMM)、条件随机场(ConditionalRandom Fields,CRF)等。条件随机场为命名实体识别提供了一个特征灵活、全局最优的标注框架,但同时存在收敛速度慢、训练时间长的问题。而隐马尔可夫模型在训练和识别时的速度要快一些,主要是由于在利用Viterbi算法求解命名实体类别序列的效率较高。基于统计的方法对特征选取的要求较高,需要从文本中选择对该项任务有影响的各种特征,并将这些特征加入到特征向量中。主要做法是通过对训练语料所包含的语言信息进行统计和分析,从训练语料中挖掘出特征。基于统计的方法对语料库的依赖也比较大。

3、基于深度学习的方法主要包括:RNN+CRF,BiLSTM+CRF,Bert+BiLSTM+CRF等,深度学习主要解决传统机器学习中特征提取困难的问题,使用深度学习方法可以容易的对文本数据进行特征表示,并将实体识别任务转化为类似多分类任务,使用更加简便,同时效果较好,但是它要求数据标注必须十分准确,同时命名实体识别任务的标注比较困难,因而比较耗时耗力。

目前,对于古汉语的命名实体提取任务的研究相对较少,对于古汉语中的实体提取方法也少有人提及,基于此,本文提出了一种有效的基于古汉语的实体提取方法,由于古汉语标注困难,代价昂贵,同时结合文言文的语法特点,选择使用规则匹配与深度学习模型相结合进行实体抽取,首先采用规则匹配提取出现今地址、朝代、字号等实体,随后使用深度学习模型Bert-BiLSTM-CRF提取出人名、古地址、机构名和官职等实体,提高实体匹配的精确度和召回率。

发明内容

为解决上述技术问题,本发明的目的是提供一种基于数字人文的实体识别方法,该方法课从古汉语中提取出人名、字号、地址、机构、朝代、官职等实体,并且取得了较好的效果,对古汉语自然语言处理的研究具有借鉴意义。

本发明的目的通过以下的技术方案来实现:

一种基于数字人文的实体识别方法,包括:

步骤A从数据库中提取相关数据,并将数据库中相关数据表进行处理,删除脏数据,清理不相关样本和字段;

步骤B对于现今地址、朝代、字号采用规则匹配的方式进行实体提取;

步骤C对人名、古地址、官职、机构名使用Bert-BiLSTM-CRF模型进行实体提取;

步骤D将提取正确的实体加入到词典中;

步骤E在有新样本加入时,重复步骤C和D,并将提取正确的实体加入到相应的词典中;

步骤F在模型效果达到要求后,对提取出的实体,进行人工审核,以保证提取实体的准确性。

与现有技术相比,本发明的一个或多个实施例可以具有如下优点:

选择使用规则匹配与深度学习模型相结合进行实体抽取,首先采用规则匹配提取出现今地址、朝代、字号等实体,随后使用深度学习模型Bert-BiLSTM-CRF提取出人名、古地址、机构名和官职等实体,提高实体匹配的精确度和召回率。

附图说明

图1是基于数字人文的实体提取流程图;

图2是人物实体表结构图;

图3是官职实体表结构图;

图4是事件实体表结构图;

图5是机构实体表结构图;

图6是地址实体表结构图;

图7是Bert-BiLSTM-CRF架构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。

如图1所示,为基于数字人文的实体提取流程,包括以下步骤:

步骤10从数据库中提取相关数据,并将数据库中相关数据表进行处理,删除脏数据,清理不相关样本和字段;

步骤20对于现今地址、朝代、字号采用规则匹配的方式进行实体提取;

步骤30对人名、古地址、官职、机构名使用Bert-BiLSTM-CRF模型进行实体提取;

步骤40将提取正确的实体加入到词典中;

步骤50在有新样本加入时,重复步骤30和40,并将提取正确的实体加入到相应的词典中;

步骤60在模型效果达到要求后,对提取出的实体,进行人工审核,以保证提取实体的准确性。

上述步骤10中数据表包括人物表、事件表、官职表、地址表和机构表;其中,对人物表中的脏数据进行清洗,包括乱码、错别字无效的数据内容,并删除冗余的字段;对事件表、官职表、地址表和机构表进行清洗,清除无效样本。

根据数据内容,确定所需提取的实体类型;具体的实体表结构设计如表1所示:

表1

上述步骤20中由于古代汉语中对于当今地址都是使用小括号进行标识,因而十分适合使用规则匹配的方式进行提取;同时字号也比较明确,例如:“南宋官员。字仲常。南丰(今属xx)人。”对于朝代,截取文本的起始部分,对各朝代按字节数排序,遍历各朝代,选择第一个匹配到的朝代,作为人物的所属朝代,如:“辽大臣。契丹族。天祚帝元妃兄。”。

根据规则匹配和词典提取出相应的实体,人物实体表、地址实体表、事件实体表、官职实体表和机构实体表结构图分别如图2、图3、图4、图5和图6所示。

图2中,person_entity代表人物实体,zihao代表字号实体,dynasty_sec代表朝代实体,address_entity_d代表古地址实体,address_now代表当今地址实体,official_position代表官职实体,community_entity代表机构实体。

图3中person_realtion代表人物实体,gjs_org_realtion代表机构实体,gjs_addr_relation代表地址实体,gjs_dy_relation代表朝代实体。

图4中gjs_person_relation代表人物实体,gjs_addr_relation代表地址实体,gjs_dy_relation代表朝代实体,gjs_org_relation代表机构实体。

图5中person_realtion代表人物实体,gjs_addr_relation代表地址实体,gjs_org_relation代表机构实体,gjs_dy_relatin代表朝代实体。

图6中gjs_person_relation代表人物实体,gjs_addr_relation代表地址实体,gjs_dy_relation代表朝代实体。

上述步骤30具体包括:

1)从不同的表中,选取适当的样本进行标注,为节约标注的时间和成本,将人物表,机构表,地址表,事件表和官职表等不同表中的标准实体取出,构建相应的词典,随后结合词典,使用哈工大ltp工具对人名,地名,机构名,官职进行实体识别和提取,再由人工审核,进行修正和增删,从而极大减少标注时间和工作量;

2)搭建Bert-BiLSTM-CRF模型,并使用标注数据集对模型进行训练和验证;

3)使用Bert-BiLSTM-CRF模型对样本进行实体抽取,获得相应类别的实体。

如图7所示,为Bert-BiLSTM-CRF架构图,从图中可以看出,当文本数据进入模型后,首先对文本进行字粒度的Token映射,并将部分词进行随机Mask,同时在文本序列的开头添加[CLS]标记,各句子间添加[SEP]进行分隔,随后,将映射后的文本序列进行Embedding,此时序列的每个词的输出Embedding由3部分组成:Token Embedding、SegmentEmbedding和PositionEmbedding。将Embedding后的序列向量输入到双向Transformer-Encoder层进行特征提取,最后得到含有丰富语义特征的序列向量。其中Transformer-Encoder结构中的关键部分为自注意力机制,它主要是通过同一个句子中的字与字之间的关联程度调整权重系数矩阵,从而获取字的特征表示,见式(1)。

其中,Q,K,V是字向量矩阵,dk是Embedding维度。而多头注意力机制则是通过多个不同的线性变换对Q,K,V进行投影,最后将不同的Attention结果拼接起来,公式如式(2)和式(3):

MultiHead(Q,K,V)==Concat(head1,…,headn)·W° (2)

Transformer-Encoder结构中的另一关键部分为前馈全连接网络:第一层的激活函数是ReLU,第二层是一个线性激活函数。如果多头注意力机制的输出表示为Z,b是偏置向量,则FN(前馈全连接网络)可以表示为:

FN(Z)=max(0,ZW1+b1)W2+b2 (4)

使用BiLSTM结构的目的是捕获每个字上下文的语义信息,得到每个字的所属标签类别概率,即观测概率矩阵,然而其无法处理相邻标签之间的依赖关系,导致该观测概率矩阵的效果往往较差,而CRF能通过邻近标签的关系获得一个最优的预测序列,从而弥BiLSTM的缺点。

对于任一个序列X=(x1,x2,…,xn),在此假定P是BiLSTM的输出得分矩阵,P的大小为n×k,其中n为词的个数,k为标签个数,P

A表示转移分数矩阵,Ai

两头取对数得到预测序列的似然函数:

式中,

虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号