首页> 中国专利> 基于政府工作报告的中文隐喻信息知识库构建方法、装置

基于政府工作报告的中文隐喻信息知识库构建方法、装置

摘要

本发明提供了一种基于政府工作报告的中文隐喻信息知识库构建方法,属于自然语言处理技术领域。本发明能够提高利用深度学习模型进行中文隐喻识别分类,其能够提取对应人工标签下每个训练文本中话语的隐喻特征,并对多个隐喻特征进行拼接,将拼接后的隐喻特征输入到分类器中,得到词表中的词语是否属于隐喻的分类结果。同时本发明能根据识别结果进行词性分类,并按照分类结果分别确定其源域和目标域,形成隐喻知识文本,从而实现中文隐喻知识库的自动构建。本发明针对政府工作报告的隐喻特点,通过预先对文本数据进行合并和人工标签分类,能够大大降低模型噪声,提高政府工作报告中中文隐喻识别准确度以及识别效率。

著录项

  • 公开/公告号CN112632963A

    专利类型发明专利

  • 公开/公告日2021-04-09

    原文格式PDF

  • 申请/专利号CN202011501395.5

  • 发明设计人 黄孝喜;郭樊容;谌志群;王荣波;

    申请日2020-12-17

  • 分类号G06F40/216(20200101);G06F40/284(20200101);G06F40/30(20200101);G06N3/04(20060101);

  • 代理机构33200 杭州求是专利事务所有限公司;

  • 代理人傅朝栋;张法高

  • 地址 312399 浙江省绍兴市上虞区曹娥街道江西路2288号浙大网新科技园A2幢808室

  • 入库时间 2023-06-19 10:32:14

说明书

技术领域

本发明属于自然语言处理技术领域,具体涉及一种一种基于政府工作报告的中文隐喻信息知识库构建方法。

背景技术

隐喻表达在日常语言中很常见,引起了许多语言学家和心理语言学家的关注。在计算上,隐喻识别是一项检测文本中隐喻的任务。短语级隐喻识别等传统方法会检测带有单词对的隐喻,其中要识别其隐喻性的目标词事先给出。但是,这些目标词不会在现实世界的文本数据中突出显示。

从更广泛的理论角度来看,我们得出这样一个论点:人类的行为和推理在某种程度上是由隐喻所介导的,人们所使用的隐喻可能反映了他们的世界观。在这种情况下,用于隐喻识别的算法可能是更好地理解隐喻及其代表的世界观的第一步。

在有监督的学习中,训练需要大量带有标签的语句。因此,在使用深度学习相关的方法对中文隐喻进行相关研究时,建立中文隐喻知识库是第一步,也是非常重要的一步。

政府工作报告是一种经常带有隐喻表达的中文文本,如何从政府工作报告中获取中文隐喻并建立中文隐喻知识库,是本发明需要解决的技术问题。

发明内容

发明目的:本发明旨在提供一种基于政府工作报告的中文隐喻信息知识库构建方法,能够提高利用深度学习模型进行中文隐喻识别分类的准确度以及识别效率。

为实现上述目的,本发明提出以下技术方案:

一种基于政府工作报告的中文隐喻信息知识库构建方法,其包括如下步骤:

S1、获取不同类型的中文政治文本,对中文政治文本进行统计分析;所述统计分析方式为:

获取每个中文政治文本的关键词集合k,计算每个中文政治文本中的高频词集合f;再对每个中文政治文本进行非文本特征去除后,针对所有中文政治文本进行两两比较,计算两个文本之间关键词集合k与高频词集合f的加权重叠率,将加权重叠率超过阈值的两个文本进行合并;最后对合并后的每个中文政治文本添加表示文本类型的人工标签,将添加标签后的每个中文政治文本作为原政治文本样本;

S2、对每个原政治文本样本进行预处理操作,通过分词、去除字符和过滤停用词后,构建成词表,得到训练文本;

S3、分别针对每一类人工标签的原政治文本样本,构建并训练中文隐喻信息识别神经网络模型,并利用训练后的中文隐喻信息识别神经网络模型提取对应人工标签下每个训练文本中话语的隐喻特征,并对多个隐喻特征进行拼接,将拼接后的隐喻特征输入到分类器中,得到词表中的词语是否属于隐喻的分类结果;

S4、把每一个训练文本中分类结果是隐喻的词语进行词性分类,并按照分类结果分别确定其源域和目标域,形成隐喻知识文本;

S5、将获得的隐喻知识文本按照人工标签类别逐类归入中文政治隐喻知识库。

作为优选,所述步骤S1中,原政治文本样本中的人工标签有10个,包括文化,发展,创新,精神,文明,道德,经济,文化,改革,生态。

作为优选,所述步骤S1中,加权重叠率的计算公式为:

其中w

作为优选,所述权重参数w

作为优选,所述加权重叠率的阈值设置为0.6。

作为优选,所述步骤S3中,中文隐喻信息识别神经网络模型包括词嵌入层、文本向量融合层和分类层,其中:

所述词嵌入层中,将输入的训练文本中的词分别映射为词向量w

所述文本向量融合层中,将词向量{w

所述分类层中,将比较向量{c

作为优选,所述词嵌入层中,分别将词语通过word2vec和bert模型得到词向量和字向量。

作为优选,所述步骤S4的具体实现步骤为:

S41:按照S3中得到的分类结果,将类别为隐喻的隐喻词进行隐喻信息分类,分类类别包括动词型隐喻,名词型隐喻和形容词隐喻;

S42:对每一隐喻信息类别,分别确定其源域和目标域,其中:

若为动词型隐喻,则通过依存分析找出隐喻词所在句子中<名词,动词,名词>的三元组,并通过名词的词典义和动词的常用搭配找到源域和目标域;

若为名词型隐喻,则通过依存分析找出隐喻词所在句子中<名词,名词>的二元组,通过名词的属性及其意义,得到源域和目标域;

若为形容词隐喻,则通过依存分析找出隐喻词所在句子中<形容词,名词>的二元组,通过语料库找出与当前名词搭配中常用的形容词,并对常用的形容词进行归纳,从而得到源域和目标域。

作为优选,所述的中文政治文本为政府工作报告。

另一方面,本发明提供了一种基于政府工作报告的中文隐喻信息知识库构建装置,其包括存储器和处理器;

所述存储器,用于存储计算机程序;

所述处理器,用于当执行所述计算机程序时,实现如前述任一项方案所述的基于政府工作报告的中文隐喻信息知识库构建方法。

本发明相对于现有技术而言,具有以下有益效果:

本发明提供了一种基于政府工作报告的中文隐喻信息知识库构建方法,它能够提高利用深度学习模型进行中文隐喻识别分类,并根据识别结果进行词性分类,并按照分类结果分别确定其源域和目标域,形成隐喻知识文本,从而实现中文隐喻知识库的自动构建。本发明针对政府工作报告的隐喻特点,通过预先对文本数据进行合并和人工标签分类,能够大大降低模型噪声,提高政府工作报告中中文隐喻识别准确度以及识别效率。

附图说明

图1为本发明整体构建流程图示。

图2为本发明中的模型框架示意图。

图3为本发明中例句依存分析示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。本发明中各个实施方式的技术特征在没有相互冲突的前提下,均可进行相应组合。

在本发明的一个较佳实施例中,提供了一种基于政府工作报告的中文隐喻信息知识库构建方法,其包括如下步骤:

S1、获取不同类型的中文政治文本,对中文政治文本进行统计分析;所述统计分析方式为:

1)以各级政府部门的政府工作报告作为中文政治文本,获取每个中文政治文本的关键词集合k,计算每个中文政治文本中的高频词集合f。

2)再对每个中文政治文本进行非文本特征去除后,针对所有中文政治文本进行两两比较,计算两个文本之间关键词集合k与高频词集合f的加权重叠率,将加权重叠率超过阈值的两个文本进行合并。

加权重叠率的计算公式如下:

其中w

3)经过2)合并处理后,对剩余的每个中文政治文本添加表示文本类型的人工标签,将添加标签后的每个中文政治文本作为原政治文本样本。

原政治文本样本中的人工标签可以根据根据实际情况调整,以该报告所针对的主旨进行确定。例如人工标签可以设置为包括文化,发展,创新,精神,文明,道德,经济,文化,改革,生态这十个标签。这些不同主旨的报告中,其隐喻也存在明显不同,需要分别进行处理。

S2、对每个原政治文本样本进行预处理操作,通过文档合并、分词、去除字符和过滤停用词后,构建成词表,以该词表作为该原政治文本样本的训练文本。

S3、由于不同类型的中文政治文本中涉及的隐喻形式存在区别,因此为了避免产生噪声,本发明中分别针对每一类人工标签的原政治文本样本,选取部分数据作为训练集,用于构建并训练适用于此类文本的中文隐喻信息识别神经网络模型。各中文隐喻信息识别神经网络模型的模型结构均相同,仅训练后的模型参数不同。

本实施例中,所采用的中文隐喻信息识别神经网络模型包括词嵌入层、文本向量融合层和分类层,其中:

词嵌入层中,将输入的训练文本中的词分别映射为词向量w

文本向量融合层中,将词向量{w

分类层中,将比较向量{c

然后,对于每一类人工标签的所有原政治文本样本,利用训练后的中文隐喻信息识别神经网络模型提取对应人工标签下每个训练文本中话语的隐喻特征,并对多个隐喻特征进行拼接,将拼接后的隐喻特征输入到分类器中,得到词表中的词语是否属于隐喻的分类结果。

需注意的是,在前述将训练文本输入中文隐喻信息识别神经网络模型时,应当将每一类人工标签的所有原政治文本样本(包含训练集)输入由同一类类人工标签的训练集训练得到的模型中,输出分类结果。

S4、把每一个训练文本中分类结果是隐喻的词语进行词性分类,并按照分类结果分别确定其源域和目标域,形成隐喻知识文本。隐喻知识文本中包含了例句、隐喻类型、隐喻词、源域和目标域等信息。

其中,此处的词性分类和源域和目标域确定的具体实现步骤为:

S41:按照S3中得到的分类结果,将类别为隐喻的隐喻词进行隐喻信息分类,分类类别包括动词型隐喻,名词型隐喻和形容词隐喻;

S42:对每一隐喻信息类别,分别确定其源域和目标域,其中:

若为动词型隐喻,则通过依存分析找出隐喻词所在句子中<名词,动词,名词>的三元组,并通过名词的词典义和动词的常用搭配找到源域和目标域;

若为名词型隐喻,则通过依存分析找出隐喻词所在句子中<名词,名词>的二元组,通过名词的属性及其意义,得到源域和目标域;

若为形容词隐喻,则通过依存分析找出隐喻词所在句子中<形容词,名词>的二元组,通过语料库找出与当前名词搭配中常用的形容词,并对常用的形容词进行归纳,从而得到源域和目标域。

S5、将获得的隐喻知识文本按照人工标签类别逐类归入中文政治隐喻知识库。每一个人工标签类别下,均可包含众多隐喻知识文本信息。

下面将上述S1~S5的方法应用于一个具体的实施例中,以展示其具体实现过程和效果,其具体步骤框架与前述一致。

实施例

本实施例中,基于政府工作报告的中文隐喻信息知识库构建方法,其步骤为:

1.从网页获取不同类型的政府工作报告作为中文政治文本,对政治文本进行统计分析:

(1)通过jieba提取文本中的关键词,形成每个中文政治文本中的关键词集合k。例如《凝聚奋进新时代的精神力量——党的十九大以来精神文明建设成就综述》中的关键词集合为['文明','十九','精神文明','建设','道德','时代','创建','社会','模范','志愿者','实践','理想信念','不断','育新','中央文明办','全国','党课','疫情','以来','文化','志愿','精神','社会主义','价值观','新风','校园','践行','防控','诚信','解放村','周年','力量','厉行节约','服务','生活','弘扬','开展','培育','筑牢','11','先进事迹','榜样','家庭','教育','缺失','工作','治理','提升','思想道德']

(2)通过jieba对文本进行分词,统计词语频率,得到文本中的高频率词语,形成每个中文政治文本中的高频词集合f。例如《在浦东开发开放30周年庆祝大会上的讲话》中的高频词集合为['浦东','开放','发展','30','人民','治理','改革开放','城市','创新','建设','改革','开发','社会主义','现代化','更好','国际','高水平','构建','经济','上海','统筹','国家','中国','重大','国内','更加','大变局','制度','2019','体系','世界','推进','水平','全面','提升','聚焦','实','领域','大海','我们','格局','征程','群众','我国','全球','试验区','中心','打造','十九']。

(3)对每个中文政治文本去除图片等非文本特征。

(4)文档合并:针对所有中文政治文本进行两两比较,计算两个文本之间关键词集合k与高频词集合f的加权重叠率:

其中w

设定一个阈值,将加权重叠率超过阈值的任意两个文本进行合并,本实施例中对p>0.6的两个文本进行合并。由此,众多类似的文本被合并,减少了后续需处理的类别维度,也使得合并后的文本更具代表性。

(5)当完成前一步的合并处理后,为每个中文政治文本添加表示文本类型的人工标签,将添加标签后的文本作为原政治文本样本;

其中本实施例中采用的人工标签为关键词中出现次数最多的20个关键词通过合并得到的10个关键词标签,具体为{文化,发展,创新,精神,文明,道德,经济,文化,改革,生态}。

2.对每个原政治文本样本进行进行预处理操作,得到训练文本。在本实施例中,预处理操作的具体过程为:先对文本进行分词,通过正则表达式去除非中文字符,再通过停用词表过滤停用词,由此将文本构建成词表,该词表即可作为后续模型的训练文本。

S3、分别针对每一类人工标签的原政治文本样本,构建并训练中文隐喻信息识别神经网络模型,并利用训练后的中文隐喻信息识别神经网络模型提取对应人工标签下每个训练文本中话语的隐喻特征,并对多个隐喻特征进行拼接,将拼接后的隐喻特征输入到分类器中,得到词表中的词语是否属于隐喻的分类结果;

3.分别针对每一类人工标签的原政治文本样本,构建并训练一个中文隐喻信息识别神经网络模型。

本实施例中,不同人工标签对应的中文隐喻信息识别神经网络模型结构相同,如图2所示,可分为:

(1)词嵌入层,把输入数据通过word2vec和Bert两种预训练模型,分别得到词向量w

(2)文本向量融合层,将词嵌入层,得到的组合词向量{w

(3)分类层,将文本向量融合层得到的比较向量{c

4.把分类结果是隐喻的词语按词性进行分类:

(1)把每一个训练文本中分类结果是隐喻的词语进行词性分类,并按照分类结果分别确定其源域和目标域,形成隐喻知识文本。其中,此处的词性分类和源域和目标域确定的具体实现步骤为:

(2)按照前一步得到的分类结果,将类别为隐喻的隐喻词进行隐喻信息分类,分类类别包括动词型隐喻,名词型隐喻和形容词隐喻;

对每一隐喻信息类别,分别确定其源域和目标域,其中:

a)若为动词型隐喻,则通过依存分析找出隐喻词所在句子中<名词,动词,名词>的三元组,并通过名词的词典义和动词的常用搭配找到源域和目标域;

例如,“我们应该坚持开放精神,发挥各自比较优势,加强相互经济合作,

b)若为名词型隐喻,则通过依存分析找出隐喻词所在句子中<名词,名词>的二元组,通过名词的属性及其意义,得到源域和目标域;

例如,“放眼未来,精神文明建设必将结出累累

c)若为形容词隐喻,则通过依存分析找出隐喻词所在句子中<形容词,名词>的二元组,通过语料库找出与当前名词搭配中常用的形容词,并对常用的形容词进行归纳形成一个概括词作为目标域,从而得到源域和目标域。

例如,”文明已逐渐

由此,前述的每个隐喻词,均可以构建成一条隐喻知识文本,隐喻知识文本中可以含有例句、隐喻类型、隐喻词、源域和目标域等信息。

5.中文政治隐喻知识库构建:

将前述步骤中获得的隐喻知识文本归入中文政治隐喻知识库。需要注意的是,由于前述步骤的处理都是按照人工标签类别进行的,因此亦可按照人工标签类别逐类进行归类,每一个人工标签类别下,均可包含众多隐喻知识文本信息。为了进一步对每一个人工标签类别下的隐喻进行子类别划分,可以将步骤1至4获得的隐喻知识文本,对源域通过k-means聚类,继续划分为几个子类别。结果部分如下:

再根据聚类结果构建知识库,其中一人工标签类别下一子类别的结果如下:

以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号