首页> 中国专利> 一种基于跨模型、跨语言知识建模的知识挖掘方法

一种基于跨模型、跨语言知识建模的知识挖掘方法

摘要

本发明属于知识挖掘技术领域,具体涉及一种基于跨模型、跨语言知识建模的知识挖掘方法。本发明挖掘方法实施过程中,对多语言新闻知识进行挖掘,其所构建的不同知识模型之间具有一定的隔离性,同时具有一定的关联性,针对不同的源语言素材和知识模型,采用监督知识抽取方法和非监督知识抽取方法相结合的方式进行知识抽取,并将知识抽取过程获取到的知识和知识模型进行映射,在跨语言知识融合层面上,基于开源百科库、开源知识库实现跨语言知识库建设,基于跨语言链接进行知识融合对齐。最终,完成跨模型、跨语言知识建模及知识挖掘,获得所需的跨语言新闻知识库。

著录项

说明书

技术领域

本发明属于知识挖掘技术领域,具体涉及一种基于跨模型、跨语言知识建模的知识挖掘方法。

背景技术

随着开源新闻文本数据爆炸式的增长,传统的数据检索和浏览方式已经无法满足研究需求。由于研究的方向逐渐细分,研究人员迫切需要跨国家模型、跨语言的知识图谱技术,从繁杂的自然语言中提炼出关心的目标实体和实体之间存在的关系,从而从中挖掘潜在的高价值信息。

知识图谱自谷歌于2012年提出以后,备受学术界和工业界的关注,在各个领域得到广泛的研究和应用。目前谷歌、百度、阿里、腾讯等头部互联网企业,以及明略、星环等新兴企业都建立了知识图谱框架和技术,旨在利用知识图谱提高数据应用能力。传统上,知识图谱构建的流程包括知识建模、数据引接、知识映射、知识抽取和知识融合,最终形成知识图谱,从而为上层应用提供知识数据支撑。

中国专利“CN112199511A”跨语言多来源垂直领域知识图谱构建方法,垂直领域翻译根据输入的跨语言文本、领域词典、领域术语库、领域素材和数据,通过内容和链接分析完成平行语料库构建,在预处理的基础上基于训练好的翻译模型实现外文文本的自动翻译,结合垂直领域翻译数据和实际场景完成语义特征提取和基于深度学习的实体关系抽取;领域知识融合与消歧对不同来源知识,通过网络等价实体合并进行融合消歧,获得跨语言多来源垂直领域知识图谱。

传统知识图谱构建往往针对单一知识模型和单一语言文本,无法解决跨语言、跨知识模型的知识挖掘。中国专利“CN112199511A”中的跨语言知识图谱构建也仅是针对单一知识模型,且该专利中跨语言是通过机器翻译文本实现,并不是真正的跨语言知识图谱构建,因此无法满足新闻研究领域现有的跨模型、跨语言知识图谱构建应用需求。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是:如何根据用户对跨模型建模、跨语言知识抽取的需求,如何提出一种跨模型、跨语言知识图谱构建技术,方便研究人员对自身研究方向建模,并针对自身方向语言采集数据进行原文知识抽取,并通过跨语言知识链接实现知识的融合。

(二)技术方案

为解决上述技术问题,本发明提供一种基于跨模型、跨语言知识建模的知识挖掘方法,所述方法包括如下步骤:

步骤1:针对不同国家分别进行知识建模,包括多层级实体概念建模、实体属性建模和逻辑关联关系建模;该步骤1包括具体步骤如下;

步骤11:在知识建模后台系统中针对不同国家分别创建各自的知识模型,分别以国家名称对不同国家对应的知识模型进行创建并命名,然后为每个知识模型创建依据兼属关系约束的多层级实体概念;所述多层级实体概念包括:一级实体概念、二级实体概念;其中,所述一级实体概念包括:组织机构、人物、地点、武器装备;二级实体概念为某个一级实体概念下属的子集,两者之间在兼属关系存在包含与被包含的关系;

步骤12:针对每个特定的实体概念创建其对应的实体属性;其中,对于组织机构而言,其实体属性包括:成立时间、总部所在地、规模、人数;对于人物而言,其实体属性包括:年龄、性别、职务、出生地、学历;对于地点而言,其实体属性包括:气候、经纬度;对于武器装备而言,其实体属性包括长度、重要、作战半径、威力;

步骤13:在整个知识模型中,对于其中每两个能够产生实体关系的实体概念,将其定义为一对,针对每对能够产生实体关系的实体概念,创建其两者之间的逻辑关联关系;

所述逻辑关联关系包括:

人物和组织机构之间的关系包括“任职”、“成员”,人物和地点之间的关系包括“出生地”、“死亡地”,人物和人物之间的关系包括“同事”、“亲属”,武器装备和组织机构之间的关系包括“研制单位”,组织机构和组织机构之间的关系包括“隶属机构”,武器装备和武器装备之间的关系包括“装载”、“别名”;

步骤14:重复实施步骤11至步骤13,依次创建研究任务所涉及的全部国家的知识模型、各国家知识模型内的多层级实体概念、实体属性、逻辑关联关系,从而形成以数据形式存在的知识模型数据;将所述知识模型数据按照国家进行分组,并以分组的形式存入数据库表中;

步骤2:针对知识模型数据中的多层级实体概念、实体属性、逻辑关联关系,将其本国官方语言作为源语言,以源语言对知识模型数据进行建模,形成多层级实体概念、实体属性、逻辑关联关系各自的源语言模型,即多层级实体概念源语言模型、实体属性源语言模型、逻辑关联关系源语言模型;

然后根据源语言与中文之间的对照语义关系,对于所述多层级实体概念源语言模型、实体属性源语言模型、逻辑关联关系源语言模型,建立其各自对应的多层级实体概念中文模型、实体属性中文模型、逻辑关联关系中文模型;

步骤3:对每一篇新闻素材进行知识抽取;

采用监督知识抽取方法和非监督知识抽取方法相结合的方式进行知识抽取,该步骤3包括具体步骤如下:

步骤31:采用监督深度学习方法,通过人工标注数据进行监督训练,生成监督知识抽取模型;此处的监督知识抽取模型是针对每一种语言分别训练生成,包括:中文监督知识抽取模型、英文监督知识抽取模型、日文监督知识抽取模型、俄文监督知识抽取模型;

步骤32:根据用户建立的多层级实体概念模型、实体属性模型、逻辑关联关系模型,定义字典、规则;

其中,对于多层级实体概念模型而言,当用户在知识模型中定义了实体概念“武器装备”,那么预整理一批“武器装备”相关的飞机、舰船、导弹的数据作为字典,字典是指具体实体名称和实体概念的一个映射关系;一旦在新闻素材中匹配到了字典中的数据,就认为其属于“武器装备”概念;

同时定义规则,凡是以“舰”、“机”结尾的实体,就认为它属于“武器装备”概念;对于实体属性模型而言,当用户在知识模型中定义了“武器装备”概念的实体属性“长度”,那么定义规则:在新闻素材中一旦匹配到了“武器装备”概念下的实体以及关键词“长度”,就将“长度”以及“长度”对应的具体数值作为该“武器装备”的属性;

对于逻辑关联关系模型而言,当用户在知识模型中定义了概念对“人物”和“人物”的逻辑关联关系“亲属”,那么定义规则:在新闻素材中一旦匹配到了概念对“人物”-“人物”,以及关键词“父亲”、“母亲”、“亲戚”,那就将“亲属”作为概念对“人物”-“人物”的逻辑关联关系;

以此类推,依据多层级实体概念模型、实体属性模型、逻辑关联关系模型,定义全部的规则和字典,形成非监督知识抽取模型;

同样,这里的规则和字典是分别针对每一种语言设计生成的,包括中文规则字典、英文规则字典、日文规则字典、俄文规则字典,由此,形成中文非监督知识抽取模型、英文非监督知识抽取模型、日文非监督知识抽取模型、俄文非监督知识抽取模型;

步骤33:对每一篇新闻素材进行知识抽取,依据新闻素材本身的语言,分别调用对应语言的监督知识抽取模型和非监督知识抽取模型,并将二者返回的结果进行融合;

知识抽取涵盖三个过程:

首先进行实体抽取,输入为单篇新闻素材,输出为素材中包含的全部实体信息;

其次进行属性抽取,输入为素材中全部的实体信息,输出为每个实体具有的属性信息;

最后进行关系抽取,输入为素材中全部的实体信息,输出为每一组实体对之间具有的逻辑关联关系信息;

通过上述知识抽取过程,获得新闻素材中的知识;

步骤4:将知识抽取过程获取到的知识和知识模型进行映射;由于从不同语言新闻素材中获取到的知识,不一定就映射到该语言对应的知识模型下,需要根据新闻素材的篇章、句子语义信息再次进行判断,从而完成知识和知识模型之间的映射;其中,包括如用英语报道的日本国内新闻,抽取到的知识应该映射到日本知识模型下;用日语报道的印度国内新闻,抽取到的知识应该映射到印度知识模型下;

该步骤4包括具体步骤如下:

步骤41:对新闻素材中每一个句子根据知识模型进行分类,具体类别包括美国知识模型、日本知识模型、印度知识模型、俄罗斯知识模型;如果分类结果的可信度较高,那么认为分类结果有效;将该句子中抽取到的知识映射到分类得到的知识模型中;

步骤42:如果句子分类结果的可信度较低,那么认为句子分类结果无效;这时对整篇新闻素材按照知识模型进行分类,具体类别包括美国知识模型、日本知识模型、印度知识模型、俄罗斯知识模型;将新闻素材中每个句子抽取到的知识都映射到分类得到的知识模型中;

步骤43:通过上述步骤41及步骤42的映射过程,生成输出是知识和知识模型的组合,即知识库;此处获得知识库为源语言形式的知识库;

步骤44:针对源语言形式的知识库,根据所述步骤2中多层级实体概念源语言模型、实体属性源语言模型、逻辑关联关系源语言模型所各自对应的多层级实体概念中文模型、实体属性中文模型、逻辑关联关系中文模型,再次进行源语言与中文的映射,获得中文形式的知识库;

步骤5:由于同一知识往往具有不同的表现形式,所以需要对中文形式的知识库中,映射到知识模型中的知识进一步进行跨语言知识融合;

本步骤基于开源百科库、开源知识库实现跨语言知识库建设,基于跨语言知识库实现跨语言知识融合;该模块具体步骤如下:

步骤51利用开源百科库、开源知识库建设跨语言知识库;

将这些开源百科库、开源知识库进行梳理、整合,建设统一的跨语言知识库;跨语言知识库中包含同一实体在不同语言维度上的别名、属性、描述、标签信息;

步骤52利用跨语言知识库对不同语言下的同一知识进行对齐,完成知识的融合对齐;

由此,最终完成跨模型、跨语言知识建模及知识挖掘,获得所需的跨语言新闻知识库。

其中,所述步骤11中,所述针对不同国家分别创建各自的知识模型,包括:美国知识模型、日本知识模型、印度知识模型。

其中,所述步骤11中,在美国知识模型的情况下,分别创建一级实体概念,包括组织机构、人物、地点、武器装备;

根据一级实体概念继续创建二级实体概念,在一级实体概念的组织机构下创建二级实体概念,包括美国国防部、美国石油学会、美国参议院、美国众议院。

其中,所述步骤1中,不同国家的知识模型在展示界面、物理存储、数据库中相互隔离,以保证不同用户或者用户组的接触权限。

其中,所述步骤14中,对于每个组,赋予不同的数据库开放权限,实现组与组之间互相隔离,从而不同的用户仅能接触自身权限所对应的知识模型数据。

其中,所述步骤32中,所述字典的表现形式包括:{罗斯福航空母舰:武器装备}、{杰克逊:人物}、{纽约:地点}。

其中,所述步骤41中,分类结果的可信度较高指的是高于或等于0.7。

其中,所述步骤42中,分类结果的可信度较低指的是低于0.7。

其中,所述开源百科库指的是包括维基百科、百度百科、互动百科在内的公开百科知识库。

其中,所述开源知识库指的是包括Baklib、Raneto在内的公开知识库。

(三)有益效果

与现有技术相比较,本发明基于跨语言、跨国家的知识挖掘方法,对多语言新闻知识进行挖掘,其所构建的不同知识模型之间具有一定的隔离性,同时具有一定的关联性。针对不同的源语言素材和知识模型,本发明能够自动适配知识抽取算法,实现真正源语言的知识抽取。在跨语言知识融合层面上,基于开源百科库、开源知识库和用户专家实现跨语言知识库建设,基于跨语言链接进行知识融合对齐。

与现有技术相比,本发明基于跨语言、跨国家的知识挖掘方法,对多语言新闻知识进行挖掘,实现了真正意义上的源语言的知识抽取,针对不同的源语言素材和知识模型,能够自动适配知识抽取算法。同时,基于开源百科库、开源知识库和用户专家实现跨语言知识库建设,实现知识融合对齐。

并且,本发明在实际项目中实现了跨语言、跨模型的知识图谱构建、检索和应用。

附图说明

图1为本发明技术方案中多语言知识抽取流程示意图。

图2为本发明技术方案中跨语言新闻知识图谱构建流程图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。

为解决现有技术问题,本发明提供一种基于跨模型、跨语言知识建模的知识挖掘方法,如图2所示,所述方法包括如下步骤:

步骤1:不同领域的新闻研究者,关注的新闻内容各有差异。针对不同国家分别进行知识建模,包括多层级实体概念建模、实体属性建模和逻辑关联关系建模;所述步骤1中,不同国家的知识模型在展示界面、物理存储、数据库中相互隔离,以保证不同用户或者用户组的接触权限。

该步骤1包括具体步骤如下;

步骤11:在知识建模后台系统中针对不同国家分别创建各自的知识模型,分别以国家名称对不同国家对应的知识模型进行创建并命名,然后为每个知识模型创建依据兼属关系约束的多层级实体概念;所述多层级实体概念包括:一级实体概念、二级实体概念;其中,所述一级实体概念包括:组织机构、人物、地点、武器装备;二级实体概念为某个一级实体概念下属的子集,两者之间在兼属关系存在包含与被包含的关系;

所述步骤11中,所述针对不同国家分别创建各自的知识模型,包括:美国知识模型、日本知识模型、印度知识模型等。

所述步骤11中,在美国知识模型的情况下,分别创建一级实体概念,包括组织机构、人物、地点、武器装备;

根据一级实体概念继续创建二级实体概念,在一级实体概念的组织机构下创建二级实体概念,包括美国国防部、美国石油学会、美国参议院、美国众议院等。

步骤12:针对每个特定的实体概念创建其对应的实体属性;其中,对于组织机构而言,其实体属性包括:成立时间、总部所在地、规模、人数等;对于人物而言,其实体属性包括:年龄、性别、职务、出生地、学历等;对于地点而言,其实体属性包括:气候、经纬度等;对于武器装备而言,其实体属性包括长度、重要、作战半径、威力等;

步骤13:在整个知识模型中,对于其中每两个能够产生实体关系的实体概念,将其定义为一对,针对每对能够产生实体关系的实体概念,创建其两者之间的逻辑关联关系;

所述逻辑关联关系包括:人物和组织机构之间的关系包括“任职”、“成员”等,人物和地点之间的关系包括“出生地”、“死亡地”等,人物和人物之间的关系包括“同事”、“亲属”等,武器装备和组织机构之间的关系包括“研制单位”等,组织机构和组织机构之间的关系包括“隶属机构”等,武器装备和武器装备之间的关系包括“装载”、“别名”等;

步骤14:重复实施步骤11至步骤13,依次创建研究任务所涉及的全部国家的知识模型、各国家知识模型内的多层级实体概念、实体属性、逻辑关联关系,从而形成以数据形式存在的知识模型数据;将所述知识模型数据按照国家进行分组,并以分组的形式存入数据库表中;所述步骤14中,对于每个组,赋予不同的数据库开放权限,实现组与组之间互相隔离,从而不同的用户仅能接触自身权限所对应的知识模型数据。

其中,所述知识库展示方式如下:

美国知识模型

人物

军事人物

马克米勒

布林肯

科学家

富兰克林

爱迪生

武器装备

航母

罗斯福航母

尼米兹航母

飞机

F22战斗机

F35战斗机

组织机构

.......

地点

......

日本知识模型……

印度知识模型……

步骤2:针对知识模型数据中的多层级实体概念、实体属性、逻辑关联关系,将其本国官方语言作为源语言,以源语言对知识模型数据进行建模,形成多层级实体概念、实体属性、逻辑关联关系各自的源语言模型,即多层级实体概念源语言模型、实体属性源语言模型、逻辑关联关系源语言模型;

然后根据源语言与中文之间的对照语义关系,对于所述多层级实体概念源语言模型、实体属性源语言模型、逻辑关联关系源语言模型,建立其各自对应的多层级实体概念中文模型、实体属性中文模型、逻辑关联关系中文模型;

(如美国知识模型下的二级实体概念“美国参议院”在建模系统中以“UnitedStates Senate”存储,同时会备注其中文名称为“美国参议院”,实体属性“规模人数”在建模系统中以“Scale number”存储,同时备注其中文名称为“规模人数”;日本知识模型下的二级实体概念“陆上自卫队”在建模系统中以“陸上自衛隊”存储,同时备注其中文名称为“陆上自卫队”,实体属性“成立时间”在建模系统中以“設立時間”存储,同时备注其中文名称为“成立时间”)

步骤3:对每一篇新闻素材进行知识抽取,知识抽取主要有两种方式:一种是通用监督知识抽取,另一种是基于知识模型的非监督知识抽取;通用监督知识抽取采用目前主流的监督深度学习方法,通过人工标注数据进行监督训练,从而实现知识抽取,这种方法准确率高,但是需要大量的人工标注数据,因此周期长、成本高,并且不能很好的适配各种知识模型;基于知识模型的非监督知识抽取,指的是根据用户建立的多层级实体概念模型、实体属性模型、逻辑关联关系模型,灵活地定义字典、规则,通过文本的语法和语义信息,来获取知识,这种方法简单易懂,能够适配各种知识模型,但准确度相对不高。因此,针对用户灵活配置的知识模型,采用监督知识抽取方法和非监督知识抽取方法相结合的方式,该步骤3包括具体步骤如下:

步骤31:采用监督深度学习方法,通过人工标注数据进行监督训练,生成监督知识抽取模型;此处的监督知识抽取模型是针对每一种语言分别训练生成的,包括:中文监督知识抽取模型、英文监督知识抽取模型、日文监督知识抽取模型、俄文监督知识抽取模型;

步骤32:根据用户建立的多层级实体概念模型、实体属性模型、逻辑关联关系模型,灵活地定义字典、规则;其中,对于多层级实体概念模型而言,当用户在知识模型中定义了实体概念“武器装备”,那么预整理一批“武器装备”相关的飞机、舰船、导弹的数据作为字典,字典是指具体实体名称和实体概念的一个映射关系,如{罗斯福航空母舰:武器装备}、{爱迪生:人物}、{纽约:地点};一旦在新闻素材中匹配到了字典中的数据,就认为其属于“武器装备”概念;

同时定义规则,凡是以“舰”、“机”结尾的实体,就认为它属于“武器装备”概念;对于实体属性模型而言,当用户在知识模型中定义了“武器装备”概念的实体属性“长度”,那么定义规则:在新闻素材中一旦匹配到了“武器装备”概念下的实体以及关键词“长度”,就将“长度”以及“长度”对应的具体数值作为该“武器装备”的属性;

对于逻辑关联关系模型而言,当用户在知识模型中定义了概念对“人物”和“人物”的逻辑关联关系“亲属”,那么定义规则:在新闻素材中一旦匹配到了概念对“人物”-“人物”,以及关键词“父亲”、“母亲”、“亲戚”等,那就将“亲属”作为概念对“人物”-“人物”的逻辑关联关系;

以此类推,依据多层级实体概念模型、实体属性模型、逻辑关联关系模型,定义全部的规则和字典,形成非监督知识抽取模型;

同样,这里的规则和字典是分别针对每一种语言设计生成的,包括中文规则字典、英文规则字典、日文规则字典、俄文规则字典,由此,形成中文非监督知识抽取模型、英文非监督知识抽取模型、日文非监督知识抽取模型、俄文非监督知识抽取模型;

步骤33:对每一篇新闻素材进行知识抽取,依据新闻素材本身的语言,分别调用对应语言的监督知识抽取模型和非监督知识抽取模型,并将二者返回的结果进行融合;例如当新闻素材语言为英文时,分别调用英文监督知识抽取模型、英文非监督知识抽取模型,并将二者返回的结果进行融合;

知识抽取涵盖三个过程:

首先进行实体抽取,输入为单篇新闻素材,输出为素材中包含的全部实体信息;

其次进行属性抽取,输入为素材中全部的实体信息,输出为每个实体具有的属性信息;

最后进行关系抽取,输入为素材中全部的实体信息,输出为每一组实体对之间具有的逻辑关联关系信息;

如以英语素材为例,输入为一句话“US Iventor Ediso has worked in theWhite House for four years.”,首先调用英语实体抽取算法,返回的结果为Ediso-person,White House-organization;其次调用英文属性抽取算法,返回结果为Ediso-position-US Iventor;最后调用关系抽取算法,返回结果为Ediso-take office-WhiteHouse。

图1具体描述了多语言知识抽取的过程。

通过上述知识抽取过程,获得新闻素材中的知识;

步骤4:将知识抽取过程获取到的知识和知识模型进行映射;由于从不同语言新闻素材中获取到的知识,不一定就映射到该语言对应的知识模型下,需要根据新闻素材的篇章、句子语义信息再次进行判断,从而完成知识和知识模型之间的映射;其中,包括如用英语报道的日本国内新闻,抽取到的知识应该映射到日本知识模型下;用日语报道的印度国内新闻,抽取到的知识应该映射到印度知识模型下;

该步骤4包括具体步骤如下:

步骤41:对新闻素材中每一个句子根据知识模型进行分类,具体类别包括美国知识模型、日本知识模型、印度知识模型、俄罗斯知识模型;如果分类结果的可信度较高(高于或等于0.7),那么认为分类结果有效;将该句子中抽取到的知识映射到分类得到的知识模型中;

其中,所述分类算法是行业内最基本、最通用的算法,用于判断一个句子或一个篇章属于哪个类别,所述分类算法的输入是一个句子或者篇章,输出是每种类别以及对应的可信度,如{美国知识模型: 0.7,日本知识模型:0.1,印度知识模型:0.05,俄罗斯知识模型: 0.1}。获取可信度最高的类别作为最终可信任的类别;

步骤42:如果句子分类结果的可信度较低(低于0.7),那么认为句子分类结果无效;这时对整篇新闻素材按照知识模型进行分类,具体类别包括美国知识模型、日本知识模型、印度知识模型、俄罗斯知识模型;将新闻素材中每个句子抽取到的知识都映射到分类得到的知识模型中;

步骤43:通过上述步骤41及步骤42的映射过程,生成输出是知识和知识模型的组合,即知识库;此处获得知识库为源语言形式的知识库;

步骤44:针对源语言形式的知识库,根据所述步骤2中多层级实体概念源语言模型、实体属性源语言模型、逻辑关联关系源语言模型所各自对应的多层级实体概念中文模型、实体属性中文模型、逻辑关联关系中文模型,再次进行源语言与中文的映射,获得中文形式的知识库;

步骤5:由于同一知识往往具有不同的表现形式,所以需要对中文形式的知识库中,映射到知识模型中的知识进一步进行跨语言知识融合;

本步骤基于开源百科库、开源知识库和用户专家知识实现跨语言知识库建设,基于跨语言知识库实现跨语言知识融合;该模块具体步骤如下:

步骤51利用开源百科库、开源知识库(可进一步包括用户专家积累的知识)建设跨语言知识库;

开源百科库指的是包括维基百科、百度百科、互动百科在内的公开百科知识库,开源知识库指的是包括Baklib、Raneto在内的公开知识库(用户专家积累指的是用户在工作中积累的行业知识);将这些开源百科库、开源知识库进行梳理、整合,建设统一的跨语言知识库;跨语言知识库中包含同一实体在不同语言维度上的别名、属性、描述、标签信息;

步骤52利用跨语言知识库对不同语言下的同一知识进行对齐,如Ediso、ThomasAlva Ediso、爱迪生可以对齐到标准中文名托马斯·阿尔瓦·爱迪生。这样就完成知识的融合对齐;

由此,最终完成跨模型、跨语言知识建模及知识挖掘,获得所需的跨语言新闻知识库。

其中,在上述技术方案的基础上,还可以进一步包括:

步骤6:知识纠正更新,对于知识抽取获取的知识,用户可以进行审核干预,指导抽取模型的不断优化,从而不断提高知识抽取和和知识融合的准确率。该模块具体步骤如下:

步骤61对于多语言知识抽取模型获取的知识,用户可以进行人工审核矫正,包括实体名称、实体类型、实体属性、实体关系等多维度的矫正,最终得到高准确率的知识进行存储应用。

步骤62另一方面,经过用户矫正之后高准确率的知识,可以作为知识抽取算法的高质量训练语料,指导算法的不断优化,从而不断提高知识抽取和知识融合的准确率。

综上,本发明属于知识挖掘技术领域,具体涉及一种基于跨模型、跨语言知识建模的知识挖掘方法。本发明挖掘方法实施过程中,对多语言新闻知识进行挖掘,其所构建的不同知识模型之间具有一定的隔离性,同时具有一定的关联性,针对不同的源语言素材和知识模型,采用监督知识抽取方法和非监督知识抽取方法相结合的方式进行知识抽取,并将知识抽取过程获取到的知识和知识模型进行映射,在跨语言知识融合层面上,基于开源百科库、开源知识库实现跨语言知识库建设,基于跨语言链接进行知识融合对齐。最终,完成跨模型、跨语言知识建模及知识挖掘,获得所需的跨语言新闻知识库。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号