首页> 中国专利> 一种基于不确定性本体的知识表示方法

一种基于不确定性本体的知识表示方法

摘要

本发明提供一种基于不确定性本体的知识表示方法,包括以下步骤:步骤(1)从带有不确定性信息的本体知识图谱中获取实体、类型、关系及带有不确定信息的三元组;步骤(2)对实例、类型、关系的表示向量初始化;步骤(3)基于不确定性本体的距离函数,构建不确定三元组的能量方程;步骤(4)根据所述距离函数,构建基于均方误差的损失函数,通过最小化损失函数,学习实体及关系的表示。本发明的有益效果:能够在学习知识表示的同时,保留不确定性信息。

著录项

  • 公开/公告号CN112463979A

    专利类型发明专利

  • 公开/公告日2021-03-09

    原文格式PDF

  • 申请/专利权人 东南大学;

    申请/专利号CN202011321197.0

  • 发明设计人 张嘉韬;漆桂林;

    申请日2020-11-23

  • 分类号G06F16/36(20190101);G06F40/30(20200101);

  • 代理机构32206 南京众联专利代理有限公司;

  • 代理人薛雨妍

  • 地址 210096 江苏省南京市玄武区四牌楼2号

  • 入库时间 2023-06-19 10:08:35

说明书

技术领域

本发明涉及自然语言处理以及知识表示学习技术领域,更具体地,涉及一种基于不确定性本体的知识表示方法。

背景技术

知识图谱是一种利用实体及关系来表示知识的方法,当前已经有许多大规模的知识图谱,如DBpedia、Freebase等,这些知识图谱在许多人工智能应用,如问答系统、语义搜索、关系抽取中都有着重要的应用。随着知识图谱成为研究热点,不确定性也被很自然的引入到知识图谱的研究当中:一方面,由于图谱构造的各个环节,如关系抽取、实体链接等都充满了噪声与错误,导致难以保证最终知识图谱的确定性;另一方面,许多知识本身就具有概率性和模糊性,尤其对于一些理论并不完备的领域,如生物医学领域,许多经验性的知识需要结合概率才能进行描述。当前的不确定性知识图谱有NELL、Probase等,这些图谱允许其三元组具有置信度信息,用于描述三元组的不确定性。通过将不确定性引入知识图谱,一方面能够更加精确的对知识进行描述,另一方面允许更多具有潜在价值的三元组进入图谱,一定程度上提高了图谱的覆盖率,缓解了关系缺失的问题。

知识图谱表示学习,是研究如何用低维实值向量来表示图谱中的实体及关系,并用这种表示进行图谱的补全或推理,当前比较具有代表性的工作有TransE、DistMult、RESCAL等,然而这些工作都没有考虑到知识图谱所具有的不确定性。相比基础的知识图谱表示学习,不确定性知识图谱表示学习更具挑战性,不确定性知识图谱表示学习在保留了图谱结构及语义信息的基础上,还需要保留三元组的置信度信息,并实现更加精确的推理,其中比较具有代表性的方法有UKGE、CTransE等。由于可以实现不确定性信息的编码,不确定表示学习已经被应用在了许多对推理精度要求更高、误差更加敏感的任务中,如罕见疾病药物挖掘等。

本体是知识图谱的重要组成部分,其可以充分表达知识图谱中概念及概念间的关系,有效地利用本体信息可以很大程度上提高基于知识图谱推理的效果。当前,将本体与知识图谱表示学习相结合的代表方法有JOIE等,然而这些工作中的本体都需要人工构建,费时费力。为了解决这个问题,一些方法希望利用规则挖掘技术自动化地从知识图谱中挖掘本体,然而这些挖掘出来的本体往往质量比较低,带有很大的不确定性。

综上,基于该领域当前的研究情况,亟待提出一种能够将不确定性本体图谱与表示学习结合的方法,能够在更加准确表示实例、类型、关系的基础上,实现更加精准的知识图谱补全及推理。

发明内容

为解决上述问题,本发明公开了为有效利用不确定性本体中的不确定性信息,提高推理的精度,其中本发明的解决方案是:

一种基于不确定性本体的知识表示方法,包括以下步骤:

步骤1:从带有不确定性信息的本体知识图谱中获取实体、类型、关系及带有不确定信息的三元组;

步骤2:对实例、类型、关系的表示向量初始化;

步骤3:基于不确定性本体的距离函数,构建不确定三元组的能量方程;

步骤4:根据所述距离函数,构建基于均方误差的损失函数,通过最小化损失函数,学习实体及关系的向量表示。

作为本发明的一种进步方案,所描述的步骤(1),需要从图谱中获取数据包括:图谱中的实例集合E={entity

作为本发明的一种进步方案,所述步骤(2)中,对于实例、类型、关系的向量初始化表示方法是:对实例集合E={entity

作为本发明的一种进步方案,所描述的步骤(3)中基于不确定本体性的距离函数,构建不确定三元组的能量方程,之前还需要确定基于不确定本体性的距离函数。

作为本发明的一种进步方案,基于不确定性本体的距离函数的定义方法是:首先根据不确定性三元组所描述的关系类型的不同,将这些三元组划分成六组,分别是:data类型,表示实例和实例之间的关系;type类型,表示实例所属类型;sc类型,表示类型与其父类的从属关系;domain类型,表示关系的定义域;range类型,表示关系的值域;subproperty表示关系与其父类的从属关系。之后,分别为这六种类型定义距离函数:Gap(l)

作为本发明的一种进步方案,对于data类型的三元组l=(e

其中符号||·||

作为本发明的一种进步方案,对于type类型的三元组l=(e

Gap(l)

作为本发明的一种进步方案,对于sc类型的三元组l=(c

Gap(l)

作为本发明的一种进步方案,对于domain类型的三元组l=(p

作为本发明的一种进步方案,对于range类型的三元组1=(p

作为本发明的一种进步方案,对于subproperty类型的三元组l=(p

作为本发明的一种进步方案,不确定性三元组能量函数f

f

其中Gap(l)

作为本发明的一种进步方案,归一化函数σ(·),其特征在于,σ函数定义如下:

其中e表示自然常数。

作为本发明的一种进步方案,基于不确定本体性的知识表示方法,其特征在于,所描述的步骤(4)所述的损失函数L定义如:

L=L

其中L

作为本发明的一种进步方案,其特征在于,对于以上L

本发明的一种基于不确定性本体的知识表示方法,通过将不确定性本体图谱与表示学习方法相结合,实现了更加准确实例、类型、关系的表示,从而能更加精准地进行知识图谱补全及推理。

附图说明

图1、是本发明基于不确定本体图谱表示学习方法的流程图。

具体实施方式

下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。需要说明的是,下面描述中使用的词语“前”、“后”、“左”、“右”、“上”和“下”指的是附图中的方向,词语“内”和“外”分别指的是朝向或远离特定部件几何中心的方向。

本发明所要解决的技术问题是:如何提供一种新的基于不确定性三元组的知识表示方法,能够在学习知识表示的同时,保留不确定性信息。

如图1所示为本实施例的一种基于不确定性本体的知识整体流程图。总体上包括以下步骤:

步骤(1)从图谱中获取实例、类型、关系、不确定性三元组:

需要从图谱中获取数据包括:图谱中的实例集合E={entity

步骤(2)初始化实例、类型、关系表示:

对于实例、类型、关系的向量初始化表示方法是:对实例集合E={entity

另外,对于实例、类型、关系向量的初始化采用基于高斯分布的随机方法进行初始化,并限制所有向量的模为1,m为大于等于1的自然数,在实施过程中m一般设定为128。

步骤(3)基于不确定本体的距离函数,构建不确定三元组的能量方程:

根据不确定性三元组所描述的关系类型的不同,将这些三元组划分成六组,分别是:data类型,表示实例和实例之间的关系;type类型,表示实例所属类型;sc类型,表示类型与其父类的从属关系;domain类型,表示关系的定义域;range类型,表示关系的值域;subproperty表示关系与其父类的从属关系。并分别为这六种类型定义距离函数:Gap(l)

对于data类型的三元组l=(e

其中符号||·||

对于type类型的三元组l=(e

Gap(l)

对于domain类型的三元组l=(p

对于domain类型的三元组l=(p

对于range类型的三元组l=(p

对于subproperty类型的三元组l=(p

不确定性三元组能量函数f

f

其中Gap(l)

归一化函数σ(·)定义如下:

其中e表示自然常数。

步骤(4)根据所述能量方程,构建并最小化损失函数,学习向量表示:

损失函数L定义如:

L=L

其中L

对于以上L

在实施过程中,对于损失函数的优化一般采用随机梯度下降方法进行学习,学习率一般取0.01。经过最小化损失函数过程,最后可以得到不确定性本体图谱中实例、类型、关系的表示。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号