技术领域
本发明属于知识图谱数据处理领域,具体涉及一种用于知识图谱的噪音检测及知识完成的方法和设备。
背景技术
知识图谱(Knowledge Graph,KG)已经被广泛地应用于现实世界中,例如,知识驱动的人工智能和问题回答系统等。一个典型的知识图谱通常包含大量的三元组来存储知识,其形式是(头实体,关系,尾实体),可以简写为(h,r,t)。近年来,在现实世界中有很多被广泛使用的知识图谱,如Freebase、WikiData、WordNet等不同领域的知识图谱。尽管我们现在还不能做到对于现实世界中知识的全覆盖,但必须保持知识图谱的更新以反映现实世界的变化,这对知识驱动的应用至关重要。传统的构建知识图谱的方法需要专家监督或者人工标注,耗时且效率低下。最近,自动神经关系提取、众包机制被广泛应用于知识图谱的构建,但由于缺乏人工监督,这些方法构建的知识图通常含有噪声。许多工作已经证实了知识图中存在噪声和错误,这将影响结果的质量。
知识图构建的基本问题之一是知识完成学习。相关研究人员已经提出了许多知识完成学习的方法,但大多数传统的方法都假设知识图中没有噪声,这显然不符合实际情况。如果忽略知识图中的噪声,实体和关系的表示将会出现错误,从而对下游任务造成负面影响。因此,考虑知识图中的噪声非常重要。最近,谢等人提出了三元组置信度来应对知识图片中的噪声问题,并同时构建知识完成。它根据局部和全局的结构信息来估计三元组的置信度得分,判断三元组是否可信。三元组置信度由三部分组成,其对每一个三元组给出一个得分。但是,该三重置信度估计器只考虑了内部结构的信息,没有考虑辅助信息,导致模型的鲁棒性较低。此外,它的三重置信估计器包含很多参数,这意味着需要大量的资源来寻找合适的参数。
发明内容
有鉴于此,本发明的目的在于提出了一种基于三元组差异度和三元组支持度的知识表征学习框架(DSKRL),以学习知识表征。它不仅考虑了结构信息和辅助信息,而且减少了参数的数量。图1是本发明的DSKRL模型的简要工作过程,自动构建知识图后,知识图中既有知识又有噪声。在构建知识表征的过程中,噪声有望被我们的模型检测到,并将其影响降到最低。同时,也完成了知识完成。
基于上述目的,本发明第一方面提供一种用于知识图谱的噪音检测及知识完成的方法,包括以下步骤:
步骤1,获取含有噪音的知识图谱的数据;
步骤2,基于翻译框架将实体和关系投影到低维空间;
步骤3,引入实体类型层次信息和关系路径信息;
步骤4,计算三元组中实体和关系的匹配度;
步骤5,计算所述匹配度的可信度;
步骤6,综合所述匹配度和所述可信度计算三元组评分;
所述的知识图谱表示为,G=(E,R,T),其中E代表实体,R代表关系,
进一步的,所述的步骤2中利用基于翻译的框架,将所述实体E和所述关系R投影到一个连续且低维的空间中;
步骤3中引入实体类型层次信息和关系路径信息,所述实体类型层次信息为:
Te=α
EHT(T
其中T
所述关系路径信息为:
其中,R(h|p,t)是给定实体对(h,t)的关系路径p的可靠度;Z=∑
步骤4中计算三元组中实体和关系的匹配度公式为:
PT(h,r,t)=EHT(h,r,t)+RP(h,P,t)
步骤5中计算三元组匹配度的可靠度中进一步利用所述实体类型层次信息和所述关系路径信息:
E(h,r,t)=PT(h,r,t)
Q(h,r,t)=-(γ+E(h,r,t)-E(h′,r′,t′))
LS(h,r,t)=μ·LS(h,r,t),Q(h,r,t)<0
其中,μ是确保LS(h,r,t)>0的超参数;
Q
其中,σ(·)是激活函数;
计算三元组匹配度的可靠度公式为:
S(h,r,t)=λ
其中,λ
进一步的,所述的实体类型层次信息是将实体的类型信息投影到实体所在的平面,然后将两者结合起来,所述的关系路径信息是通过推理,建立实体间的多步关系,所述的实体类型层次信息和所述的关系路径信息衡量了三元组中实体和关系的匹配度以及所述匹配度的可信度。
进一步的,所述的基于翻译的框架,输入是实体和关系词向量形式、实体的类型信息的矩阵和关系路径信息,输出是每个三元组中实体和关系的匹配度和所述匹配度的可信度的乘积。
进一步的,初始的所述实体和关系词向量形式以TransE作为预训练向量,初始的所述实体类型层次信息的矩阵随机初始化,所述实体和关系词向量形式和所述实体类型层次信息的矩阵通过训练进行更新,再加上所述关系路径信息,进而充分捕捉所述知识图谱中的三元组之间的联系以及三元组中实体信息。
进一步的,训练目标为最小化下述损失值:
其中
L(h,r,t)=max(0,γ+E(h,r,t)-E(h′,r′,t′))
和
L(p,r)=max(0,γ+E(p,r)-E(p,r′))
其中,γ>0是超参数;T’是负例三元组的集合:
T′={(h′,r,t)|h′∈E}∪{(h,r,t′)|t′∈E}∪{(h,r′,t)|r′∈R},(h,r,t)∈T
对于优化,使用小批量随机梯度下降SGD来使损失函数最小化,同时使用链式法则更新参数。
本发明第二方面提供一种用于知识图谱的噪音检测及知识完成的设备,包括一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的方法。
与现有技术相比,本发明以下优点和有益效果:
(1)设计了一个融合结构信息、实体类型层次信息和关系路径信息的知识图谱噪音检测及知识完成的基本框架。实体类型层次信息及关系路径信息与结构信息相互补充,此基本框架能大幅度提升知识图谱噪音检测及知识完成的效果,进而对下游任务和应用产生积极的影响。
(2)使用了较少的超参数,降低了寻找合适参数的难度,提高了框架的通用度。
(3)通过利用三元组支持度来判断三元组差异度是否可信,将二者结合起来考虑问题,使得对于一个三元组是否是正例的判断更为可靠。
附图说明
图1为DSKRL模型的简要工作过程;
图2为本发明实施例的整体流程示意图;
图3为本发明中的实体层次类型实例示意图。
具体实施方式
下面结合附图对本发明作进一步的说明,但不以任何方式对本发明加以限制,基于本发明教导所作的任何变换或替换,均属于本发明的保护范围。
实施例1
如图1所示,一种用于知识图谱的噪音检测及知识完成的方法,包括以下步骤:
步骤1,获取含有噪音的知识图谱的数据;
步骤2,基于翻译框架将实体和关系投影到低维空间;
步骤3,引入实体类型层次信息和关系路径信息;
步骤4,计算三元组中实体和关系的匹配度;
步骤5,计算该匹配度的可信度;
步骤6,综合匹配度和可信度计算三元组评分;
本发明的模型框架DSKRL由三元组差异度估计器和三元组支持度估计器组成。差异度和支持度描述的是三元组的匹配度及匹配度的可信度,可以用结构信息和辅助信息来衡量。我们给出本发明中使用的一般符号。给定一个正例三元组(h,r,t),考虑头实体和尾实体h,t∈E和r∈R,其中E和R是实体和关系的集合。T代表所有的训练三元组,包括负例三元组。图2是我们的DSKRL模型的简要工作过程,自动构建知识图后,知识图中既有知识又有噪声。
DSKRL框架:
我们试图检测知识图谱中的噪声,同时构建无噪声的知识表示。以TransE框架为基本框架,我们将DSKRL的能量函数设计如下:
能量函数由两部分组成:PT(h,r,t)和S(h,r,t),利用基于翻译的方法作为底层框架,它们利用结构信息作为主体,在此基础上加入了实体层次类型信息和关系路径信息。之后我们引入三元组差异度和三元组支持度。三元组差异度衡量实体和关系在三元组中的匹配程度,三元组支持度衡量该匹配程度的可信度。三元组差异度得分越低,意味着三元组中实体和关系的匹配程度越高。因此,它更有可能是一个正例三元组。三元组支持度得分越高,说明对应三元组的匹配程度越可信,因此应多加考虑。本发明通过两种方式来估计三元组差异度得分和三元组支持度得分,我们将在下面进行详细介绍。
三元组差异度估计器:
三元组差异度估计器是基于翻译假设(结构信息),并加入实体层次类型信息和关系路径信息来计算三元组中实体和关系的匹配程度。下面我们将具体说明如何利用上述信息。
实体类型层次信息和关系路径信息:
实体层次信息意味着同一个实体在不同的场景下起着不同的作用。如图3所示,Obama有着一系列的类型,例如,人类/父亲、人类/政治家和人类/个人,他会在不同的场景下表现出不同的属性。实体的层次类型信息对衡量三元组匹配度时非常有效的,例如,一个不完全的三元组(?,国籍,美国),在该三元组中,头实体的类型是一个有生命类型(人类/人),这比非生命类型(地点/国家)可靠度要高。换句话说,即使三元组(马云,国籍,美国)和三元组(中国,国籍,美国)都是错误的,但我们仍然认为前者因为类型的原因具有比后者更低的三元组差异度分数。受到TKRL的启发,本发明给出通用的层次信息的表示形式。通常,在一个知识图谱中,一个实体会具有多个类型,通用类型编码器的形式如下:
Te=α
其中,n是实体e所具有的类型的数量,ci是实体e所属的实体类型,Tci和α
其中,m是多层结构中c类型的层数,T
定义三元组实体类型差异度的测量方式如下:
EHT(T
除此之外,为了充分利用知识图谱中的路径信息,本发明引入全局路径信息去衡量三元组的差异度。考虑多关系路径P(h,t)={p1,p2,…pn},该多关系路径连接头实体h和尾实体t,每个路径pi表示经过多个关系r,可以从头实体h到尾实体t,pi={r1,r2,…,rn}。受到PTransE启发,三元组(h,P,T)的能量函数如下:
其中,R(h|p,t)是给定实体对(h,t)的关系路径p的可靠度。Z=∑
是一个正态化因子,E(h,p,t)是实体对的能量函数。
对于R(h|p,t),本发明提出了一个基于路径约束的资源分配算法PCRA。假设在知识图谱中有一定的资源从头实体流出,然后沿着给定的路径p流到尾实体t,本发明用最终流入尾实体t的资源作为路径可靠度。由尾实体t收到的资源量被记作R
最后,本发明设计一个新颖的实体层次信息和关系路径的三元组差异度测量模型,对于每一个三元组,本发明定义差异度公式如下:
PT(h,r,t)=EHT(h,r,t)+RP(h,P,t)
三元组支持度:
三元组支持度估计器基于三元组差异度估计器,并通过进一步利用路径信息、实体层次类型信息和结构信息,其输出值(从0到1不等)来衡量匹配程度是否可信。下面将具体介绍本发明是如何利用上述信息的。
三元组局部支持度估计器:
三元组的支持度。由于本发明的模型框架是建立在翻译假设的基础上,对于三元组内部的局部支持度,本发明可以直接使用PT(h,r,t)来衡量支持度。
我们认为,一个三元组越符合翻译假设,该三元组的质量就越高,即该三元组的优先级应该越高。本发明给出计算三元组质量的函数如下:
E(h,r,t)=PT(h,r,t)
Q(h,r,t)=-(γ+E(h,r,t)-E(h′,r′,t′))
在训练开始的时候,本发明会将所有三元组的局部支持度LS(h,r,t)初始化为1。在训练过程中,该数值会发生变化。从形式上看,三元组局部支持度LS(h,r,t)随其三元组质量Q(h,r,t)变化如下:
LS(h,r,t)=μ·LS(h,r,t),Q(h,r,t)<0
这里,μ是确保LS(h,r,t)>0的超参数。LS(h,r,t)的值将以线性速度下降,因为当Q(h,r,t)<0时,这些三元组更可能包含噪声,应该具有较低的三元组支持度。
三元组动态路径支持度估计器:
与考虑全局关系路径的RP(h,r,t)类似,本发明引入动态路径支持估计器。动态路径支持(DPS)可以解决先验路径支持不灵活的缺点,它可以在训练过程中灵活地学习路径支持。受CKRL的启发,给定r和pi={r
Q
因此,动态路径支持可以被写作:
其中,σ(·)是激活函数。
三元组支持度模型:
三元组支持度模型结合了上述提到的三元组局部支持度和动态路径支持,公式如下:
S(h,r,t)=λ
其中,λ
知识图谱内部和外部信息并不是在一个空间中,因此需要对齐到同一空间中,具体地训练目标为最小化以下损失值:
遵循TransE,L(h,r,t)和L(h,r,t)分别为三元组(h,r,t)和实体对(p,r)的边际损失函数:
L(h,r,t)=max(0,γ+E(h,r,t)-E(h′,r′,t′))
和
L(p,r)=max(0,γ+E(p,r)-E(p,r′))
其中,γ>0是超参数,T’是负例三元组的集合。这里,三元组支持度S(h,r,t)使得我们的模型更加关注那些可信度更高的三元组。
对于成对训练,因为在知识图谱中没有明显的负例三元组,本发明采用以下方法进行负例三元组采样:
T′={(h′,r,t)|h′∈E}∪{(h,r,t′)|t′∈E}∪{(h,r′,t)|r′∈R},(h,r,t)∈T
对于优化,本发明使用小批量随机梯度下降(SGD,Stochastic GradientDescent)来使损失函数最小化,同时使用链式法则更新参数。在训练的开始,类型矩阵T会被随机初始化,实体和关系的词向量表示可以使用预训练的TransE。
最终,给出每个三元组的评分函数:
针对知识图谱存在噪音的问题,本发明将结构信息、实体类型层次信息和关系路径信息结合,通过两步计算去判断一个三元组是否为正例三元组,在避免噪音的同时完成知识完成。本发明在广泛使用的数据集上取得了较好的效果。
实施例2
本实施例提供一种用于知识图谱的噪音检测及知识完成的设备,包括一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如实施例1所述的方法。
本发明的有益效果如下:
(1)设计了一个融合结构信息、实体类型层次信息和关系路径信息的知识图谱噪音检测及知识完成的基本框架。实体类型层次信息及关系路径信息与结构信息相互补充,此基本框架能大幅度提升知识图谱噪音检测及知识完成的效果,进而对下游任务和应用产生积极的影响。
(2)使用了较少的超参数,降低了寻找合适参数的难度,提高了框架的通用度。
(3)通过利用三元组支持度来判断三元组差异度是否可信,将二者结合起来考虑问题,使得对于一个三元组是否是正例的判断更为可靠。
上述实施例为本发明方法用于知识图谱噪音检测及知识完成的一种实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
机译: 一种基于知识图谱的多用户游戏服务提供方法及其装置
机译: 一种用于写入可复制且未完成的光盘的方法,一种用于形成包含一组命令的最终光盘,计算机软件或波形的方法,用于在可复制且未完成的光盘,视像和个人视频上记录的设备
机译: 确定未完成的井筒中存在的一种或多种结构资源的布置/方向的方法和系统,用于捕获未完成的井筒中存在的结构资源上的数据的装置,装置和方法,提供模拟视觉/插图的方法未完成的井芯的构造,以及用于收集与岩心样品中存在的结构特征有关的数据的设备