首页> 中国专利> 一种基于最面向社会关系抽取的网络表示方法

一种基于最面向社会关系抽取的网络表示方法

摘要

本发明涉及一种面向社会关系抽取的网络表示的方法,属于机器学习及网络表示学习的技术领域,所述方法包括如下步骤:为网络节点之间的边进行关系标注;利用基于平移的网络表示学习方法学习网络节点表示及关系表示;利用学习到的网络节点的表示及关系表示对未标注的边进行关系抽取。本发明能够利用平移的思想对网络节点及它们之间的关系进行建模,在关系抽取任务上取得了显著的提升。同时,这种方法能够适用于不同类型网络的表示学习和关系抽取中,具有良好的适用范围及可扩展性。

著录项

  • 公开/公告号CN107392229A

    专利类型发明专利

  • 公开/公告日2017-11-24

    原文格式PDF

  • 申请/专利权人 清华大学;

    申请/专利号CN201710476332.0

  • 发明设计人 孙茂松;涂存超;刘知远;

    申请日2017-06-21

  • 分类号G06K9/62(20060101);G06Q50/00(20120101);

  • 代理机构11002 北京路浩知识产权代理有限公司;

  • 代理人王莹;李官

  • 地址 100084 北京市海淀区清华园北京100084-82信箱

  • 入库时间 2023-06-19 03:51:20

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-03-13

    授权

    授权

  • 2017-12-22

    实质审查的生效 IPC(主分类):G06K9/62 申请日:20170621

    实质审查的生效

  • 2017-11-24

    公开

    公开

说明书

技术领域

本发明涉及机器学习以及网络表示学习技术领域,具体涉及一种基于最面向社会关系抽取的网络表示方法。

背景技术

本部分向读者介绍可能与本发明的各个方面相关的背景技术,相信能够向读者提供有用的背景信息,从而有助于读者更好地理解本发明的各个方面。因此,可以理解,本部分的说明是用于上述目的,而并非构成对现有技术的承认。

真实世界中的实体,通常会互相交互,形成大规模的复杂网络。近些年来,从社会学领域到计算科学领域,针对网络分析的研究取得了巨大的进步。传统的网络分析的技术,会把每个网络节点看作一个唯一的符号。这种表示方法通常面临着稀疏性问题,对于许多任务,例如节点分类、个性化推荐、异常检测以及关系预测,都极大的影响了最终的效果。

为了克服稀疏性问题,受到近些年来表示学习的启发,学者们提出了针对网络分析的网络表示学习的方法。网络表示学习目的是将复杂网络中的节点的网络结构信息,编码到一个低维的语义空间中。可以通过网络节点的这种连续实值的表示,来判断节点之间的距离远近,有无关系等等。同时,这种实值的表示,还可以作为特征向量,用作分类以及聚类等网络分析任务上。

但是目前这些已有的方法往往会忽略网络中边上丰富的信息。在这些方法中,网络中的边通常会被简化成一个0/1值或实数值。然而,这种简化往往不能很好的对边上丰富的信息进行建模。此外,真实世界网络中节点之间的交互往往蕴含着不同的含义。例如,社交媒体中对同一个用户的关注行为可能出于不同的原因;学术网络中两个学者与另外一个学者有合作关系,但可能处于完全不同的共同兴趣。因此,如何将边上丰富的关系信息融入到网络表示学习中十分重要。

发明内容

要解决的技术问题是如何提供如何结合社交网络中节点之间边上丰富的关系信息,学习网络节点及关系的表示,来预测未标注节点之间的关系。

针对现有技术中的缺陷,本发明提供一种基于最面向社会关系抽取的网络表示方法,可以学习网络节点及关系的表示。

第一方面,本发明提供了一种基于最面向社会关系抽取的网络表示方法,包括:

为网络节点之间的边进行关系标注;

利用基于平移的网络表示学习方法学习网络节点表示及关系表示;

利用学习到的网络节点的表示及关系表示对未标注的边进行关系抽取。

可选地,所述为网络节点之间的边进行关系标注包括:

建社交网络数据集;

根据交互文本信息进行边的关系标注;

对标注关系的边划分训练集测试集。

可选地,所述建社交网络数据集包括:

抓取收集网络中的节点之间的关联信息,以及节点之间交互的文本信息

可选地,所述根据交互文本信息进行边的关系标注包括:

利用关键词抽取或命名实体识别方法,从交互的文本信息中抽取标签,利用这些标签来作为边的关系的标注。

可选地,所述对标注关系的边划分训练集测试集包括:

对已经标注好关系的边,抽取一定的比例作为训练集,用于训练网络节点表示,剩余部分用作测试集,用来测试训练好的网络表示在关系抽取上的效果。

可选地,所述利用基于平移的网络表示学习方法学习网络节点表示及关系表示包括:

所述步骤B具体是通过执行以下步骤实现的:

B1、构件好社交网络,并且完成对其中边的关系进行标注之后,需要根据节点与节点之间的网络信息及标注好的关系,来学习每个节点的表示向量。

假设该网络为G=(V,E),其中,V为所有节点的集合,E为所有边的集合。假设每个节点有两个表示向量,例如对于一个节点v∈V,其表示向量记为为v,v’。那么对于训练集中的每条边e=(u,v),及边上的标签集合l={t1,t2,...}假设节点的表示与边上关系的表示满足平移性质,也就是u+l≈v′。

B2、由于关系表示是由边上的标签集合得到的,所以通过一个深层自动编码器来获得该向量表示。

首先,将标签集合1映射成为一个二元向量其中对于属于该标签集合的标签对应的位置记为1,其余记为0,也就是>i=1if>i∈l,and>i=0otherwise

之后,通过非线性变换,将得到的二元向量映射到低维的向量表示空间,如下所示:

h(1)=f(W(1)s+b(1))|,

h(i)=f(W(1)h(i-1)+b(i)),i=2,...,K

其中,W、b为线性变换的参数矩阵和偏移向量,f为非线性激活函数,K为深层自动编码器的层数。h(i)为第i层的表示向量。把中间的隐层表示,也就是l=h(K/2)作为该条边上关系的表示。

深层自动编码器需要有着重构输入的能力,因此,设计了如下重构损失函数:

其中,为重构的输出,也就是最后一层隐层向量,

是一个权重向量,β为一个权重常数,⊙为Hadamard乘法。

B3、设计模型的目标函数

对于每个三元组(u,v,l),通过随机替换其中的头结点u、尾节点v或者标签集合l,得到其负例集合:

对于一个负例设计如下平移部分的目标函数:

其中,d表示|u+l-v’|,γ>0是一个表示间距的超参数。

综合B2中深层自动编码器的损失,得到如下总体的损失函数:

其中,通过α和η控制不同部分的权重。

其中

为一个正则项,为了防止过拟合。

B4、训练模型

得到目标函数之后,采用的Adam优化算法进行优化,并且采用了 dropout来增加模型的鲁棒性。优化之后,就得到了每个节点的表示向量及关系的表示向量。

可选地,所述利用学习到的网络节点的表示及关系表示对未标注的边进行关系抽取包括:

通过得到边的近似的表示向量,然后通过深层自动编码器的解码器部分进行解码,得到重构出的标签向量,将重构向量与标准值进行对比来评价模型效果。

由上述技术方案可知,与现有技术相比,本发明供的新颖的面向社会关系抽取的网络表示方法,利用平移的思想将边上丰富的关系信息融入表示学习的过程中。这种面向社会关系抽取的网络表示的方法,能够有效的将边上丰富的标签信息融入到节点和边的表示向量中。与传统的网络表示学习方法相比,本发明提出的网络表示学习方法,能够通过直观的方法结合边上的标签信息,同时在社会关系抽取任务上取得了优异的效果,具有良好的一致性和实用性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单的介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一个实施例中一种基于最面向社会关系抽取的网络表示方法流程示意图;

图2为本发明一个实施口连接关系示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,本发明提供了一种基于最面向社会关系抽取的网络表示方法,包括:为网络节点之间的边进行关系标注;利用基于平移的网络表示学习方法学习网络节点表示及关系表示;利用学习到的网络节点的表示及关系表示对未标注的边进行关系抽取。

本实施例提出的基于最大间隔理论的网络表示学习方法的具体步骤为:

A、为网络节点之间的边进行关系标注;

B、利用基于平移的网络表示学习方法学习网络节点表示及关系表示;

C、利用学习到的网络节点的表示及关系表示对未标注的边进行关系抽取。

进一步地,所述步骤A具体是通过执行以下步骤实现的:

A1、构建社交网络数据集;

构建社交网络数据集,包括抓取收集网络中的节点之间的关联信息,以及节点之间交互的文本信息。

A2、根据交互文本信息进行边的关系标注;

利用关键词抽取或命名实体识别等技术,从交互的文本信息中抽取标签,利用这些标签来作为边的关系的标注。

A3、对标注关系的边划分训练集测试集;

对已经标注好关系的边,抽取一定的比例作为训练集,用于训练网络节点表示,剩余部分用作测试集,用来测试训练好的网络表示在关系抽取上的效果。

进一步地,所述利用基于平移的网络表示学习方法学习网络节点表示及关系表示包括:构件社交网络,完成对其中边的关系进行标注;根据节点与节点之间的网络信息及标注好的关系,来学习每个节点的表示向量;通过一个深层自动编码器来获得该向量表示;设计模型目标函数;对目标函数优化得到每个节点的表示向量及关系的表示向量。

具体地,所述步骤B具体是通过执行以下步骤实现的:

B1、假设每个节点有两个表示向量,例如对于对于节点v∈V,其表示向量为v,v’。那么训练集中的每条边e=(u,v),及边上的标签集合l={t1,t2,...}假设节点的表示与边上关系的表示满足平移性质,也就是u+l≈v′。

B2、由于关系表示是由边上的标签集合得到的,所以通过一个深层自动编码器来获得该向量表示。

首先,将标签集合映射成为一个二元向量其中对于属于该标签集合的标签对应的位置记为1,其余记为0,也就是>i1if>i∈l,and>i=0otherwise

之后,通过非线性变换,将得到的二元向量映射到低维的向量表示空间,如下所示:

h(1)=f(W(1)s+b(1))|,

h(i)=f(W(1)h(i-1)+b(i)),i=2,...,K

其中,W、b为线性变换的参数矩阵和偏移向量,f为非线性激活函数,K为深层自动编码器的层数。h(i)为第i层的表示向量。把中间的隐层表示,也就是l=h(K/2)作为该条边上关系的表示。

深层自动编码器需要有着重构输入的能力,因此,设计了如下重构损失函数:

其中,为重构的输出,

是一个权重向量,⊙为Hadamard乘法。

B3、设计模型的目标函数

对于每个三元组(u,v,l),通过随机替换其中的头结点u、尾节点v或者标签集合l,得到其负例集合:

对于一个负例设计如下平移部分的目标函数:

其中,d表示|u+l-v’|,γ>0是一个表示间距的超参数。

综合B2中深层自动编码器的损失,得到如下总体的损失函数:

其中,通过α和η控制不同部分的权重。

其中

为一个正则项,为了防止过拟合。

B4、训练模型

得到目标函数之后,采用的Adam优化算法进行优化,并且采用了 dropout来增加模型的鲁棒性。

进一步地,所述步骤C具体是通过执行以下步骤实现的:

C1、得到了网络中每个节点的表示向量,以及深层自动编码器之后,希望对测试集中的边进行关系抽取任务,来评价模型的效果。具体来说,通过l=v'-u得到边的近似的表示向量,然后通过深层自动编码器的解码器部分进行解码,得到重构出的标签向量,将重构向量与标准值进行对比来评价模型效果。

综上所述,本发明提供的新颖的面向社会关系抽取的网络表示方法,利用平移的思想将边上丰富的关系信息融入表示学习的过程中。这种面向社会关系抽取的网络表示的方法,能够有效的将边上丰富的标签信息融入到节点和边的表示向量中。与传统的网络表示学习方法相比,本发明提出的网络表示学习方法,能够通过直观的方法结合边上的标签信息,同时在社会关系抽取任务上取得了优异的效果,具有良好的一致性和实用性。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和 /或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

本发明的说明书中,说明了大量具体细节。然而能够理解的是,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本发明公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释呈反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。本发明并不局限于任何单一的方面,也不局限于任何单一的实施例,也不局限于这些方面和/或实施例的任意组合和/或置换。而且,可以单独使用本发明的每个方面和/或实施例或者与一个或更多其他方面和/或其实施例结合使用。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号