首页> 中国专利> 一种适于科学合作网络的异质网络链路预测方法

一种适于科学合作网络的异质网络链路预测方法

摘要

本发明公开了一种适于科学合作网络的异质网络链路预测方法,包括以下步骤:获取科学合作数据,构建异质科学合作网络;在所述的异质科学合作网络上进行邻居节点采样;对采样的邻居节点进行邻居信息聚合;在所述的异质科学合作网络上进行训练,学习得到异质网络表示;将连边两端节点的表示向量的对位乘积作为连边的表示向量,用相应连边训练二元分类器;采用所述的二元分类器预测是否存在未知链路;若存在的未知链路为作者与作者链路,则表示未来两个作者会合作撰写文章,若存在的未知链路为作者与论文链路,则表示未来一个作者会引用某篇文章。本发明方法在预测作者合作和作者引用文章上都具有较好的效果。

著录项

  • 公开/公告号CN113868482A

    专利类型发明专利

  • 公开/公告日2021-12-31

    原文格式PDF

  • 申请/专利权人 中国人民解放军国防科技大学;

    申请/专利号CN202111286870.6

  • 申请日2021-11-02

  • 分类号G06F16/901(20190101);G06F16/906(20190101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构43236 长沙大珂知识产权代理事务所(普通合伙);

  • 代理人伍志祥

  • 地址 410073 湖南省长沙市开福区德雅路109号

  • 入库时间 2023-06-19 13:29:16

说明书

技术领域

本发明属于社会网络科学技术领域,涉及一种适于科学合作网络的异质网络链路预测方法。

背景技术

在现实世界中,个体之间的联系是普遍存在的,这些复杂的联系都可以用不同形式的网络(社交网络、引文网络、蛋白质分子作用网络、电力网络等)进行描述。作为一种常见的数据载体,网络形式的数据存在于社会的各个方面,深度挖掘网络中的有意义信息,具有非常高的学术价值和潜在应用价值。各种网络的结构、形态虽然复杂多样,但是其基本组件都是节点与连边,因此对复杂网络的分析和研究,具有普适性意义。由于网络包含大量节点和连边,因此获取每个节点在网络上的所有状态信息的时间消耗极大。网络嵌入(Network Embedding)旨在找到一种映射函数,该函数将网络中的每个节点的结构和属性特征转换为低维度的潜在表示。图形神经网络作为一种强大的图形数据深度表示学习方法,在网络分析方面表现出了优异的性能,也引起了研究者的广泛关注。通过监督学习或非监督学习,算法挖掘网络的结构和属性信息,并将其转化为低维度的节点向量,进而应用到节点分类、节点聚类、链路预测等下游任务中去。

虽然已经有很多图神经网络的方法被提出,但是主要的研究仍然集中在同质网络中,即网络中的每个节点属于同样的类型。然而,更多的真实网络的表现形式是异质图结构。异质图网络包含了丰富的结构信息和属性信息,其节点和连边均有多种不同的类型。然而,目前的网络表示研究中,仍然有一个关键问题:如何将目标节点的邻居的信息聚合在一起?大多数的图神经网络将节点的邻居定义为其直接相连的节点,并通过多层嵌套将距离大于2的邻居信息迭代聚合。有些方法通过随机游走拓展节点的邻居空间,并将路径上的节点都视为其邻居节点。这些方法都忽视了异质网络中连边是异质的,异质连边的组合本身具有特定的含义。

科学合作网络科学家之间的交互合作是科学实践中长期存在的现象,研究过程的大多数阶段都存在着相当数量的沟通活动。科学的众多门类之间相互交叉渗透,现已发展成为一个结构复杂的大科学系统,科学家之间在相互交谈、写作、阅读论文和信件等过程中,不仅对研究结果和信息进行沟通,也常常一起合作产生或报告他们的研究结果。随着科学社会化程度的提高,科学研究中的合作也愈加频繁,其已逐步成为影响科学发展能力不可忽视的一股社会力量。科学合作网络显然在很大程度上是由科学家们组织的,同时大量的科技政策动议也促进了科学上的合作。当一篇科技文档由两个以上的作者完成时,本实施例说这些作者之间存在科学合作关系。在科学合作网络中,节点是作者,如果两个作者之间存在一篇以上的合著论文,则他们之间存在一个连接。科学合作网络是一类重要的社会网络,已经广泛地被用来判定科学合作的结构以及单个研究者的地位。研究科学合作网络未来可能存在的合作关系对于促进科学研发,形成团队优势,寻找优势平台等都具有非常重要的意义。对科学合作网络中是否可能存在未知链路进行预测,可以用于判断未来两个作者是否会合作撰写文章,以及未来一个作者是否会引用某篇文章,对于科学合作具有较强的指导意义。

发明内容

本发明中涉及的一种适于科学合作网络的异质网络链路预测方法,其技术方案如下。

一种适于科学合作网络的异质网络链路预测方法,包括以下步骤:

步骤1,获取科学合作数据,构建异质科学合作网络;

步骤2,在所述的异质科学合作网络上进行邻居节点采样;

步骤3,对采样的邻居节点进行邻居信息聚合;

步骤4,在所述的异质科学合作网络上进行训练,学习得到异质网络表示;

步骤5,将连边两端节点的表示向量的对位乘积作为连边的表示向量,用相应连边训练二元分类器;

步骤6,采用所述的二元分类器预测是否存在未知链路;若存在的未知链路为作者与作者链路,则表示未来两个作者会合作撰写文章,若存在的未知链路为作者与论文链路,则表示未来一个作者会引用某篇文章;

具体地,所述的异质科学合作网络表示为G=(V,E,A,R),中V表示节点集合,E表示连边集合,所述的节点与连边分别存在映射φ:V→A和

所述的邻居节点采样是基于元路径的,所述的元路径是定义在图G=(V,E,A,R)上的一条路径,表示为以下形式:

更进一步地,所述的邻居节点采样包括以下步骤,步骤201,对所述的异质科学合作网络的节点进行直接属性和间接属性聚合,步骤202,对所述的异质科学合作网络的节点进行直接邻居和间接邻居采样;

所述的直接属性是节点本身具有的属性,所述的间接属性则是从异质科学合作网络中的相互关系中获得的额外属性,是对直接属性的补充;论文节点的直接属性包括论文标题、论文摘要和预训练结构嵌入,论文节点的间接属性包括录取会议的结构嵌入、论文作者的结构嵌入、引用文献的结构嵌入及引用文献的标题向量;作者节点的直接属性包括作者节点的结构嵌入,作者节点的间接属性是作者撰写论文的标题和摘要的向量表示;会议节点的直接属性包括会议节点的结构嵌入,会议节点的间接属性包括会议录取论文的标题和摘要的向量表示;

所述的直接邻居是目标节点在异质科学合作网络中通过连边直接相连的邻居节点,间接邻居是目标节点在异质科学合作网络中通过元路径相连的邻居节点。

优选地,所述的直接属性和间接属性聚合采用BiLSTM(Bi-directional LongShort-Term Memory)聚合,然后再进行均值池化,获得具有表达能力的d

更进一步地,所述的邻居信息聚合包括,步骤301,对同类采样邻居进行同质信息聚合,步骤302,对不同类型邻居采用注意力机制进行异质信息聚合;

所述的同质信息聚合首先采用BiLSTM对采样邻居的信息向量进行聚合,然后经过均值池化,得到信息聚合向量;

所述的异质信息聚合中采用自注意力机制学习异质类型的聚合权重。

优选地,在所述的同质信息聚合的BiLSTM中,通过将前向LSTM输出序列

其中,

f

i

o

h

其中,f,i,o分别是遗忘门、输入门、输出门,W,b为可学习参数,d=2d

所述的注意力机制的信息聚合中,给定类型目标节点k∈A和聚合向量y

其中,

z

注意力机制模型独立重复n次,并将学习到的嵌入的均值作为最终的聚合向量:

其中,

优选地,步骤4中的训练过程中采用图上下文损失,并定义以下优化目标:

其中,RW

具体地,所述的元路径采用长度不超过3的可解释元路径,元路径的类型具体包括:A-P-A表示共同作者,A-P表示作者写论文,A-P-P表示作者在写作中引用了这篇论文,A-P-V表示作者的论文被会议接收,A-P-P-V表示引用的论文被会议接收,P-A表示论文是作者写的,P-P表示论文引用论文,P-A-P表示论文由同一作者撰写,P-V-P表示论文被同一会议接收,P-V表示论文被会议接收,P-P-V表示引用的论文被会议接收,V-P-A表示会议接收作者写的论文,V-P表示会议接收论文,V-P-P表示会议相关的引用论文,V-P-P-V表示会议相关的引用会议。

优选地,进行邻居节点采样时,对每个节点采样相同数量的邻居,将采样邻居集合带入后续的邻居信息聚合中。

优选地,进行邻居节点采样时,控制各类元路径采样的邻居数量之间的平衡关系。

与现有技术相比,本发明方法的优势在于:1)为了更好的聚合信息,研究了异质网络中的信息获取和不同来源的特征信息的聚合,基于元路径,实现直接邻居和间接邻居节点的采样;2)为了更好挖掘同类邻居内部的联系,采用BiLSTM将同类型采样节点聚合在一起,为了对每种类型的节点有更好的聚合,采用注意力机制实现异质类型的聚合,由此使得链路预测更加准确。

附图说明

图1本发明实施例的流程示意图;

图2为本发明实施例的异质网络示意图;

图3为本发明实施例的元路径示意图;

图4为本发明实施例的异质科学合作网络学习表示的流程示意图;

图5为本发明实施例论文节点不同来源特征的聚合示意图;

图6为本发明实施例中邻居采样流程示意图;

图7为本发明实施例中采样邻居的信息聚合流程示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

如图1所示,一种适于科学合作网络的异质网络链路预测方法,包括以下步骤:

步骤1,获取科学合作数据,构建异质科学合作网络;

步骤2,在所述的异质科学合作网络上进行邻居节点采样;

步骤3,对采样的邻居节点进行邻居信息聚合;

步骤4,在所述的异质科学合作网络上进行训练,学习得到异质网络表示;

步骤5,将连边两端节点的表示向量的对位乘积作为连边的表示向量,用相应连边训练二元分类器;

步骤6,采用所述的二元分类器预测是否存在未知链路;若存在的未知链路为作者与作者链路,则表示未来两个作者会合作撰写文章,若存在的未知链路为作者与论文链路,则表示未来一个作者会引用某篇文章。

异质网络是一种特殊的网络形式,它包含多种类型的节点或多种类型的连边。异质网络可以表示为G=(V,E,A,R),其中V表示节点集合,E表示连边集合,异质网络的节点与连边分别存在映射φ:V→A和

如图2,科学合作网络为例解释异质网络。该网络中的节点V可以是作者、论文或者会议,连边E可以是作者-写-论文,论文-引用-论文或者论文-发表-会议。对于论文节点,其属性包括摘要、标题等,对于作者节点,其属性包括发表过的文章、合作研究者等,对于会议节点,其属性包括录用的文章等。在该例子中,|A|=3,|R|=3,故该网络是一个异质网络。

元路径是定义在图G=(V,E,A,R)上的一条路径,并表示为以下形式:

如图3所示,在学术合作网络为例,不同的作者可以通过A-P-A(Author-Paper-Author)元路径连接,该元路径表示论文合作,作者和会议可以通过A-P-V(Author-Paper-Venue)元路径连接,该元路径表示作者参加学术会议。

给定一个异质网络G=(V,E,A,R),异质网络表示(图嵌入)的核心是提取网络的特征。它为网络中每一个节点学习一个统一的d维度的表示向量

如图4,本实施例的异质网络的表示学习包括三个阶段,1.基于元路径的邻居采样;2.采样邻居的信息聚合;3.目标优化与模型训练。

1.基于元路径的邻居采样

大多数图神经网络的核心是对邻居信息的聚合,在大规模网络中通常也是对邻居的采样进行聚合,比如GraphSage。然而,直接采用对邻居或采样邻居进行聚合,存在几个问题:

简单的邻居聚合不能直接捕捉所有类型的节点信息。以科学合作网络为例,所有的作者节点之间均没有直接联系,但是共同完成同一篇论文的作者之间有密切的联系和合作,这是直接连边不能反映出来的语义信息。

不同类型的邻居节点有不同的内容属性特征。需要将不同的特征结构转换成统一的表示空间。

在异质网络中,对同一类型的节点而言,其特征信息通常来自不同的获取途径(比如论文摘要信息、论文标题信息),通常不同来源的特征信息会被拼接在一起,但是之间的关联很少被研究和讨论。

为解决上述问题,本实施例研究了异质网络中的信息获取和不同来源的特征信息的聚合;然后基于元路径,实现邻居节点的采样。

1)节点特征聚合

异质网络中节点的属性信息包括直接属性和间接属性,直接属性是数据本身具有的属性,而间接属性则是从异质网络中的相互关系中整理归纳获得的额外属性,是对直接属性的补充。本实施例介绍不同类型节点的直接和间接属性来源,并对学术合作网络中不同类型节点的属性进行聚合。该网络中共有三种类型的节点:论文、作者和会议。

论文节点是该网络中的最重要类型的节点,也是该网络中属性数据的核心来源,其直接属性包括论文标题、论文摘要、预训练结构嵌入等。需要注意的是,为了从网络中挖掘更多的结构信息,本实施例采用DeepWalk,将网络视为同质网络,获得网络中每个节点的预训练结构嵌入,并将其作为节点属性的一部分。论文节点的间接属性包括录取会议的结构嵌入、其作者的结构嵌入、引用文献的结构嵌入及引用文献的标题向量。为了提高运算效率和形成统一的向量空间,所有间接属性通过采样平均计算获得。

作者节点在网络中与论文节点直接相连,其直接属性是其结构嵌入,间接属性是其撰写论文的标题和摘要的向量表示。会议节点在网络中也与论文节点直接相连,其直接属性是其结构嵌入,间接属性也是其录取论文的标题和摘要的向量表示。为方便计算,间接属性也是通过采样平均计算获得。

现有技术大都将不同来源的属性信息直接拼接在一起,为了获取不同来源的特征属性之间的关联,并形成统一维度的向量表示,本实施例采用BiLSTM捕捉不同来源属性之间的关联,形成更具有表达能力的d

与节点属性的分类相似,异质网络中节点的邻居也可以分为两类:直接邻居和间接邻居。直接邻居是节点在网络中通过连边直接相连的节点,以图5为例,节点A1的直接邻居是P1和P2。间接邻居是异质网络中通过元路径与目标节点相连的邻居,节点A1通过元路径A-P-V与V1节点相连,通过元路径A-P-A与A2节点相连等。

如图6所示,每个节点的直接邻居和间接邻居(元路径邻居)共同构成了节点的邻居集合,在大型网络中,为了计算和存储的效率,本实施例对每个节点采样相同数量的邻居,并将采样邻居集合带入后续的邻居聚合中。

根据现有技术,长度超过3的元路径起到的影响微乎其微,因此,针对科学合作网络,本实施例筛选出三类节点的所有长度不超过3的可解释元路径,正如表1所示。

表1科学合作网络上的元路径示例

合适的元路径选取能更好的捕捉网络中的结构和语义信息,并不是选取的元路径越多,模型的结果就越好,错误的元路径选取对结果的提升帮助很小,甚至会导致负提升。针对基于元路径的异质图神经网络模型,更多的精力应该被放在元路径的筛选上。

2.采样邻居的信息聚合

邻居聚合面临以下两个问题:如何同类型邻居聚合在一起?如何将不同类型邻居聚合在一起?

为解决上述问题,本实施例首先对采样邻居按照类型聚合,然后再将不同类型的信息再次聚合。为了更好挖掘同类邻居内部的联系,采用BiLSTM将同类型采样节点聚合在一起。为了对每种类型的节点有更好的聚合,采用注意力机制实现异质类型的聚合。

1)同质采样邻居信息聚合

如图7所示,描述了同质采样邻居信息聚合的基本流程,隐藏层序列经过均值池化,得到特定类型的信息聚合向量。

BiLSTM通过将前向LSTM输出序列

其中

f

i

o

h

其中,f,i,o分别是遗忘门、输入门、输出门,W,b为可学习参数。为了获得d维度的输出向量y

2)异质类型聚合

本实施例采用自注意力机制学习异质类型的聚合权重。给定类型目标节点k∈A和聚合向量y

其中

z

由于异质图具有无标度特性,因此图数据的方差很大。为了解决上述问题,将异质类型聚合注意力扩展到了多头注意力,使训练过程更加稳定。具体来说,本实施例将注意力模型独立重复n次,并将学习到的嵌入的均值作为最终的聚合向量:

3.目标优化和模型训练

为了实现异质网络表示学习,本实施例采用图上下文损失(graph contextloss),并定义以下优化目标:

其中,RW

本实施例从AMiner数据抽取2006到2015年之间的数据进行实验,该异质网络数据见表2,针对任务的不同,分别以2012和2013年为界限划分训练集和测试集。

表2数据集详细属性

节点采样中,从每个节点的邻居中采样10个A、10个P和3个V作为采样邻居。节点特征聚合中,所有输入数据的维度为128,图嵌入的维度为128,学习率为0.001,批大小为200,训练代数为60,优化器为Adam,随机数种子为10,图上下文loss的采样数目为20000,每节点采样路径条数为10,路径长度为30,距离约束为5,多头注意力的头数为4。

本实施例选取以下网络表示和图神经网络算法作为对比算法:

Metapath2Vec:该模型利用基于元路径的随机游走构建节点异质邻居集合,并用异质skip-gram模型生成相应的节点表示。

GraphSAGE:该方法是一个经典的图形神经网络模型,它通过将邻居节点的信息以特定形式(Mean,pooling或lstm)聚合在一起,获得节点的特征表示。

GAT:该方法通过注意力机制学习不同的邻居节点的权重,从而更加有效聚合邻居信息。

HetGNN:该方法通过带重启的随机游走获得异质图中节点的邻居,并针对邻居的类型进行多次聚合,获得节点的异质图表示向量。

ASNE:该方法它同时使用节点的属性特征和潜在特征和来学习节点嵌入。

SHNE:该方法通过联合优化图结构的相似性和文本语义的关联度,学习文本相关的异质图节点嵌入。

与传统链路预测对数据的随机划分不同,该任务按照时间(两个任务,分别按2012/2013作为训练集和测试集的划分标准),采用时间靠前的数据训练模型,将连边两端点的表示向量的对位乘积作为连边的表示向量,并用相应连边(训练集20%的连边)训练二元分类器。

本实施例对两类任务进行测试:1)作者合作:分析在未来两个作者是否可能合作撰写文章;2)论文引用:分析在未来一个作者是否会引用另一篇文章。结果见表3,其中本发明方法的结果列出了十次实验的均值和标准差。

表3A-P和A-A链路预测结果。数据集按照年份划分为训练集和测试集。

通过结果分析可知,本发明方法在A-A链路预测上获得了5.7-8.3%的提升,在A-P任务上也有1.3-2.5%改进。在所有四个链路预测任务中,本发明方法都表现最好。

由发明内容和实施例可知,本发明方法为了更好的聚合信息,研究了异质网络中的信息获取和不同来源的特征信息的聚合,基于元路径,实现直接邻居和间接邻居节点的采样;为了更好挖掘同类邻居内部的联系,采用BiLSTM将同类型采样节点聚合在一起,为了对每种类型的节点有更好的聚合,采用注意力机制实现异质类型的聚合;本发明方法在异质网络进行链路预测效果上比对比方法均有提升。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号