法律状态公告日
法律状态信息
法律状态
2022-07-26
公开
发明专利申请公布
技术领域
本申请涉及数据处理技术领域,特别是涉及一种基于多阶邻居信息传递融合聚类网络的图聚类方法和装置。
背景技术
随着深度学习技术的不断发展,深度聚类通过神经网络能充分利用未标记的数据将数据分成多个不相交的组。由于无需耗时耗力的数据标记工作,深度聚类方法在人脸识别、社交网络分析和异常检测等各种应用中得到了广泛关注并取得了巨大成功,而优化目标和特征提取方式这两个因素在提升深度聚类方法的性能上起了重要作用。具体来说,在无监督聚类场景中,在没有标签指导的情况下,设计一个精妙的目标函数和网络架构,使网络能够收集更全面和更有辨别力的信息来揭示数据内在结构是极其关键和具有挑战性的。
近年来,图结构数据在深度学习中展现了强大的优势,然而由于非欧式的拓扑图结构和复杂的节点属性,现有的大多数深度聚类方法不能直接分析此类图结构数据。因此,图卷积神经网络(Graph Convolutional Networks,GCNs)被提出并得到了大量关注与发展。GCNs旨在聚合来自邻居节点的信息以进行节点表示学习,并在面向节点的聚类任务中显示出强大的功能。例如:深度注意力嵌入式图聚类(DAEGC),它将节点属性和拓扑结构编码为紧凑的嵌入,并通过自优化嵌入方法重构相邻矩阵;遵循DAEGC的原理,对抗性正则化图自动编码器(ARGA),在对抗性学习机制的指导下学习节点表示;多视图图表示学习(MVGRL)使用基于GCNs的编码器进行跨视图对比学习,以进一步提高节点表示的质量,从而增强聚类性能。
现有的基于GCNs的方法仍然存在一些局限性。首先,大多数方法很少考虑原始图结构的准确性,在GCNs聚合邻域消息的过程中,这些不可靠的连接可能会误导节点表示学习,并进一步影响聚类性能;其次,现有方法缺乏跨模态的动态信息融合和处理机制,它们将来自节点信息和结构信息的两种学习表示直接连接或对齐,导致信息交互和合并的不足;第三,现有方法的目标分布生成过程没有充分利用来自两个不同来源的信息,导致网络训练不够全面和精确,两个信息源之间的交互受阻,使得聚类性能不理想。
发明内容
基于此,有必要针对上述技术问题,提供一种基于多阶邻居信息传递融合聚类网络的图聚类方法和装置。
一种基于多阶邻居信息传递融合聚类网络的图聚类方法,所述方法包括:
对原始图数据样本进行随机游走,得到优化邻接矩阵;
构建深度融合聚类网络;所述深度融合聚类网络包括第一图编码器和第二图编码器,通过所述第一图编码器,获取所述原始图数据样本的节点特征编码信息;通过所述第二图编码器,获取所述原始图数据样本的全局拓扑结构信息,将所述优化邻接矩阵作为权重,对所述全局拓扑结构信息进行加权,得到所述原始图数据样本的结构编码信息;
对所述节点特征编码信息和所述结构编码信息进行融合,得到融合编码信息;
对所述融合编码信息进行软分配矩阵和目标分布矩阵构建,得到软分配矩阵;所述软分配矩阵用于表示所述原始图数据样本的样本分布;再通过软分配矩阵生成目标分布矩阵;
根据预先设置的损失函数,对所述深度融合聚类网络进行训练,利用训练好的深度融合聚类网络输出图数据对应的节点表示进行K-means聚类。
在其中一个实施例中,还包括:针对原始图数据样本中的每个节点,以节点为起点进行k步随机游走,并且重复m次,得到随机游走矩阵;所述随机游走矩阵中的元素是根据游走时是否经过预设节点的信息确定的;
根据所述随机游走矩阵,计算平均游走矩阵;所述平均游走矩阵表示随机游走时到达预设节点的平均次数;
根据所述平均游走矩阵,得到优化邻接矩阵。
在其中一个实施例中,还包括:将所述原始图数据样本中节点特征进行不同映射,得到询问矩阵Q和键矩阵K为:
其中,l表示网络层数,
根据所述询问矩阵Q和所述键矩阵K,得到全局结构拓扑信息为:
其中,d
在其中一个实施例中,还包括:将所述优化邻接矩阵作为权重,对所述全局拓扑结构信息进行加权为:
其中,⊙表示哈达玛积,
根据所述键矩阵K,得到值矩阵V为:
其中,
对所述加权全局拓扑结构信息和所述值矩阵V引入自注意力机制,得到结构编码信息为:
其中,Z
在其中一个实施例中,还包括:对所述节点特征编码信息和所述结构编码信息进行融合,得到融合编码信息为:
Z
其中,α为可学习的参数,用于平衡两个表示的重要程度,
在其中一个实施例中,还包括:对所述融合编码信息进行软分配矩阵计算,得:
其中,q
对所述融合编码信息进行目标分布生成,得到目标分配矩阵为:
具体来说,0≤p
在其中一个实施例中,所述损失函数包括:第一重构损失、第二重构损失以及聚类损失;
所述第一重构损失为:
其中,
所述第二重构损失为:
其中,γ为预定义超参数,
所述聚类损失为:
其中,
一种基于多阶邻居信息传递融合聚类网络的图聚类装置,所述装置包括:
预处理模块,用于对原始图数据样本进行随机游走,得到优化邻接矩阵;
网络构建模块,用于构建深度融合聚类网络;所述深度融合聚类网络包括第一图编码器和第二图编码器,通过所述第一图编码器,获取所述原始图数据样本的节点特征编码信息;通过所述第二图编码器,获取所述原始图数据样本的全局拓扑结构信息,将所述优化邻接矩阵作为权重,对所述全局拓扑结构信息进行加权,得到所述原始图数据样本的结构编码信息;
融合模块,用于对所述节点特征编码信息和所述结构编码信息进行融合,得到融合编码信息;
分布矩阵构建模块,用于对所述融合编码信息进行软分配矩阵和目标分布矩阵构建,得到软分配矩阵;所述软分配矩阵用于表示所述原始图数据样本的样本分布;再通过软分配矩阵生成目标分布矩阵;
聚类模块,用于根据预先设置的损失函数,对所述深度融合聚类网络进行训练,利用训练好的深度融合聚类网络输出图数据对应的节点表示进行K-means聚类。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
对原始图数据样本进行随机游走,得到优化邻接矩阵;
构建深度融合聚类网络;所述深度融合聚类网络包括第一图编码器和第二图编码器,通过所述第一图编码器,获取所述原始图数据样本的节点特征编码信息;通过所述第二图编码器,获取所述原始图数据样本的全局拓扑结构信息,将所述优化邻接矩阵作为权重,对所述全局拓扑结构信息进行加权,得到所述原始图数据样本的结构编码信息;
对所述节点特征编码信息和所述结构编码信息进行融合,得到融合编码信息;
对所述融合编码信息进行软分配矩阵和目标分布矩阵构建,得到软分配矩阵;所述软分配矩阵用于表示所述原始图数据样本的样本分布;再通过软分配矩阵生成目标分布矩阵;
根据预先设置的损失函数,对所述深度融合聚类网络进行训练,利用训练好的深度融合聚类网络输出图数据对应的节点表示进行K-means聚类。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
对原始图数据样本进行随机游走,得到优化邻接矩阵;
构建深度融合聚类网络;所述深度融合聚类网络包括第一图编码器和第二图编码器,通过所述第一图编码器,获取所述原始图数据样本的节点特征编码信息;通过所述第二图编码器,获取所述原始图数据样本的全局拓扑结构信息,将所述优化邻接矩阵作为权重,对所述全局拓扑结构信息进行加权,得到所述原始图数据样本的结构编码信息;
对所述节点特征编码信息和所述结构编码信息进行融合,得到融合编码信息;
对所述融合编码信息进行软分配矩阵和目标分布矩阵构建,得到软分配矩阵;所述软分配矩阵用于表示所述原始图数据样本的样本分布;再通过软分配矩阵生成目标分布矩阵;
根据预先设置的损失函数,对所述深度融合聚类网络进行训练,利用训练好的深度融合聚类网络输出图数据对应的节点表示进行K-means聚类。
上述基于多阶邻居信息传递融合聚类网络的图聚类方法、装置、计算机设备和存储介质,一方面,通过随机游走进行预处理,可以过滤原始邻接中的错误关系或降低这些错误关系的权重,同时增加一些可信赖的关系,从而可以提高聚类的准确性,另一方面,通过节点特征相似度建立了全局拓扑关系,并用新建的邻接矩阵作为拓扑权重,使得节点间的拓扑关系同时融入了节点特征信息和结构信息。加入自注意力机制的GCNs能够在单层网络中进行更远距离的节点之间的信息传递,学习到更高质量的节点表示,最终通过信息融合的方式,也进一步提高的聚类的准确性。
附图说明
图1为一个实施例中基于多阶邻居信息传递融合聚类网络的图聚类方法的流程示意图;
图2为一个实施例中基于多阶邻居信息传递融合聚类网络的图聚类装置的结构框图;
图3为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基于多阶邻居信息传递融合聚类网络的图聚类方法,包括以下步骤:
步骤102,对原始图数据样本进行随机游走,得到优化邻接矩阵。
随机游走指的是从节点i随机游走k步,多次游走,通过统计经过每个节点的平均次数,反映出节点i的局部邻居节点的关系,通过计算每个节点局部邻居信息的相似性得到新的邻接关系,从而过滤掉原始邻接矩阵中的错误关系。
步骤104,构建深度融合聚类网络。
深度融合聚类网络包括第一图编码器和第二图编码器,具体而言,第一图编码器为自编码器AE,第二图编码器为基于transformer的图自编码器TGAE。
具体的,自注意力变换网络(Transformer)是由自注意力机制(Self-attention)和前馈神经网络组成。它先将数据特征分别映射到Q(Query),K(Key),V(Value)三个矩阵,然后通过将Q,K进行矩阵乘来获得全局的拓扑结构,如下述公式所示,其中d
通过这个公式,即可通过自注意力机制获得隐空间数据表示。
通过第一图编码器,获取原始图数据样本的节点特征编码信息;通过第二图编码器,获取原始图数据样本的全局拓扑结构信息,将优化邻接矩阵作为权重,对全局拓扑结构信息进行加权,得到原始图数据样本的结构编码信息。
步骤106,对节点特征编码信息和结构编码信息进行融合,得到融合编码信息。
步骤108,对所述融合编码信息进行软分配矩阵和目标分布矩阵构建,得到软分配矩阵;
所述软分配矩阵用于表示所述原始图数据样本的样本分布;再通过软分配矩阵生成目标分布矩阵。
步骤110,根据预先设置的损失函数,对深度融合聚类网络进行训练,利用训练好的深度融合聚类网络输出图数据对应的节点表示矩阵进行K-means聚类。
上述基于多阶邻居信息传递融合聚类网络的图聚类方法中,一方面,通过随机游走进行预处理,可以过滤原始邻接中的错误关系或降低这些错误关系的权重,同时增加一些可信赖的关系,另一方面,通过节点特征相似度建立了全局拓扑关系,并用新建的邻接矩阵作为拓扑权重,使得节点间的拓扑关系同时融入了节点特征信息和结构信息。加入自注意力机制的GCNs能够在单层网络中进行更远距离的节点之间的信息传递,学习到更高质量的节点表示,最终通过信息融合的方式,也进一步提高的聚类的准确性。
在其中一个实施例中,针对原始图数据样本中的每个节点,以节点为起点进行k步随机游走,并且重复m次,得到随机游走矩阵;随机游走矩阵中的元素是根据游走时是否经过预设节点的信息确定的;根据随机游走矩阵,计算平均游走矩阵;平均游走矩阵表示随机游走时到达预设节点的平均次数;根据平均游走矩阵,得到优化邻接矩阵。
具体的,给定无向图
在其中一个实施例中,将原始图数据样本中节点特征进行不同映射,得到询问矩阵Q和键矩阵K为:
其中,l表示网络层数,
根据询问矩阵Q和键矩阵K,得到全局结构拓扑信息为:
其中,d
在另一个实施例中,将优化邻接矩阵作为权重,对全局拓扑结构信息进行加权为:
其中,⊙表示哈达玛积,
根据键矩阵K,得到值矩阵V为:
其中,
对加权全局拓扑结构信息和所述值矩阵V引入自注意力机制,得到结构编码信息为:
其中,Z
在其中一个实施例中,对节点特征编码信息和结构编码信息进行融合,得到融合编码信息为:
Z
其中,α为可学习的参数,用于平衡两个表示的重要程度,
具体的,可以通过结构和特征信息融合模块(Structure and AttributeInformation Fusion,SAIF)实现融合。
在其中一个实施例中,对融合编码信息进行软分配矩阵计算:
其中,q
具体的,第一步,使用学生t分布计算融合嵌入空间中第i个样本
具体来说,0≤p
跟
在这个公式中,Z
在其中一个实施例中,损失函数包括三部分,AE的重构损失、TGAE的重构损失和KL损失,λ是预定义的超参数:
L=L
L
L
其中,γ是预定义的超参数。
L
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图2所示,提供了一种基于多阶邻居信息传递融合聚类网络的图聚类装置,包括:预处理模块202、网络构建模块204、融合模块206、分布矩阵构建模块208和聚类模块210,其中:
预处理模块,用于对原始图数据样本进行随机游走,得到优化邻接矩阵;
网络构建模块,用于构建深度融合聚类网络;所述深度融合聚类网络包括第一图编码器和第二图编码器,通过所述第一图编码器,获取所述原始图数据样本的节点特征编码信息;通过所述第二图编码器,获取所述原始图数据样本的全局拓扑结构信息,将所述优化邻接矩阵作为权重,对所述全局拓扑结构信息进行加权,得到所述原始图数据样本的结构编码信息;
融合模块,用于对所述节点特征编码信息和所述结构编码信息进行融合,得到融合编码信息;
分布矩阵构建模块,用于对所述融合编码信息进行软分配矩阵和目标分布矩阵构建,得到软分配矩阵;所述软分配矩阵用于表示所述原始图数据样本的样本分布;再通过软分配矩阵生成目标分布矩阵;
聚类模块,用于根据预先设置的损失函数,对所述深度融合聚类网络进行训练,利用训练好的深度融合聚类网络输出图数据对应的节点表示进行K-means聚类。
关于基于多阶邻居信息传递融合聚类网络的图聚类装置的具体限定可以参见上文中对于基于多阶邻居信息传递融合聚类网络的图聚类方法的限定,在此不再赘述。上述基于多阶邻居信息传递融合聚类网络的图聚类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于多阶邻居信息传递融合聚类网络的图聚类方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
机译: 基于预测社会图的信息聚类方法和装置
机译: 基于预测性社会图的信息聚类方法和装置
机译: 基于预测性社会图的信息聚类方法和装置