每周文章分享-137
2023-12-9 06:19:36 Author: 网络与安全实验室(查看原文) 阅读量:2 收藏

2023.12.04-2023.12.10

每周文章分享

标题: Higher-Order Attribute-Enhancing Heterogeneous Graph Neural Networks

期刊: IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, VOL. 35, NO. 1, JANUARY 2023

作者: Jianxin Li, Hao Peng, Yuwei Cao, Yingtong Dou, Hekai Zhang, Philip S. Yu, and Lifang He

分享人: 河海大学——朱松柏

研究背景

图(graph)是一种比图像(image)更贴合现实世界的数据结构,与图像相比,图可以对非欧式空间的数据进行建模,图中的研究对象不需要像图像中的像素那样整齐排列。异构图作为图的一种,它允许图中节点的类型和节点之间的联系可以是多种多样的。比如社交网络,可以同时包含人、动物或者某个物品,他们之间的联系可以是人与人交流、人养动物、人买卖某个物品等等多种联系。异构图非常适合用于对这类场景进行建模,然后使用GNN(graph neural network)对图进行处理,以便对图中的节点进行分类,或者是对节点之间的关系进行预测。由于异构图包含多种类型的节点和节点之间的关系,GNN如何处理不同类型的节点和节点之间的关系是一个值得思考的问题。

关键技术

在本文中,提出了一种用于异构网络表示学习的HAEGNN框架。它结合了用于语义的元路径和元图。元路径用于表示两个节点之间的复合关系,通过一条路径连接起始节点和终止节点;元图也是用于表示两个节点之间的复合关系,但元图的起始节点和终止节点之间可以有多条路径。不同的元路径或者元图代表了不同的语义,HAEGNN首先将节点对之间的语义相似性作为邻接矩阵,对图使用图卷积进行学习,获得了包含更丰富语义的节点表示;然后在此基础上再进行图卷积以获得用于后续任务的节点表示。

该方法的创新和贡献如下:

1)提出了一种用于异构网络表示学习的HAEGNN框架,结合了用于语义的元路径和元图。

2)使用自注意机制可以较好地捕获节点之间基于内容的远程相互依赖关系。

算法介绍

图1中给出了HAEGNN的总体框架,包含三个组成部分,基于语义的卷积层(SCL),基于内容的自关注层(CAL)和高阶属性增强框架(HAE)。HAEGNN模型包含一个SCL和多个CAL。

图1 高阶属性增强图神经网络(HAEGNN)的体系结构。HAEGNN包含三个组成部分,(a)基于语义的卷积层(SCL),(b)基于内容的自关注层(CAL)和(c)高阶属性增强框架(HAE)。

(1)基于语义的卷积层(SCL)

SCL的作用是根据多个元路径和元图中的丰富语义来增强输入节点的特征,如图1(a)所示。首先对于每一对目标节点,SCL测量这两个节点之间多语义结构的相似性。例如图2(a)的一条元路径P1 = APCPA,直接对它们的邻接矩阵按照顺序进行相乘,CP1 = WAP WPC WCP WPA,WAP表示节点类型为A和节点类型为P之间的邻接矩阵。CP1(i,j)表示了节点i和j之间的通过元路径P1连接的次数,连接次数越大表明这两个节点之间的联系越紧密。而对于元图P3 = APA(C)PA,CP3 = WAP((WPAWAP)⊙(WPCWCP)) WPA,⊙表示哈达玛乘积。

得到多个元路径和元图语义下的节点间相似度后,为了融合多个相似度,对每个相似度先进行归一化,然后使用可学习的权重对多个相似度进行加权求和,如下:

SemSim(vti,vtj)表示节点vti和vtj在多个元路径和元图语义下总的相似度,现在将这个相似度作为邻接矩阵,对图进行图卷积——图中的节点进行多次的邻居节点信息聚合,经过图卷积后,图中的节点包含多个元路径和元图的信息,节点特征具有更丰富的语义。

图2 DBLP、IMDB和HUAWEI数据集的元模式、元路径和元图。在(a)中,A、P、C和T分别代表作者、论文、会议和术语。在(b)中,A、M、D和R分别代表演员、电影、导演和评分。(c)中的U、A和T分别代表用户、应用程序和应用程序类型。

(2)基于内容的自注意力层(CAL)

在使用SCL获得具有更丰富语义的节点特征后,在此节点特征的基础上使用带有自注意力机制的图卷积来学习用于下游任务的节点表示,如图2(b)。

CAL中的邻接矩阵表示为A',与SCL中使用节点间的相似度作为邻接矩阵不同,A'是一个二值矩阵,表示两个节点之间是否存在给定的元路径或元图将它们连接起来。

使用自注意力机制进行图卷积时,首先是计算两个节点之间的重要性,αij表示节点j对节点i的重要性。

然后根据节点间的重要性对邻居节点进行聚合。

为了稳定学习过程,使用多头注意力,并将它们的结果进行拼接。

(3)高阶属性增强框架(HAE)

如图1(c)所示,HAE框架将一个SCL和多个CAL堆叠在一起。它构建了一个高阶属性增强体系结构,通过SCL和CAL以一层一层的方式增强输入节点特征。进行第一层CAL时,节点a1可以捕获节点a2、a3的信息,节点a2可以捕获节点a1、a4的信息;当进行第二层CAL时,由于a2已经捕获了a4的信息,节点a1再捕获节点a2的信息时,也相当于捕获到a4的信息。因此当叠加n层CAL后,一个节点可以捕获到它n跳范围内节点的信息。

图3 一个4层的HAEGNN,节点间的特征捕获过程

实验分析

1. 实验设置

在IMDB、DBLP、HUAWEI三个数据集上进行实验,图2中列出了所有数据集实验中使用的元路径和元图。并与4个无监督方法和9个半监督方法进行比较,无监督的方法,DeepWalk (Deepw.)、Metapath2vec (Metap.)、DANE和HONE。半监督方法:SDNE、GCN、GAT、HAN、GTN、RSHN、HetGNN (HetG.)、HGT和magnn (MAG.)。

2.节点分类

采用逻辑回归分类器对HAEGNN获得的节点表示进行分类,使用20%~80%的目标节点进行训练。在表1中报告了MacroF1 (Ma-F1)和Micro-F1 (Mi-F1)的总体得分。结果表明,基于GNN的模型优于基于随机的方法,包含异构语义的GNN模型表现优于同构GNN模型。节点分类结果验证了本文设计的有效性,因为与基线相比,本文的模型包含了更丰富的语义,并捕获了更全面的节点之间基于内容的交互,在所有三个数据集上都优于最先进的基线。

表1 节点分类的结果比较

3.节点聚类和可视化

利用K-means进行聚类,并将聚类的数量设置为真实类别的数量。表2展示了平均归一化互信息(NMI)、调整兰德指数(ARI)、Fowlkes-Mallows指数(FMI)和标准差。HAE4lGNN在数据集上的表现始终优于所有基线,这表明HAE4lGNN更好地捕捉了节点之间的相关性。图4(a)~(h)为基线模型的可视化结果,(l)为HAE4lGNN的可视化结果,(l)中簇的数量与真实类别的数量一致,簇内是紧凑的,簇之间的分离是明确的,这定性地验证了与基线相比,HAE4lGNN更好地捕获了节点之间的关系。

表2 节点聚类的结果比较

图4 DBLP中作者嵌入的可视化。每个点对应一个作者,点的颜色表示作者的研究领域。

4.HAEGNN的两个变体

HAE2lSCL仅使用两层SCL,HAE4lCAL仅使用4层CAL。从节点分类和节点聚类两方面比较了HAE和它的两个变体,实验结果表明,基于语义和基于内容的节点交互以及高阶注意力架构都直接有助于提高性能。

表3 HAE变体的节点分类结果

表4 HAE变体的节点聚类结果

5.元路径和元图的影响

一是使用了元图和元路径,二是为每个元路径或元图分配权重。为了评估前者,在不使用元图进行比较的情况下进行了节点分类实验。为了评估后者,提出并解释了本研究中使用的元路径和元图的学习权重。

仅使用元路径重建HAE模型,如表5所示,与表1中基线给出的最高结果进行直接比较,可以看出,结合元图可以帮助提高节点分类性能,

表5 使用和不使用元图的节点分类结果比较

图5展示了HAE4lCAL中不同语义结构的权重,三个数据集中,元图比元路径具有更高的权重,表明模型更多地依赖于元图而不是元路径

图5 HAE4lCAL中不同语义结构的权重

6.模型层数的影响

对于HAEGNN和HAECAL设置它们的层数为2到5层,观察它们的节点分类效果,可以看出,随着层数增加,节点可以捕获到更大范围内的邻居,分类性能上升,达到顶峰后,随着层数继续增加,由于多层的图卷积堆叠,出现过平滑,使最终的节点表示过于相似,无法区分,导致性能下降。

图6 2到5阶的HAEGNN和HAECAL的节点分类效果

7.内存消耗

图7显示了HAEGNN模型和基于GNN的基线模型在DBLP数据集上运行100轮次时的内存使用变化。随着阶数的增加,HAEGNN模型需要更多的内存,然而,内存消耗的增量并不显著。HAEGNN中的高阶体系结构有助于提高其性能。与最先进的基线相比,HAEGNN能够以更少的内存和/或时间消耗实现卓越的性能。 

图7 随时间变化,不同模型占用的内存百分比

总结

本文提出了一种新的HAEGNN模型用于异构网络表示学习。HAEGNN同时利用元路径和元图来实现丰富的语义。利用在元路径和元图下的节点相似性进行图卷积以丰富节点特征,并利用自注意力机制学习用于下游任务的节点表示。

END

==河海大学网络与安全实验室==

微信搜索:Hohai_Network

联系QQ:1084561742

责任编辑:何宇


文章来源: http://mp.weixin.qq.com/s?__biz=MzI1MTQwMjYwNA==&mid=2247499308&idx=1&sn=4b60fa0f501b9832a4ae1988ad895ee5&chksm=e9f13e2fde86b73984dffc6523798bba615331967d26da31c7a1d298c2f94df1ae33b2327d47&scene=0&xtrack=1#rd
如有侵权请联系:admin#unsafe.sh