重新思考链接预测:一种多尺度图掩码自编码器

《Neurocomputing》:Rethinking link prediction: A multi-scale graph masked autoencoder

【字体: 时间:2025年11月16日 来源:Neurocomputing 6.5

编辑推荐:

  针对图自监督学习中对比学习和生成学习方法无法同时捕捉局部邻域与全局结构信息的局限性,本文提出多尺度图掩码自编码器MS-GMAE。通过跨相关性解码器整合局部信息,潜在全局表示预测策略捕获全局结构,显著提升本地和全局链接预测性能,在五个数据集上超越17种基线方法,最高性能提升达9.83%。

  在当前的图数据处理任务中,尤其是图链接预测领域,图自监督学习(Graph Self-Supervised Learning, GSSL)展现出了巨大的潜力。由于现实世界中的图数据往往具有稀疏的标签,传统的方法难以有效应对这一挑战。现有的主流方法主要基于对比学习(Contrastive Learning, CL)和生成学习(Generative Learning, GL)两种范式,但它们在捕捉图中局部邻域信息与全局结构信息的层次化特征方面存在不足。因此,本文从一个新的视角重新审视这两种方法,并提出一种多尺度图掩码自编码器(Multi-Scale Graph Masked Autoencoder, MS-GMAE),以实现对局部和全局链接的精确预测。

图作为描述实体关系结构的可建模形式,已被广泛应用于多个领域,例如社交网络、金融系统和生物医药研究。图神经网络(Graph Neural Networks, GNN)模型在链接预测任务中表现出色,其优势在于通过图上的消息传递和信息聚合机制,能够提取和利用节点之间的复杂关系。这些模型在推荐系统和药物研发等实际应用中具有重要价值。然而,GNN模型的训练过程中,图自监督学习(GSSL)的应用日益受到重视,因为它能够在没有标注数据的情况下,获取具有广泛适用性的图表示。标注数据通常在实际场景中成本高昂或难以获取,因此GSSL成为解决这一问题的有效手段。

在GSSL方法中,现有的研究可以分为两个主要范式:对比学习和生成学习。这两种方法在学习单尺度信息(如局部邻域或全局结构)方面表现良好,但在学习同时包含局部邻域信息和全局结构信息的层次化特征时仍存在局限。以对比学习为例,基于对比学习的图表示方法通常通过学习不同增强视图的不变表示来捕捉全局图信息,如图中节点的整体分布和结构特征。然而,这种方法在捕捉局部邻域信息方面表现不佳,无法利用局部信息预测缺失的边,从而导致局部链接预测性能的下降。相比之下,生成学习方法通常通过重构输入数据来学习节点表示,例如图自编码器(Graph Autoencoder, GAE)。GAE利用图的输入结构作为监督信号,以重构图的拓扑结构,但在这一过程中过度强调局部邻域信息,忽视了全局结构信息的重要性。这种局部信息的过度依赖在某些情况下并不利于链接预测任务的完成。

近年来,掩码建模技术在图像和语言建模领域取得了显著进展,例如MAE(Masked Autoencoder)和BERT(Bidirectional Encoder Representations from Transformers)。受这些方法的启发,图数据上的掩码自编码器(Graph Masked Autoencoder, GMAE)也展现出广阔的发展前景。一些研究如GraphMAE和S2GAE等,利用图中的节点特征或边结构,在掩码图中强制模型从更远的可见邻域中提取信息,从而有效学习节点表示,同时缓解传统GAE对局部邻域信息的过度依赖。然而,由于图神经网络组件的固有浅层设计和局部信息聚合特性,它们在捕捉和利用图中的长距离依赖关系和全局结构信息方面仍存在局限。这些模型无法通过捕捉全局结构信息来预测缺失的长距离依赖关系,从而导致全局链接预测性能的下降。

因此,本文的核心问题是如何统一学习图中局部邻域信息和全局结构信息的层次化特征,以实现对局部和全局链接的准确预测。然而,这一任务面临诸多挑战。首先,局部邻域信息的准确学习与避免对直接邻域的过拟合之间存在矛盾。其次,现有GMAE模型中图神经网络组件的固有浅层设计和局部信息聚合特性,限制了它们对全局结构信息的学习能力。第三,掩码策略的随机性导致了节点表示学习的不稳定性。为了应对这些挑战,本文从新的视角重新审视对比学习和生成学习,并提出了一种新的自监督生成模型,即MS-GMAE(Rethinking Link Prediction: A Multi-Scale Graph Masked Autoencoder),通过多尺度协同学习的方式解决上述问题。

针对挑战(i),本文在局部邻域尺度上设计了一种交叉相关解码器策略,用于对随机掩码边的图进行编码和解码。这一设计确保了模型能够准确感知局部连接模式,同时显著缓解了模型对局部信息的过度依赖。在挑战(ii)方面,本文在全局结构尺度上提出了一种潜在的全局表示预测策略,使用Node2Vec模型的嵌入——该模型能够捕捉全局结构信息——作为重构目标,将信息映射到同构的潜在空间中进行特征重构。选择Node2Vec模型作为参考,是因为它与本挑战的核心问题密切相关:克服图神经网络组件的固有局限,以增强模型对全局结构信息的捕捉能力。对于挑战(iii),本文进一步重构节点的上下文,以学习更稳定的节点表示,从而提升模型在表示学习方面的鲁棒性。

多尺度协同学习使得MS-GMAE模型能够捕捉图中的多尺度信息,这是本文模型相较于当前主流方法在性能上显著提升的关键因素。通过引入多尺度信息处理机制,MS-GMAE在多个维度上优化了图表示的学习过程,从而提高了链接预测的准确性和稳定性。实验结果表明,与在五个数据集上进行比较的17种主流基线模型相比,MS-GMAE在其中四个数据集上取得了最先进的性能,其中最高性能提升达到了9.83%。

本文的研究重点在于图自监督学习在链接预测任务中的应用。传统的对比学习和生成学习方法虽然在单尺度信息学习方面表现良好,但在同时捕捉局部邻域信息和全局结构信息的层次化特征时存在不足。为了弥补这一缺陷,本文提出了一种新的多尺度图掩码自编码器(MS-GMAE),通过多尺度协同学习的方式,使模型能够学习到更加稳定和全面的图表示,从而提升链接预测的准确性。具体而言,本文设计了交叉相关解码器和潜在的全局表示预测策略,以分别优化模型对局部和全局信息的学习能力。

交叉相关解码器的设计基于对图中随机掩码边的处理,通过多层嵌入表示对两个节点之间的连接进行解码和预测。这一策略不仅能够精确捕捉局部连接模式,还能有效避免模型对局部信息的过度依赖,从而提升模型在局部链接预测任务中的泛化能力。潜在的全局表示预测策略则通过使用Node2Vec模型的嵌入作为重构目标,将信息映射到同构的潜在空间中进行特征重构。这一设计使得模型能够更好地捕捉全局结构信息,从而提升其在全局链接预测任务中的表现。此外,本文还通过重构节点的上下文信息,使模型能够学习到更加稳定的节点表示,从而增强其在表示学习方面的鲁棒性。

在实验评估方面,本文在五个基准数据集上进行了广泛测试,包括两个引用网络(Cora和CiteSeer)、两个流行的社交网络数据集(Flickr和Blogcatalog)以及一个具有挑战性的OGB基准数据集(ogbl-ddi)。在数据集划分方面,为了公平比较,除了公开划分的ogbl-ddi数据集外,其余数据集均被随机划分为训练、验证和测试边,比例为85%、5%和10%。所有实验均采用统一的评估标准,以确保结果的可比性和可靠性。

实验结果表明,MS-GMAE在四个数据集上取得了优于现有主流基线模型的性能,其中最高性能提升达到了9.83%。这一结果充分验证了MS-GMAE在链接预测任务中的有效性,表明其能够同时准确预测局部和全局链接。此外,本文的研究还揭示了当前主流方法在处理图链接预测任务时的局限性,即无法同时考虑局部邻域信息和全局结构信息的层次化特征。通过引入多尺度信息处理机制,MS-GMAE能够克服这些限制,从而在链接预测任务中实现更优的性能。

在方法设计方面,本文提出了多个创新策略,包括交叉相关解码器、潜在的全局表示预测以及节点上下文重构。这些策略分别针对局部和全局信息的学习进行了优化,使得模型能够更全面地捕捉图中的信息特征。交叉相关解码器通过多层嵌入表示对节点之间的连接进行解码,从而提升模型在局部链接预测任务中的准确性。潜在的全局表示预测策略则通过使用Node2Vec模型的嵌入作为重构目标,使得模型能够更好地捕捉全局结构信息。此外,节点上下文重构策略通过重构节点的上下文信息,使模型能够学习到更加稳定的节点表示,从而提升其在表示学习方面的鲁棒性。

在理论分析方面,本文探讨了图自监督学习在链接预测任务中的关键问题,即如何在有限的标注数据条件下,学习到具有广泛适用性的图表示。传统的对比学习和生成学习方法在这一方面存在不足,因此本文提出了多尺度协同学习的框架,以解决这一问题。通过引入多尺度信息处理机制,MS-GMAE能够在不同尺度上协同学习,从而提升模型在链接预测任务中的表现。这一框架不仅能够有效捕捉局部和全局信息,还能够提升模型在不同任务中的泛化能力。

在实际应用方面,本文的研究具有重要的现实意义。链接预测在推荐系统、药物研发、社交网络分析等领域具有广泛的应用价值,而图自监督学习能够为这些任务提供更加稳定和有效的图表示。通过引入MS-GMAE模型,本文为链接预测任务提供了一种新的解决方案,能够同时优化局部和全局链接预测的准确性。此外,本文的研究还为未来图自监督学习的发展提供了新的思路,即通过多尺度协同学习的方式,提升模型在复杂图任务中的表现。

综上所述,本文的主要贡献包括以下几个方面:首先,通过观察现有图自监督学习方法在对比学习和生成学习方面的局限性,本文提出了一种多尺度图掩码自编码器框架,用于链接预测任务,以实现对局部和全局链接的准确预测。其次,MS-GMAE模型配备了定制化的模型设计,包括在局部邻域尺度上的交叉相关解码器、在全局结构尺度上的潜在全局表示预测策略,以及额外的节点上下文重构策略。这些设计共同作用,使得模型能够更好地捕捉图中的多尺度信息,从而提升链接预测的准确性。最后,本文对提出的框架进行了深入的实验评估,结果显示其在多个数据集上取得了显著的性能提升,其中最高性能提升达到了9.83%,充分证明了MS-GMAE在链接预测任务中的有效性。

此外,本文的研究还具有一定的理论价值。通过引入多尺度协同学习的概念,本文为图自监督学习提供了一种新的视角,即如何在不同尺度上协同学习,以提升模型在复杂图任务中的表现。这一理论框架不仅适用于链接预测任务,还可能在其他图任务中发挥重要作用。因此,本文的研究不仅为链接预测任务提供了新的解决方案,还为图自监督学习的发展提供了新的思路。

在实验结果方面,本文在五个基准数据集上进行了广泛测试,包括Cora、CiteSeer、Flickr、Blogcatalog和ogbl-ddi。这些数据集涵盖了不同的应用场景,例如学术引用网络、社交网络和生物医药研究。通过在这些数据集上的测试,本文验证了MS-GMAE在不同任务中的适用性和有效性。实验结果显示,MS-GMAE在四个数据集上取得了优于现有主流基线模型的性能,其中最高性能提升达到了9.83%。这一结果表明,MS-GMAE在链接预测任务中具有显著的优势,能够同时准确预测局部和全局链接。

在方法实现方面,本文提出的MS-GMAE模型具有一定的创新性。通过引入交叉相关解码器和潜在的全局表示预测策略,本文使得模型能够更全面地捕捉图中的信息特征。此外,通过重构节点的上下文信息,本文还提升了模型在表示学习方面的鲁棒性。这些方法共同作用,使得MS-GMAE能够在不同尺度上协同学习,从而提升模型在链接预测任务中的表现。

在技术细节方面,本文的研究涉及多个关键技术点。例如,交叉相关解码器的设计需要考虑如何在多层嵌入表示的基础上,对节点之间的连接进行解码和预测。潜在的全局表示预测策略则需要考虑如何将信息映射到同构的潜在空间中进行特征重构。此外,节点上下文重构策略需要考虑如何通过重构上下文信息,提升模型在表示学习方面的鲁棒性。这些技术细节的处理,使得MS-GMAE模型能够在不同尺度上协同学习,从而提升其在链接预测任务中的表现。

在实际应用中,本文的研究具有广泛的适用性。例如,在社交网络分析中,MS-GMAE模型能够准确预测用户之间的潜在连接,从而提升社交网络的分析能力。在推荐系统中,MS-GMAE模型能够通过捕捉用户的兴趣模式和社交关系,提升推荐的准确性。在生物医药研究中,MS-GMAE模型能够通过捕捉药物之间的相互作用,提升药物研发的效率。因此,本文的研究不仅在理论上有创新,而且在实际应用中也具有重要的价值。

在研究展望方面,本文提出了一种新的多尺度图掩码自编码器框架,为图自监督学习的发展提供了新的思路。未来的研究可以进一步探索如何优化多尺度协同学习机制,以提升模型在不同任务中的表现。此外,还可以研究如何将MS-GMAE模型应用于其他图任务,例如图分类、图聚类和图生成等。这些研究方向将有助于进一步提升图自监督学习的性能和适用性。

在总结方面,本文提出了一种新的多尺度图掩码自编码器(MS-GMAE)模型,用于解决图自监督学习在链接预测任务中的关键问题。通过引入交叉相关解码器和潜在的全局表示预测策略,本文使得模型能够更全面地捕捉图中的信息特征。此外,通过重构节点的上下文信息,本文还提升了模型在表示学习方面的鲁棒性。实验结果表明,MS-GMAE在多个数据集上取得了显著的性能提升,其中最高性能提升达到了9.83%。这一结果充分验证了MS-GMAE在链接预测任务中的有效性,表明其能够同时准确预测局部和全局链接。本文的研究不仅为链接预测任务提供了新的解决方案,还为图自监督学习的发展提供了新的思路。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号