具有信息保留功能的深度对比图聚类

《Pattern Recognition》:Deep Contrastive Graph Clustering with Information Preservation

【字体: 时间:2025年10月27日 来源:Pattern Recognition 7.6

编辑推荐:

  本文提出基于可学习增强与信息重构的图对比学习框架GCL-LAR,通过两阶段训练和伪标签筛选优化正负样本选择,有效解决现有方法的信息损失与样本移动问题,实验表明在多个基准数据集上优于现有GCL方法。

  
Hu Lu|Haotian Hong|Fuhao Shi|Shengli Wu|Lixin Duan|Shaohua Wan
江苏大学计算机科学与通信工程学院,中国江苏省212013

摘要

图对比学习(Graph Contrastive Learning,GCL)在图的无监督任务中取得了显著进展。一些方法遵循信息瓶颈原理,通过可学习的模式自动生成增强视图,从而无需繁琐的手动参数配置,同时实现了更好的性能。然而,这些方法的增强子视图之间的差异虽然减少了与下游任务无关的冗余信息,但也可能破坏一些关键信息。此外,大多数图对比方法存在将同一簇中的样本从锚点移开的问题。为了解决这个问题,我们提出了一种基于可学习图数据增强重构的图对比学习框架(GCL-LAR),该框架在特征和拓扑层面上保留了视图之间的关键信息。同时,我们将模型设计为两阶段训练策略:在预训练阶段学习图数据增强,然后在训练阶段固定其参数以获得更可靠的聚类信息。之后,我们利用邻接矩阵连接的边节点的相似性来选择高置信度的伪标签,并进一步筛选正样本和负样本,以提高正样本和负样本的可靠性。在基准数据集上的广泛实验表明,与一些最先进的GCL方法相比,我们的方法在图聚类任务中取得了有竞争力的结果。代码可在以下链接获取:https://github.com/hulu88/GCL-LAR

引言

图对比学习(Graph Contrastive Learning,GCL)已成为一个重要的研究方向。与依赖手动标注数据和预定义类别的传统方法不同(这些方法在注释过程中经常受到噪声标签的干扰[1]),图对比学习(GCL)利用自监督学习来最大化相似样本之间的相似性,最小化不同样本之间的差异,从而有效地从图中提取结构和特征信息。这种方法不仅提高了捕捉复杂节点关系和图结构的能力,还解决了高维和稀疏数据带来的挑战。图对比学习在保留图结构的同时增强了特征表示,从而显著改善了聚类结果。这种有效性基于Yang等人提出的表示学习和簇细化之间的良性循环[2]。通过迭代增强簇的一致性,可以从未标记的数据中提取出稳健的表示。
当前的深度图聚类算法主要分为生成模型和对比模型。生成模型,如图自动编码器及其变体[3]、[4],通过使重构对象尽可能接近原始数据来强制嵌入学习尽可能多的原始数据特征,然后在嵌入空间中对它们进行聚类。后者主要涉及三个方面:1)模型的网络结构;2)图数据增强方法;3)正样本和负样本的选择。图对比模型通常采用孪生网络(Siamese network)的结构,两个分支具有相同的组成并共享相同的参数,例如GCA [5]、GDCL [6]、DGI[7]。近年来,出现了一种非对称结构的图对比建模方法,例如AFGCL [8]和SimGRACE [9],它们借鉴了BYOL [10]和SimSiam [11]的思想。它们的共同点是都采用了一个可训练的网络分支和另一个停止梯度(stop-gradient)网络分支的组合,因为这种结构可以避免嵌入空间的崩溃,从而避免使用负样本并加快模型的运行速度。图的数据增强方法主要包括特征掩蔽、子图采样、边删除、边特征破坏等。这些方法更依赖于手动超参数设置,对不同的数据集敏感,并可能丢失重要的模型信息。大多数可学习的图数据增强方法[12]、[13]采用信息瓶颈原理来获取嵌入,并根据输出自适应调整数据增强以适应结构和特征。然而,这些可学习方法可能导致与下游任务相关的视图之间信息的丢失。最近的进展通过针对特定挑战定制对比机制来改进GCL。例如,CI-GCL [14]通过强制对组结构的不变性来提高公平性,减少偏见并提升泛化能力。在时间网络中,TF-GCL [15]和TACL [16]结合了时间动态和拓扑增强来捕捉演变模式。
针对上述问题,我们提出了一种基于重构的可学习数据增强策略以及一种改进的正负样本对选择方法。本文的主要贡献如下:
  • 1.
    我们提出了一种新的可学习图增强方法,与其他基于信息瓶颈的方法不同,避免了在无监督任务中子图之间的过度稀疏性,从而避免了与下游任务相关的信息丢失。
  • 2.
    我们提出了一种新的采样方法,弥补了仅使用伪标签和邻接矩阵采样正负样本的缺点,提高了正负样本的可靠性。
  • 3.
    在各种图数据集上的广泛实验表明,我们的方法(GCL-LAR)在图聚类任务中与最先进的GCL方法具有竞争力。
  • 部分摘录

    图数据增强

    在图领域,增强技术借鉴了多个领域的方法,包括节点删除、边扰动和子图生成[17]。像GCA [5]这样的创新利用中心性来保留关键边,而MVGRL [18]引入了图扩散来获得全局和局部结构视图。尽管这些方法有效,但它们可能对数据集特性敏感,通常需要手动调整参数,有可能移除关键数据信息。最近

    方法

    在本节中,我们将详细介绍所提出的方法(GCL-LAR),包括如何构建可学习图增强、过滤正负样本以及设计相应的损失函数。GCL-LAR的总体框架如图1所示。

    数据集

    为了验证我们提出的GCL-LAR,我们在六个基准数据集上进行了实验,包括CORA、CITESEER、ACM、UAT、BAT和EAT。数据集的总结见表1。

    实验设置

    所有实验都在笔记本电脑上进行,使用AMD Ryzen 7 CPU、NVIDIA GeForce RTX 3050笔记本电脑GPU、16GB RAM和PyTorch深度学习平台。所有数据集的训练周期数设置为400次,每种方法运行十次。对于其他比较方法,我们采用它们的原始设置或

    结论

    在无监督任务中,许多现有的图数据增强方法用于多视图学习,常常会损害视图之间共享信息的完整性。为了解决这一限制,我们提出了一种名为“具有可学习增强重构的图对比学习”(Graph Contrastive Learning with Learnable Augmented Reconstruction,GCL-LAR)的新框架。该框架引入了两个组件:基于重构的结构增强学习器和特征增强学习器,以增强对图数据的理解。

    CRediT作者贡献声明

    Hu Lu:撰写——原始草稿,监督,项目管理,方法论,概念化。Haotian Hong:方法论,形式分析,数据管理,概念化。Fuhao Shi:方法论,调查,形式分析,数据管理,概念化。Shengli Wu:方法论,形式分析,数据管理,概念化。Lixin Duan:撰写——审阅与编辑,监督,方法论,概念化。Shaohua Wan:撰写——审阅与编辑,可视化,验证,

    利益冲突声明

    作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普
    • 急聘职位
    • 高薪职位

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号