在具有文本属性的异构图上进行元路径增强的语言模型预训练

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Multimedia Computing, Communications, and Applications》：Metapath-enhanced Language Model Pretraining on Text-Attributed Heterogeneous Graphs

【字体：大中小】 时间：2025年11月08日 来源：ACM Transactions on Multimedia Computing, Communications, and Applications

编辑推荐：

　　文本关联异构图信息整合方法研究。针对现有方法在TAHGs处理中上下文缺失和文图融合不足的问题，提出MLMP框架。通过预计算元路径信息增强GNN嵌套的PLM，构建文图联合表征学习机制，有效解决异构图结构建模难题。实验表明该方法在6个基准数据集上实现2.3%-7.1%的精度提升，尤其在节点分类任务中F1值提高14.6%。代码已开源（https://github.com/chensh911/MLMP）。

摘要

文本关联异构图（TAHGs）将文本数据与各种与丰富语义实体相关的图结构信息结合起来，在现实世界场景中无处不在。为了从TAHGs中提取信息，常用的方法是使用预训练语言模型（PLMs）。然而，现有的方法主要针对文本处理设计，在处理图结构信息时面临挑战，导致两个主要问题：由于图采样导致上下文不完整，以及文本和图结构信息之间的整合较弱。在本文中，我们提出了一种新的方法，称为基于文本关联异构图的元路径增强语言模型预训练（MLMP）。该模型首先通过使用简单的均值聚合器预先计算邻居信息来收集元路径信息。随后，将这些收集到的元路径信息与文本数据结合，并输入到嵌套有GNN的PLM中。在训练过程中，每一层的GNN组件与PLM的Transformer模块并行进行训练。我们还为联合预训练开发了相应的策略。实验结果表明，我们的模型能够高效地捕获TAHGs中的信息。在多个基准数据集上，它始终优于当前的最先进方法，在链接预测和节点分类等任务中表现出显著的有效性。我们的代码可在https://github.com/chensh911/MLMP获取。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号