多视图对比与聚类引导的作者姓名消歧方法研究

【字体: 时间:2025年05月26日 来源:Expert Systems with Applications 7.5

编辑推荐:

  针对学术文献中同名作者导致的检索难题,研究人员提出多视图对比与聚类引导学习框架(MCCG),通过增强图结构抗噪性和动态优化聚类标签,显著提升作者姓名消歧(AND)性能。该研究为文献管理系统提供了更精准的学者画像构建方案,相关成果发表于《Expert Systems with Applications》。

  

在学术文献爆炸式增长的时代,同名作者问题如同迷雾般困扰着研究者。想象一下,当你在Google Scholar搜索"Wei Zhang"时,系统可能同时返回计算机科学家、经济学家甚至生物学家的论文——这种混乱不仅浪费科研时间,更阻碍了学术影响力的准确评估。现有基于图神经网络(GNN)的姓名消歧方法虽取得进展,却面临两大顽疾:一是初始图结构中不可避免的噪声干扰(如错误共现关系),二是传统方法将表征学习与聚类任务割裂,导致聚类结果无法动态修正。

中国科学技术大学的研究团队在《Expert Systems with Applications》发表的研究中,创新性地提出MCCG框架。该工作首先通过自适应图增强技术生成多视图数据,利用跨视图对比学习(CL)提升模型抗噪能力;继而设计聚类引导模块,将HDBSCAN算法与自适应样本加权策略结合,实现表征学习与聚类任务的协同优化。实验证明,该方法在AMiner-AND等四个基准数据集上均超越现有最优模型。

关键技术包括:1)基于语义特征(Semantic Feature)Sa和关系特征(Relational Feature)Ra的多视图图构建;2)采用伪标签引导的跨视图对比学习;3)集成HDBSCAN的动态聚类优化模块;4)针对AMiner-AND、WhoisWho-v1/v2和LAGOS-AND数据集的系统验证。

【研究结果】

  1. 多视图对比模块:通过随机移除边和特征的图增强策略,使模型在保留30%边信息的噪声条件下仍保持85.7%的F1值,证明其卓越的抗噪性。
  2. 聚类引导机制:在WhoisWho-v2数据集上,动态标签修正使聚类纯度提升12.3%,验证了协同优化的有效性。
  3. 整体性能:MCCG在LAGOS-AND大规模数据集上的消歧准确率达91.2%,较基线模型平均提升6.5个百分点。

结论部分指出,该研究首次实现AND任务中噪声鲁棒性与动态聚类的统一,其创新点在于:1)将论文同质性(homogeneous papers)的聚类效应转化为监督信号;2)设计样本加权策略解决传统对比学习对难样本(hard samples)的忽视问题。讨论中强调,当论文属性信息缺失严重时,模型性能仍会下降,这为未来研究指明了方向——需结合跨平台学术画像等补充信息。该成果不仅推进了AND领域的方法论发展,更为构建智能化学术搜索引擎提供了关键技术支撑。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号