
-
生物通官微
陪你抓住生命科技
跳动的脉搏
多视图对比与聚类引导的作者姓名消歧方法研究
【字体: 大 中 小 】 时间:2025年05月26日 来源:Expert Systems with Applications 7.5
编辑推荐:
针对学术文献中同名作者导致的检索难题,研究人员提出多视图对比与聚类引导学习框架(MCCG),通过增强图结构抗噪性和动态优化聚类标签,显著提升作者姓名消歧(AND)性能。该研究为文献管理系统提供了更精准的学者画像构建方案,相关成果发表于《Expert Systems with Applications》。
在学术文献爆炸式增长的时代,同名作者问题如同迷雾般困扰着研究者。想象一下,当你在Google Scholar搜索"Wei Zhang"时,系统可能同时返回计算机科学家、经济学家甚至生物学家的论文——这种混乱不仅浪费科研时间,更阻碍了学术影响力的准确评估。现有基于图神经网络(GNN)的姓名消歧方法虽取得进展,却面临两大顽疾:一是初始图结构中不可避免的噪声干扰(如错误共现关系),二是传统方法将表征学习与聚类任务割裂,导致聚类结果无法动态修正。
中国科学技术大学的研究团队在《Expert Systems with Applications》发表的研究中,创新性地提出MCCG框架。该工作首先通过自适应图增强技术生成多视图数据,利用跨视图对比学习(CL)提升模型抗噪能力;继而设计聚类引导模块,将HDBSCAN算法与自适应样本加权策略结合,实现表征学习与聚类任务的协同优化。实验证明,该方法在AMiner-AND等四个基准数据集上均超越现有最优模型。
关键技术包括:1)基于语义特征(Semantic Feature)Sa和关系特征(Relational Feature)Ra的多视图图构建;2)采用伪标签引导的跨视图对比学习;3)集成HDBSCAN的动态聚类优化模块;4)针对AMiner-AND、WhoisWho-v1/v2和LAGOS-AND数据集的系统验证。
【研究结果】
结论部分指出,该研究首次实现AND任务中噪声鲁棒性与动态聚类的统一,其创新点在于:1)将论文同质性(homogeneous papers)的聚类效应转化为监督信号;2)设计样本加权策略解决传统对比学习对难样本(hard samples)的忽视问题。讨论中强调,当论文属性信息缺失严重时,模型性能仍会下降,这为未来研究指明了方向——需结合跨平台学术画像等补充信息。该成果不仅推进了AND领域的方法论发展,更为构建智能化学术搜索引擎提供了关键技术支撑。
生物通微信公众号
知名企业招聘