基于两阶段计算的大规模学术兴趣挖掘：一种融合TF-IDF与SciBERT的高效推荐算法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月07日 来源：Future Generation Computer Systems 6.2

编辑推荐：

　　本文提出了一种融合粗糙排序（TF-IDF特征选择+SGD分类器）与精细排序（SciBERT预训练模型）的两阶段计算方法，有效解决了大规模学术数据中研究兴趣挖掘的计算效率（如BERT直接处理长文本的512词限制）和预测精度（避免同名学者论文干扰）问题，为科研服务（如基金评审、专家推荐）提供了高效解决方案。

亮点

方法

我们提出了一种两阶段方法来处理大规模学术数据集中的研究兴趣挖掘任务。这种分阶段方法能显著减少预训练模型的计算量并提升速度。但对于发表文献较少的学者，可直接跳过粗糙排序阶段，直接使用预训练模型。

特征构建

本研究采用两种互补的特征构建方法：学者特征集Set_s={学者s_i:(论文标题，期刊名称)}和兴趣特征集Set_I={兴趣I_i:(论文标题，期刊名称)}。学者特征集用于捕捉个体研究特征，而兴趣特征集则聚焦领域共性。

模式分析方法

通过量化科学出版物数量来分析研究兴趣演变模式。基础策略是采用科学网络方法，将相互引用的出版物子集识别为社区或概念实体。这种基于网络的方法能发现不同科研策略——例如Rzhetsky等学者发现跨学科合作能显著提升研究影响力。

结论

针对大规模科学数据挖掘，本文提出的基于推荐系统原理的双阶段算法，在粗糙排序阶段采用词频TF-IDF特征提取和SGD分类器预测，返回概率前20的兴趣标签；在精细排序阶段使用SciBERT预训练模型输出最优标签，为科研管理智能化提供了新范式。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号