CrossDI:跨三大数据库的颠覆性指数计算基准数据集构建与应用

《Scientific Data》:CrossDI: A comprehensive dataset crossing three databases for calculating disruption indexes

【字体: 时间:2025年12月11日 来源:Scientific Data 6.9

编辑推荐:

  本研究针对当前颠覆性指数(DI)研究受限于单一指标、学科或数据库的瓶颈,开发了首个整合WoS、Dimensions和OpenCitations的跨源颠覆性指数数据集CrossDI。该数据集涵盖合成生物学等四个领域260篇核心文献,系统计算了DI1、mDI1、DInoR等9种DI变体及其年度演化轨迹,通过多源数据融合与算法优化解决了DOI冗余、年份冲突等数据质量问题,为科学颠覆性评估提供了可复现的基准平台。

  
在当今科学评价体系中,如何准确识别那些真正颠覆现有范式、开辟新领域的突破性研究,一直是科学计量学领域的核心挑战。传统指标如引用次数虽能反映学术影响力,却难以区分渐进式改进与范式转移型创新。这种测量困境使得许多具有革命性潜力的研究可能被埋没在浩如烟海的文献中。
颠覆性指数(DI)的提出为这一难题提供了新的解决思路。该指标通过分析目标文献、其参考文献及后续引用文献三者间的引用关系,将科学研究划分为颠覆性贡献(D=1)和巩固性贡献(D=-1)两种类型。当后续研究仅引用目标文献而忽略其基础参考文献时,表明该研究可能开辟了新方向;反之,若后续研究同时引用目标文献及其参考文献,则属于渐进式发展。这种测量方法理论上能够捕捉科学发展的质变节点。
然而,现有DI研究面临多重挑战:不同数据库的覆盖范围差异导致计算结果不一致;DOI错误和冗余问题影响数据质量;时间窗口选择对指标稳定性产生干扰;高度引用的参考文献可能带来测量噪声。更重要的是,当前缺乏一个能够系统比较不同DI变体、跨越多学科领域、整合多源数据的基准数据集,这使得不同研究结论之间难以直接对比,阻碍了DI指标的进一步发展和应用。
为解决这些问题,北京工业大学徐硕教授团队在《Scientific Data》上发表了题为"CrossDI: A comprehensive dataset crossing three databases for calculating disruption indexes"的研究论文,构建了首个跨三大数据库的颠覆性指数计算基准数据集。该研究精选合成生物学、天文学与天体物理学、区块链信息系统管理、生物入侵社会经济影响四个代表性领域的260篇核心文献,整合了Web of Science、Dimensions和OpenCitations的完整引用网络数据,系统计算了9种主流DI变体指标,并追踪了每篇文献从发表至2023年的年度演化轨迹。
关键技术方法包括:(1)多源元数据采集:通过API接口和手动导出方式从三大数据库获取种子文献及其完整引用网络;(2)数据预处理:采用正则表达式方法清洗WoS的DOI错误,通过字母序选择策略解决多DOI问题,采用最大年份原则调和出版年份冲突;(3)颠覆性指数计算:基于年度引用网络快照,分别计算核心指数、阈值变体、参考文献省略指标和多维指标四大类共9种DI变体,涵盖DI1、mDI1、DI5、DInoR、DEP、Origbase、Destabilization(D)和Consolidation(C)等指标。
数据记录与组织结构
研究团队在Figshare平台公开了完整数据集,采用数据湖架构按研究领域分类存储。每个领域包含五个核心组成部分:文献列表(doi/dois-{ID}.csv)记录所有唯一文献的DOI和出版年;引用边(citations/citations-{ID}-{SOURCE}.csv)以制表符分隔格式定义定向引用关系;目标文献(target/target-{ID}.csv)指定计算颠覆性指标的核心文献;结果文件(result/results-{ID}-{SOURCE}.xlsx)汇编各目标文献的颠覆性指标和元数据;多DOI整合文件(doi/dois-multi-{ID}.csv)记录被判定为指向同一工作的归一化DOI组。
技术验证结果
数据质量验证显示,多DOI整合准确率达到95%,出版年份调和准确率为88%。参考文献数量验证发现,数据库报告值普遍低于或等于实际值,但在合成生物学领域,OpenCitations和Dimensions出现明显过计数现象。原因包括DOI冗余(同一文章的不同DOI被记录为独立引用关系)和无关引用(源文献参考列表中不存在的引用关系被错误包含)。
Crossref基准比较分析表明,Dimensions提供最全面的引文覆盖,其次是WoS,OpenCitations覆盖最低。通过UpSet图可视化四个领域中各数据库的记录分布和重叠情况,发现大量记录被所有四个数据库共享,表明核心文章存在显著重叠,同时也凸显了整合多源数据进行全面科学计量分析的必要性。
颠覆性指数计算方法
核心颠覆性指数DI1的计算基于三组引用关系:仅引用目标文献的文献数(NF)、仅引用目标文献参考文献的文献数(NR)、同时引用目标文献及其参考文献的文献数(NB)。公式为DI1= (NF- NB)/(NF+ NB+ NR),值域为[-1,1]。影响加权的mDI1在此基础上乘以目标文献的引用次数mt,混合了方向与幅度信息。
为减少高被引参考文献带来的偏差,研究还计算了阈值变体DI5(要求引用文献至少引用5篇目标文献的参考文献)和DIX%(排除前X%高被引文献)。参考文献省略指标包括DInoR(完全忽略NR)和逆依赖指数(invDEP)。Shibayama和Wang提出的Origbase将分析单元从文献级计数转为链接级计数,计算引用-参考文献二分网络中非链接的比例。Chen等人的双视角框架则分别定义Destabilization(D)和Consolidation(C)指数,将颠覆与巩固视为两个独立维度。
研究结论与意义
CrossDI数据集的建立为科学颠覆性研究提供了多个重要支撑:首先,它使系统分析颠覆性指标随时间演化的特性成为可能,年度DI值允许研究者检验科学颠覆的趋势和模式;其次,覆盖传统与新兴领域的数据为研究不同学科间颠覆性指标的差异提供了基础;第三,通过整合多源引用数据,用户可以评估数据库特性和数据覆盖对颠覆性指标计算和解释的影响。
该研究的创新之处在于建立了首个系统整合多源数据的DI计算基准,解决了当前研究中数据不一致、难以比较的核心痛点。标准化中间变量的包含有助于识别方法学偏差来源,如时间窗口选择或学科特定引用实践,促进敏感性分析和开发更稳健的可比较DI测量方法。此外,结构化引用网络支持复杂的引用网络挖掘,以模拟颠覆性思想的传播;全面的指标套件及其时间演化为机器学习预测建模提供了丰富的特征集;标准化指标使系统异常检测成为可能,通过揭示具有非典型颠覆轨迹的学术异常值。
这项研究不仅为科学计量学界提供了宝贵的资源,也推动了颠覆性指数研究方法学的标准化进程。通过解决多数据库整合、数据质量控制和指标系统比较等关键问题,CrossDI数据集为未来研究奠定了坚实基础,有望促进对科学颠覆本质的更深入理解,推动科学评价体系向更加全面、准确的方向发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号