科学数据贡献的学术认可:基于GEO数据贡献者作者身份的实证分析
《Scientific Data》:How does academia recognize the contribution of scientific data? Evidence from data contributors’ authorship
【字体:
大
中
小
】
时间:2025年12月03日
来源:Scientific Data 6.9
编辑推荐:
本研究聚焦科学数据贡献在学术界的认可困境,通过分析PubMed Central中GEO数据集与原始论文的作者关联,量化评估数据工作的学术价值。研究发现,80%的数据集第一贡献者在原始论文中担任第一或通讯作者,且这一比例持续上升,揭示数据工作正从边缘走向核心。研究为数据贡献的公平评价提供了实证依据,对推动开放科学和数据共享具有重要意义。
随着数据密集型研究成为科学发现的“第四范式”,科学数据的价值日益凸显。然而,在传统学术评价体系中,数据收集、清洗和管理的贡献常被视为“隐形劳动”,数据工作者能否获得应有的学术认可成为关键问题。尤其在生物医学领域,基因表达数据等复杂数据的标准化处理直接影响研究的可重复性和创新性,但数据贡献者是否在论文作者名单中获得相应地位仍缺乏系统证据。
为此,南京农业大学信息管理学院刘佳雪、马晓伟等人在《Scientific Data》发表研究,通过挖掘PubMed Central中与GEO数据库关联的原始论文,对比数据集贡献者和论文作者的姓名与排序,首次大规模量化分析了数据贡献的学术认可程度。
研究采用三步法收集数据:首先从PMC全文中提取GEO数据集编号(如GSE、GDS),随后通过GEO元数据获取数据集贡献者名单和关联论文信息,最终从PubMed补充论文的作者列表和期刊指标。为避免偏差,研究排除了仅有一至两名作者的论文及 consortium 论文,最终纳入86,610对有效数据集-论文匹配数据。关键技术方法包括:(1)基于正则表达式批量识别数据集编号;(2)通过姓名缩写标准化实现贡献者与作者自动匹配;(3)结合人工校验确保匹配准确率达99.4%;(4)利用期刊影响因子四分位划分研究水平。
数据贡献团队规模特征
研究发现,61%的GEO数据集由2-5人的小型团队提交,且这一比例从2010年的58%升至2023年的63%,而中型团队(6-10人)占比逐年下降。
这表明生物医学领域更倾向于灵活的小团队协作,以提升数据处理的效率与专业性。
数据贡献者与论文作者的一致性
第一数据集贡献者在原始论文中担任第一作者或通讯作者的比例高达80.62%,而第二、第三贡献者占比分别为31.97%和20.33%。
进一步分析发现,当第一贡献者担任主要作者时,近90%的研究者同时参与数据分析和论文撰写,说明数据工作与实验设计、成果呈现紧密关联。
数据贡献者学术角色的演变
2010年至2022年间,第一贡献者作为论文第一作者的比例持续上升,而担任次要作者的比例下降。第二、第三贡献者虽仍以次要作者为主,但其担任主要作者的比例亦缓慢增长。
不同研究水平期刊的差异
在高影响力期刊(Q1区)中,第一贡献者担任第一作者的比例最高(58.48%),但担任通讯作者的比例较低(23.26%);而Q4期刊中第一贡献者作为通讯作者的比例达33.53%。卡方检验表明不同影响力期刊间作者排序差异显著(p<0.001)。
这表明高水平期刊更强调数据作为独立研究要素的价值,而低影响力期刊中数据贡献者可能承担更多统筹角色。
结论与意义
研究证实数据贡献者普遍在学术研究中占据核心地位,其工作已从辅助性任务转变为驱动科学发现的关键环节。数据贡献的认可度随时间的提升,与国际医学期刊编辑委员会逐步将数据采集纳入作者标准的历史趋势一致。然而,传统作者贡献规则仍可能低估数据工作的全面价值,需引入数据引用、贡献指数等新型评价指标。未来需结合定性方法深入探索作者排序背后的机制,并拓展至多学科验证数据贡献认可模式的普适性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号