“ChatGPT时代虚构文献的警示：从‘O. Uplavici博士’事件看生物医学引用的诚信危机”

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年04月16日 来源：Virchows Archiv 3.4

编辑推荐：

　　本期推荐：AI生成文献的准确性危机亟待关注。Guastafierro团队在《Virchows Arch》研究发现，ChatGPT生成的病理学参考文献30%存在错误（12.1%不准确，17.8%虚构），警示AI工具在学术引用中的风险。研究通过历史案例“O. Uplavici博士”事件（1887-1938年虚构人物），揭示错误引用对学术传承的长期危害，强调人类专家在文献整合中的不可替代性，为期刊审稿和学术诚信体系建设提供重要参考。

　　在生物医学研究领域，文献引用的准确性是学术传承的基石，但历史与现实的双重挑战正威胁着这一体系的可靠性。19世纪末，捷克病理学家Jaroslav Hlava关于阿米巴痢疾（amoebic dysentery）的里程碑式研究，因德语翻译错误被误归于虚构人物“Dr. O. Uplavici”长达50年，这个被称为“科学史上最持久的幽灵作者”案例，揭示了文献传播过程中“道听途说式引用”的危害。而如今，以ChatGPT为代表的人工智能（AI）工具在学术写作中的广泛应用，正在制造新的引用危机——Guastafierro等人在《Virchows Archiv》发表的研究显示，AI生成的参考文献中30%存在事实性错误，这一数字令人警醒。

为系统评估AI在学术引用中的可靠性，由意大利研究团队领衔的国际小组开展了两阶段研究：首先通过对照实验分析ChatGPT对40个病理学诊断问题的回答准确性；其次采用文献计量学方法追溯“Dr. O. Uplavici”这一经典误引案例的历史演变。研究团队特别关注AI生成参考文献的验证机制缺失问题，并对比分析了历史误引与现代AI误引的共性与差异。

关键技术方法包括：1）构建包含120个病理学核心术语的测试数据库；2）采用双盲设计评估ChatGPT-4生成的参考文献准确性；3）通过历史档案检索还原1887-1938年间“Dr. O. Uplavici”误引的传播路径；4）使用文献引文网络分析工具HistCite^TM追踪错误引用的扩散模式。

研究结果部分，《The biography of the fictitious Dr. O.úplavici》揭示：1887年Hlava在捷克期刊发表的“O uplavici”论文，因德语摘要将标题首词误作作者名，加之译者Kartulis虚构的“与Uplavici通信”细节，导致这个本不存在的学者被收录进权威的《Index Catalogue of Medical and Veterinary Zoology》。直到1938年英国寄生虫学家Clifford Dobell通过原始文献考证才揭穿这个持续半个世纪的学术“幽灵”。

《Lessons learned》部分指出，ChatGPT产生的错误引用呈现两类典型模式：一是“虚构文献综合征”（12.1%为真实期刊中不存在的论文），二是“语境错位引用”（17.8%将真实论文错误关联到不相关主题）。这种错误在快速发表的预印本时代可能造成指数级扩散，其危害远超纸质时代的局部误引。

讨论部分强调三个核心发现：首先，AI工具的“幻觉现象”（hallucination）会系统性制造虚假参考文献，其错误率（30%）远超人类研究者平均水平（<5%）。其次，历史案例证明错误引用一旦进入学术传播链，纠偏成本呈几何级增长——仅“Dr. Uplavici”案例就影响了1938年前85%关于阿米巴痢疾的英文文献。最后，现行学术评价体系对引用准确性的忽视，与科研人员对AI工具的过度依赖形成危险共振。

该研究的创新性在于首次量化评估了AI工具在专业文献生成中的风险阈值，并通过历史透镜揭示了错误引用的长期学术危害。作者建议期刊建立三级防御机制：1）强制声明AI使用情况；2）开发基于区块链的文献验证插件；3）将参考文献准确性纳入同行评审评分体系。正如编辑在按语中指出：“当ChatGPT开始‘创造’不存在的学者时，我们不仅面临技术缺陷，更遭遇学术伦理的新边疆”。这项研究为正处于AI革命漩涡中的学术出版界敲响了警钟。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号