人类研究者在大语言模型面前仍具优势:医学系统评价写作的多任务比较评估

《Scientific Reports》:Human researchers are superior to large language models in writing a medical systematic review in a comparative multitask assessment

【字体: 时间:2025年12月02日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对大语言模型(LLM)能否独立完成医学系统评价这一科学问题,开展了一项多任务比较评估。研究人员通过对比6款主流LLM与人类专家在文献检索、数据提取和论文撰写三个核心任务上的表现,发现当前LLM在未经过提示工程优化的情况下,其生成的系统评价在完整性、准确性和规范性方面均显著逊色于人类研究者。该研究为科学写作中AI工具的合理使用提供了重要实证依据。

  
在人工智能浪潮席卷各行各业的今天,大语言模型(Large Language Models, LLM)以其强大的自然语言处理能力,正悄然改变着科研工作的范式。从文献综述到数据整理,再到初稿撰写,研究者们开始探索利用这些“数字助手”来提升科研效率。特别是在系统评价(Systematic Review)这类需要处理海量文献、遵循严格方法论(如PRISMA指南)的研究中,LLM看似是理想的自动化工具。然而,一个核心问题悬而未决:这些模型能否真正替代人类研究者,独立产出高质量、可信赖的系统评价?现有研究多聚焦于LLM在特定子任务(如文本摘要)的表现,缺乏对其完成全流程科研任务能力的全面、直接比较。
为了回答这一问题,由Martina Sollini和Cristiano Pini等人组成的研究团队在《Scientific Reports》上发表了一项开创性的研究。他们设计了一项严谨的多任务评估,将6款主流LLM(包括OpenAI的ChatGPT、Anthropic的Claude、Google的Gemini、DeepSeek的R1、Mistral的Le Chat和xAI的Grok)与人类研究者进行“同台竞技”,竞赛项目正是撰写一篇关于α粒子发射放射性配体疗法(Actinium-225 PSMA-Targeted Alpha Therapy)治疗转移性前列腺癌的医学系统评价。研究团队以其近期发表的同名人类撰写的系统评价作为“金标准”,将评估分解为三个关键任务:文献检索与筛选(Task 1)、数据提取与分析(Task 2)以及最终论文草稿的撰写(Task 3)。为了评估LLM的快速演进,研究还特意在2025年2月和4月进行了两轮测试。
研究采用了一种“最小化干预”的提示策略,旨在模拟不具备提示工程专业知识的普通科研团队的使用场景,从而评估LLM的“开箱即用”性能。所有任务均独立评估,并在两轮测试中保持流程一致,以确保结果的可比性。
主要技术方法
本研究的核心方法是对比评估。关键技术环节包括:1) 多LLM平台测试:选取6款具有代表性的LLM,在其特定版本(如ChatGPT o3-mini-high, Claude Sonnet 3.7 with Extended Thinking等)下进行任务测试;2) 任务分解评估:将系统评价流程拆解为文献检索筛选、数据提取分析和全文撰写三个独立任务,并分别制定量化(如正确识别文献数、数据条目准确率)和定性(如论文各部分内容适当性)评价标准;3) 以人为主导的基准比较:以研究者团队已发表的、经过同行评议的系统评价作为所有任务比较的参考标准;4) 双时间点评估:在两个月内进行两轮独立评估,以观察LLM版本更新带来的性能变化;5) 多人定性评审:由五名独立评审员对LLM生成的论文内容进行盲审评分。
研究结果
Task 1: 文献检索、筛选与选择
在文献检索任务中,LLMs的表现远未达到实用要求。人类研究者能够从4362篇初始文献中最终筛选出18篇符合标准的文章。而在第一轮测试中,表现最好的ChatGPT (o3-mini-high)仅正确识别出8篇目标文献,同时还产生了10篇“虚构”的文献(即模型自行编造的不存在论文)和1篇不符合标准的文献。其他模型如Gemini 2.0 Flash甚至未能识别出任何正确文献,却产生了大量虚构内容。到了第二轮测试,LLMs显示出进步迹象,特别是Gemini 2.5 Pro,能够一次性正确识别出13篇目标文献,且未产生任何虚构或不符合标准的文献,ChatGPT o4-mini-high也提升至识别9篇。然而,Claude模型则明确表示无法完成此任务,因其不具备实时访问PubMed等数据库的能力。总体而言,LLMs在文献检索的全面性和准确性上仍与人类专家存在巨大差距,但其快速扫描文献的潜力已初步显现。
Task 2: 数据提取与分析
数据提取任务对LLMs而言尤为繁琐且容易出错。研究人员要求LLMs从18篇已选定的文章中提取11项关键数据(共198个数据条目),并制成表格。在第一轮,Claude和Mistral Le Chat表现相对较好,数据条目正确率分别为92.4%和88.9%,分别有9篇和6篇文章的数据被完全正确地提取。但这个过程非常耗时,需要将文章分批上传。ChatGPT和DeepSeek在第一轮则因功能限制或服务器错误而表现不佳。在第二轮,DeepSeek R1成为最佳表现者,正确率达到93.4%(7篇文章完全正确),Gemini 2.5 Pro也提升至90.9%的正确率(7篇文章完全正确)。然而,几乎所有模型都需要复杂的操作流程。在一个专门评估风险偏倚(ROBINS-E评分)的子任务中,基于ChatGPT构建的定制化GPT模型与人类专家的评估结果一致性很差(Cohen's Kappa仅为0.286),表明LLMs在需要深度理解和专业判断的任务上能力有限。
Task 3: 最终论文草稿撰写
令人意外的是,在看似最契合LLM核心能力的文本生成任务上,其表现却最不理想。尽管所有LLM都能生成结构完整的草稿,但其内容质量普遍较低。生成的论文篇幅普遍过短(最短仅487词,远低于人类标准的4252词),且内容常常不准确或不完整。在根据PRISMA 2020指南对论文各部分的定性评估中,除了“标题”部分在部分模型中被评为“适当”外,摘要、引言、方法、结果、讨论和参考文献等部分大多被评为“部分适当”或“不适当”。例如,LLMs经常遗漏系统评价的关键方法学细节,对结果的阐述流于表面,讨论部分缺乏深度。Claude是唯一能生成参考文献列表的模型,但其完整性也欠佳。LLMs生成的文本虽然语言流畅、格式规范,但这种表面上的“完美”极易误导非专业读者,掩盖其内容上的实质缺陷。
结论与意义
该项研究得出了一个明确结论:在当前技术条件下,若缺乏精心的提示工程和有效的人类监督,大语言模型尚无法独立完成一篇高质量的医学系统评价。它们在关键任务上的表现——无论是文献检索的全面性、数据提取的准确性,还是论文论述的深度和规范性——均显著落后于人类研究者。系统评价作为循证医学的最高等级证据,其价值在于严谨的方法学、批判性的思维和对临床意义的深刻洞察,这些恰恰是当前LLM所欠缺的。
然而,研究也指出了LLM的潜在价值和应用方向。例如,在文献检索初期,LLM可以作为一种快速扫描工具,帮助研究者初步把握领域动态。其在数据整理方面的能力,在经过严格校对后,或可提高部分工作效率。研究的另一个重要发现是LLM性能的快速迭代性,短短两个月内,部分模型的性能就有了明显提升,同时“幻觉”(即虚构内容)现象有所减少。这提示科学界需要持续关注和评估这一快速发展的技术。
这项研究的意义深远。首先,它为科研工作者提供了关于LLM在科学写作中实际能力的客观评估,有助于建立对AI工具的理性预期。其次,它强调了在利用AI辅助科研时,人类专家的主导地位和最终责任不可或缺。科学研究的严谨性、创造性和伦理责任,仍然是人类智能的核心价值。未来,如何将LLM有效地整合到科研工作流中,使其成为人类的“得力助手”而非“替代者”,并在此基础上开发更可靠的评估方法和提示策略,将是重要的研究方向。正如作者在文末所隐喻的,我们距离科幻作品中全能AI的时代尚且遥远,在科学探索的征程中,人类研究者依然是当之无愧的掌舵者。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号