大语言模型借助工具可实现精准临床计算:突破局限,助力医疗变革

【字体: 时间:2025年03月18日 来源:npj Digital Medicine 12.4

编辑推荐:

  研究人员评估 ChatGPT 临床计算能力,发现其存在局限。引入工具增强后,LLMs 计算性能显著提升,有望变革医疗。

  # 大语言模型在临床计算中的新突破:从困境到希望
在当今数字化医疗蓬勃发展的时代,大语言模型(Large Language Models,LLMs)如 ChatGPT、Med-PaLM 等凭借强大的语言处理能力,在医学领域展现出巨大潜力,能够正确回答美国医学执照考试中 90% 的问题,在临床知识的运用和应用方面表现出色。然而,它们并非完美无缺,“幻觉”(confabulated material,即虚构内容)以及算术错误等问题严重限制了其在临床环境中的安全应用。尤其是在定量科学至关重要的医学计算领域,LLMs 的表现不尽人意,简单的算术运算都可能出错,这成为其融入临床工作流程的一大障碍。
为了突破这一困境,来自斯坦福大学医学院麻醉学、疼痛与围手术期医学系以及加利福尼亚大学旧金山分校医学院外科的研究人员 Alex J. Goodell、Simon N. Chu 等人开展了一项极具意义的研究。该研究成果发表在《npj Digital Medicine》杂志上,为 LLMs 在医学计算中的应用带来了新的曙光。

研究人员主要运用了以下关键技术方法:首先,通过选取 MDCalc 上的计算任务并编写临床案例(vignettes),模拟临床医生与 LLMs 的交互场景。其次,利用不同的大语言模型,如 GPT-4oLLaMa 3.1,结合多种增强策略,包括检索增强生成(retrieval-augmented generation,RAG)、代码解释器(code interpreter)以及自定义的特定任务计算工具 OpenMedCalc,构建了多个实验模型。最后,使用逻辑广义估计方程(GEE)模型对实验数据进行统计分析,评估模型性能。

探索性分析


研究人员首先对商用版 ChatGPT 进行了探索性分析,选取了 48 个常见的临床计算任务,涵盖描述性、预测性、推测性、总结性和治疗性五大类,从 MDCalc 中挑选出相应的计算器,并为每个计算器编写了 5 个虚构的患者案例,共得到 212 个案例。这些案例通过 OpenAI 网页界面提交给 ChatGPT,研究人员将其回答与 MDCalc 的答案进行对比评分。

结果显示,ChatGPT 在部分任务上表现不佳,对于 GRACE、Gupta、PECARN 和 ASCVD 这 4 个任务,它无法给出实质性答案;在计算 CIWA 评分时,只能提供范围;对于 Framingham Score,部分尝试无法计算或出现错误计算。在可评分的 212 个答案中,仅有 66% 正确,不同计算任务的表现差异较大。“预测性” 任务的正确率仅 39%,“描述性” 任务正确率则达 89%。

进一步对错误进行分类发现,分配错误最为常见,占比 38%,例如在 ARISCAT 任务中,模型虽识别出相关标准,但为异常值分配的分数不一致。其次是错误标准,占 16%,模型会虚构或遗漏标准,如评估 Caprini VTE 评分时对 BMI 标准的错误判断。计算错误和公式错误分别占 16% 和 15%,ChatGPT 在简单计算和复杂数学公式应用上都存在问题,如在 HAS-BLED 任务中计算 1+1 出错,以及在编写 Python 代码计算时出现公式错误。此外,还有 14% 的解释错误,如对数值范围的错误解读。

聚焦分析


为了寻求解决方案,研究人员开展了聚焦分析。他们从探索性分析中挑选出准确率最低的 10 个计算任务,使用模板案例生成器为每个任务创建 100 个独特的患者案例及正确答案,共生成 1000 个案例。同时,开发了 10 个 LLM 代理,分别基于 LLaMa 3.1 或 GPT-4o,并接入 5 种不同工具组合:无工具(基础模型)、代码解释器、RAG、代码解释器 + RAG、OpenMedCalc。

实验结果表明,工具的加入显著提升了模型性能。GPT-4o 和 LLaMa 3.1 在所有配置下,使用工具后准确率均有提高。对于 LLaMa 3.1,基础模型正确率仅 11.4%,加入代码解释器提升至 18.3%,RAG 使正确率达到 40.3%,代码解释器和 RAG 结合为 53.5%,而 OpenMedCalc 将正确率提升至 84.0%,与基础模型相比错误率降低了 5.5 倍。对于 GPT-4o,基础模型正确率为 36.1%,加入代码解释器提升至 46.0%,RAG 使其达到 76.8% ,代码解释器和 RAG 结合为 82.3%,OpenMedCalc 则将正确率提升至 95.2%,错误率降低了 13 倍。

在错误分类方面,研究人员对 409 个错误响应进行评估,发现 LLaMa 3.1 和 GPT-4o 的错误原因有所不同。LLaMa 3.1 常出现响应格式错误、编程任务失败等问题,而 GPT-4o 即使接入工具也会因简单计算错误或忽略工具输出导致错误。总体来看,解释错误最为常见,其次是分配错误和公式错误。在使用 RAG 或 OpenMedCalc 的模型中,分配错误明显减少,OpenMedCalc 工具集的使用使得除解释错误外,其他错误类型不再出现。

此外,研究人员还发现,性能越高的模型,错误幅度越小,OpenMedCalc 的错误范围更窄。但在 ARISCAT 任务中,即使是表现最佳的 GPT-4o+OpenMedCalc 组合也仅达到 70% 的准确率,这是由于该任务的特殊性,模型在对手术切口分类时存在困难。

研究结论与讨论


这项研究表明,商用版 ChatGPT 在临床计算任务中并不可靠,但通过添加工具,无论是小型还是大型的 LLMs,其计算性能都能得到显著提升。这一发现为 LLMs 在医学领域的应用提供了新的思路,未来 LLMs 有望通过与工具结合,从电子病历中提取和分析文本数据,为患者提供风险信息和治疗方案,特别是在术前风险评估等领域,有望减轻临床医生的数据输入负担,提供更个性化的风险分析。

然而,目前即使是性能最佳的模型仍存在 5% 的错误率,在实际应用中可能存在风险,且基于 LLM 的计算器在监管方面面临新的挑战。此外,研究也存在一些局限性,如问题措辞的变化可能影响结果、案例的虚构性可能导致偏差、探索性分析使用网页版 ChatGPT 难以复现等。未来的研究可以从多方面展开,例如探索模型在处理缺失或错误数据时的表现、评估错误对临床医疗管理的实际影响、研究多智能体模型在临床计算中的应用等。

总之,这项研究为 LLMs 在医学计算领域的发展指明了方向,虽然距离 LLMs 安全、可靠地融入医疗领域还有一段距离,但通过不断的研究和改进,其在未来医疗变革中仍具有巨大的潜力。

下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究

10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!

欢迎下载Twist《不断变化的CRISPR筛选格局》电子书

单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析

下载《细胞内蛋白质互作分析方法电子书》

相关新闻
    生物通微信公众号
    微信
    新浪微博

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号