重症医学领域大语言模型 “大展身手”:高准确率背后藏着哪些惊喜与隐忧?

【字体: 时间:2025年02月11日 来源:Critical Care 8.8

编辑推荐:

  为解决 LLMs 在重症医学领域表现缺乏评估的问题,研究人员开展对 5 种 LLMs 在重症医学问题答题表现的研究,发现其准确率高但有错误答案。该研究为 LLMs 在重症医学的应用提供参考,值得科研读者一读。

  
在当今科技飞速发展的时代,大语言模型(LLMs)就像一股新兴的力量,逐渐渗透到各个领域,医疗行业也不例外。它在医疗行政支持方面展现出了独特的优势,比如能够高效地总结临床笔记,还能为患者的常见问题提供初步解答,大大减轻了医护人员的工作负担。在临床决策辅助上,LLMs 也有着巨大的潜力,有望成为医生们的得力助手。

然而,医疗领域的每一个决策都关乎着患者的生命健康,容不得半点马虎。尤其是在重症医学这个特殊的领域,对专业性和准确性的要求极高。这里的决策往往需要医生在短时间内综合考虑患者多个器官系统的复杂信息,迅速做出判断。而目前,虽然 LLMs 在医疗领域有诸多探索,但针对其在重症医学方面表现的研究却少之又少。这就好比在一片未知的森林里,虽然知道前方可能藏着宝藏,但却没有清晰的地图指引方向。

为了填补这一空白,相关研究人员展开了深入的探索。他们的研究成果发表在了相关期刊上(《论文原文标题》)。通过一系列严谨的研究,他们发现,参与测试的所有 LLMs 在回答重症医学问题时,都有着较高的准确率和一致性。而且,在一场模拟欧洲重症医学考试的实践测试中,五个 LLMs 里有四个都比人类医生表现得更出色,这无疑显示出这些模型在重症医学领域有着巨大的应用潜力。特别是 GPT - 4o 模型,它在准确性和一致性方面都远超其他模型,成绩相当亮眼。不过,它的运行成本也是最高的,这意味着它在运行过程中可能需要消耗大量的能源。另外,研究还发现,尽管这些模型潜力巨大,但所有模型都存在给出错误答案的情况,这就给它们在临床中的实际应用敲响了警钟。

这项研究对于推动 LLMs 在医疗领域,尤其是重症医学方面的应用有着重要的意义。它就像一盏明灯,为后续的研究和应用指明了方向。让我们知道了 LLMs 虽然有潜力,但也存在问题,需要更加谨慎地对待。

那么,研究人员是如何开展这项研究的呢?他们主要采用了以下几种关键技术方法:首先,精心挑选了 1181 道来自gotheextramile.com数据库(GETM)的重症医学选择题(MCQs)作为研究的 “素材”。这些题目可不是一般的题目,它们是按照欧洲重症医学文凭(EDIC)考试的水平精心设计的,涵盖了重症医学的各个领域。其次,他们选择了五位 “参赛选手”,也就是五个不同的 LLMs,分别是 GPT - 4o、GPT - 4o - mini、GPT - 3.5 - turbo、Mistral Large 2407 和 Llama 3.1 70B。然后,为了让模型 “公平竞争”,他们通过微软 Azure OpenAI 平台访问这些模型,并把模型输出的随机程度(温度设置)统一调整为 0。在提问环节,研究人员也下足了功夫,他们邀请医学提示工程专家团队反复设计提示词,而且采用零样本提示的方式,就是不让模型提前 “预习” 医学数据集或者了解示例问题,直接测试它们原本的重症医学知识储备。最后,为了全面评估模型的表现,他们从多个角度进行衡量,包括整体准确率、一致性、特定领域的表现,还把成本作为计算资源或能源消耗的一个参考指标 。

下面来详细看看研究结果:

  1. 准确率大比拼:研究人员经过一番紧张的 “考试” 和统计,发现 GPT - 4o 模型就像学霸一样,在众多模型中脱颖而出,答对了 93.3% 的题目,成绩最好。紧随其后的是 Llama 3.1 70B,答对了 87.5%;Mistral Large 2407 也不甘示弱,答对了 87.9%;GPT - 4o - mini 答对了 83.0%;而 GPT - 3.5 - turbo 的准确率相对较低,只有 72.7%。和随机猜测(只有 41.5% 的准确率)相比,这些模型的表现都要优秀得多,这就像专业选手和新手的差距一样明显。
  2. 一致性大考验:除了准确率,模型的一致性也很重要。想象一下,如果一个模型每次回答同一个问题的答案都不一样,那可太让人头疼了。研究人员通过重复给模型出 100 道随机挑选的题目,来测试它们的一致性。结果发现,Mistral Large 2407 和 GPT - 4o 表现得非常稳定,一致性得分分别高达 100% 和 96.0%,几乎每次回答都一样。GPT - 4o - mini 和 Llama 3.1 70B 也不错,得分分别是 93.0% 和 92.0%。而 GPT - 3.5 - turbo 的一致性相对较差,只有 74.0%。而且,研究人员还进一步分析了这些一致的回答是对还是错。结果发现,GPT - 4o 不仅准确率高,在一致性正确回答方面的得分也最高,达到了 88.5%;而 GPT - 3.5 - turbo 在这方面表现就不太好,只有 67.6%。
  3. 各领域表现剖析:不同的重症医学领域就像不同的学科科目,模型在这些领域的表现也有所不同。研究人员把题目按照不同的重症医学子领域进行分类,然后计算每个模型在各个领域的准确率。结果发现,无论在哪个子领域,GPT - 4o 的得分都是最高的。而且,所有模型在各个子领域的表现都比较稳定,得分的标准差都比较小,这说明它们在不同的重症医学知识领域都有着比较均衡的掌握。不过,不同模型得分最低的领域并不相同,这也说明每个模型在知识掌握上都有自己的 “小短板”。
  4. 成本与效率权衡:运行这些模型是需要 “花钱” 的,这里的 “钱” 可以看作是计算资源或者能源的消耗。研究人员通过微软 Azure OpenAI 平台计算了每个模型运行 1181 道题目的成本。结果发现,GPT - 4o - mini 是最 “省钱” 的,只需要花费 0.14 欧元;而 GPT - 4o 则是最 “贵” 的,要花 3.60 欧元,是 GPT - 4o - mini 的 25 倍多。不过,GPT - 4o - mini 的准确率比 GPT - 4o 低了 10.3%。综合考虑成本和性能,GPT - 4o - mini 在效率方面表现最佳,就像性价比很高的商品一样。
  5. 与人类医生的较量:在这场 “人机大战” 中,研究人员还让模型和人类医生进行了一场较量。他们挑选了 350 名准备参加 EDIC 考试的医生,让他们和模型一起做一套 77 道题的模拟 EDIC 实践考试。结果发现,所有的 LLMs 都比随机猜测的成绩好很多,而且除了 GPT - 3.5 - turbo,其他 LLMs 的成绩都显著超过了人类医生。GPT - 3.5 - turbo 的成绩和人类医生相比,并没有明显的优势。

研究人员在研究结论和讨论部分指出,这次研究是一次非常有意义的探索,首次对多种 LLMs 在重症医学领域的表现进行了全面评估。虽然研究发现这些模型在很多方面表现出色,有着巨大的应用潜力,但也存在一些不容忽视的问题。比如,所有模型都有给出错误答案的情况,这在重症医学这种高风险的领域是非常危险的。而且,研究也存在一些局限性,比如只测试了选择题,没有涉及基于图像的问题,也没有深入探究模型决策背后的推理过程。另外,还存在数据泄露的潜在风险,而且参与测试的人类医生可能没有资深重症医学专家那么丰富的经验。

不过,这些问题也为未来的研究指明了方向。后续的研究需要更加深入地评估 LLMs 的临床推理能力,寻找提高模型安全性的方法,同时也要在能源消耗和模型性能之间找到更好的平衡点。只有这样,才能让 LLMs 更加安全、可靠地应用到临床实践中,真正成为医生的好帮手,为患者带来更好的医疗服务。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号