开源 AI 模型能否像 GPT-4 一样精准诊断复杂病例?—— 探究 AI 在医学诊断领域的新突破

【字体: 时间:2025年04月07日 来源:JAMA 63.1

编辑推荐:

  本文聚焦人工智能(AI)与医学的交叉领域,哈佛医学院研究人员对比了开源大语言模型(LLM)Llama 3.1 和闭源模型 GPT-4 在复杂医学病例诊断中的表现,发现二者性能相当,为临床使用开源模型提供了依据,值得一读。

  ### 研究背景与目的
在人工智能快速发展的当下,其与医学的交叉领域备受关注。哈佛医学院的研究人员致力于探究开源大语言模型(LLM)在复杂医学病例诊断中的能力,将其与闭源模型进行对比。此前,人们普遍认为闭源模型,如 OpenAI 的 ChatGPT,在众多应用中占据主导地位,早期研究显示部分开源模型表现欠佳。但随着 Meta 的 Llama 系列等开源模型在非医学任务中的性能提升,研究人员希望进一步探索其在医学诊断方面的潜力。他们选取马萨诸塞州综合医院(Massachusetts General Hospital)病例记录中的复杂病例,对比 Meta 的 Llama 3.1(4050 亿参数模型)和 OpenAI 的 GPT-4 在生成鉴别诊断方面的表现,旨在评估开源模型在医学诊断中的实际价值。

开源模型与闭源模型的差异


开源模型和闭源模型在使用方式和数据处理上存在显著差异。闭源模型,以 ChatGPT 为例,用户需通过特定接口使用,如登录 ChatGPT 网站或调用其应用程序编程接口(API),但用户无法获取模型的权重,数据需发送至外部平台进行处理并返回结果。而开源模型的权重是公开的,用户可以下载到本地设备,甚至在医院防火墙内的本地服务器上运行。对于医疗应用而言,这意味着患者数据查询可以在本地进行,无需将数据发送到外部,大大提高了数据的安全性和隐私性,同时也便于对模型进行本地微调、定制,更符合医院信息技术(IT)管理和数据隐私保护的要求。

研究方法与过程


研究人员借鉴了之前《美国医学会杂志》(JAMA)上一项有影响力的研究方法,选取了马萨诸塞州综合医院病例记录中具有挑战性的病例,这些病例来源于《新英格兰医学杂志》(New England Journal of Medicine)发表的临床病理会议(CPCs)病例。将 Llama 3.1 和 GPT-4 分别用于这些病例的鉴别诊断,通过分析模型给出的诊断结果,对比二者在复杂病例诊断中的表现。

研究结果


令人惊讶的是,研究发现开源的 Llama 模型在生成鉴别诊断方面与闭源的 GPT-4 表现相当。在约三分之二的病例中,两个模型都能在鉴别诊断中纳入正确诊断,且约五分之二的情况下,它们会将正确诊断选为最可能的诊断。这一结果表明,开源模型在复杂医学诊断任务上已经取得了显著进展,缩小了与一直以来被视为行业标杆的 GPT-4 之间的差距。

研究意义与展望


从研究意义来看,该研究为开源模型在医学领域的应用提供了有力支持。开源模型在可及性、定制性和数据隐私方面具有潜在优势,这使得它们在临床实践中具有广阔的应用前景。例如,医院可以利用本地的电子健康记录(EHRs)数据,在本地运行开源模型进行实时推理,为医生提供第二诊断意见。

展望未来,虽然目前大多数医院在部署大型开源模型时仍面临技术挑战,如运行模型所需的图形处理单元(GPUs)等硬件资源不足,但随着技术的不断发展,模型效率逐渐提高,体积也在不断缩小,未来有望在个人电脑上运行。同时,研究人员也认识到,目前对于不同模型适用于哪些具体医学任务的研究还处于起步阶段。需要进一步探索如何让模型更好地匹配医生的实际工作需求,例如在信息提取、与患者安全沟通等方面的应用。此外,尽管模型在医学诊断中具有一定的辅助作用,但由于模型存在 “幻觉”(即自信地编造信息、出现错误)等问题,仍需人类医生的专业判断和监督,以确保诊断结果的准确性和安全性。

总体而言,这项研究为人工智能在医学诊断领域的发展开辟了新的道路,未来还需要更多的研究来充分挖掘开源模型的潜力,推动其在临床实践中的广泛应用,从而更好地服务于医疗健康事业。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号