大语言模型用于医疗决策支持需新监管范式:突破现有困境,保障医疗安全

【字体: 时间:2025年03月09日 来源:npj Digital Medicine 12.4

编辑推荐:

  研究人员评估大语言模型(LLMs)是否会产生类似医疗器械的输出,发现现有提示方式不足,需新监管范式。

  在当今数字化飞速发展的时代,医疗领域也迎来了新的变革。大语言模型(LLMs)凭借其强大的语言处理能力和广泛的知识储备,在临床决策支持(CDS)方面展现出了巨大的潜力。想象一下,医生在面对复杂病情时,能借助这些模型快速获取全面的信息,为诊断和治疗提供有力的参考,这听起来是不是十分诱人?然而,现实却并非如此简单。
目前,虽然 LLMs 在医疗领域的应用呼声渐高,但还没有任何一款被美国食品药品监督管理局(FDA)批准作为临床决策支持设备使用。同时,LLMs 的一些特性也给监管带来了难题。一方面,它能提供类似人类的文本回复,在医疗场景中可用于辅助决策;但另一方面,传统的医疗器械监管框架是几十年前建立的,难以适应这种新兴的生成式人工智能系统。而且,多数 LLMs 声明不用于医疗建议,却仍有不少研究和临床实践中使用它来辅助医疗决策,这使得 LLMs 的监管处于一种模糊地带。

为了解决这些问题,来自美国宾夕法尼亚大学佩雷尔曼医学院、南加州大学等机构的研究人员 Gary E. Weissman、Toni Mankowitz 和 Genevieve P. Kanter 等开展了一项研究,该研究成果发表在《npj Digital Medicine》上。研究旨在评估 LLMs 是否会产生类似医疗器械的临床决策支持输出,并探索在何种情况下会出现这种情况,进而为 LLMs 在医疗领域的合理监管提供依据。

研究人员采用了多种场景测试的方法。他们选择了 GPT-4(OpenAI, Inc.,2024 年 5 月和 10 月版本)和 Llama-3(Meta Inc.,2024 年 5 月和 10 月版本)这两款流行的 LLMs 进行测试。针对心脏病学、家庭医学、免疫学、神经病学和精神病学这五个临床场景,分别设置了预防性护理建议、时间紧迫的紧急情况以及特定的 “越狱” 提示等测试环节。在每个场景测试前,先给模型提供单轮提示,明确非医疗器械决策支持的标准,要求模型按此标准回复;之后部分场景还使用了包含 48 个示例的多轮提示。由于 LLMs 的回复具有随机性,每个测试请求都重复 5 次,并记录所有回复45

研究结果表明:在预防性护理建议方面,所有 LLMs 最终文本输出都符合非医疗器械标准。但在时间紧迫的紧急情况决策支持请求中,100% 的 GPT-4 和 52% 的 Llama-3 回复符合类似医疗器械的决策支持,且多轮提示下总体类似医疗器械建议的比例不变,但不同临床场景有所差异,这些回复包括针对临床紧急情况给出具体诊断和治疗建议。当使用 “绝望实习生” 越狱提示时,GPT-4 和 Llama-3 在单轮和多轮提示下,分别有较高比例的回复包含类似医疗器械的建议。而且所有模型给出的建议在临床上都是合适的,部分适用于训练有素的临床医生,部分符合非临床旁观者的护理标准123

研究结论和讨论部分指出,基于 FDA 指导文件文本的单轮和多轮提示,都不足以使 LLMs 的输出与非医疗器械决策支持保持一致。这意味着现有的监管方式无法有效约束 LLMs 在医疗决策支持中的输出。因此,需要新的监管范式和技术,以平衡生成式人工智能系统在医疗领域的创新、安全性和临床有效性。例如,可能需要新的方法来更好地使 LLMs 的输出与预期的决策支持类型保持一致;需要新的授权途径,不再局限于特定的适应症;还需要完善针对临床医生和非临床旁观者的 CDSS 标准。

这项研究意义重大,它为 LLMs 在医疗领域的监管提供了关键依据,有助于推动建立更合理的监管体系,保障医疗安全,让 LLMs 更好地服务于医疗行业,在创新与安全之间找到平衡,为未来医疗领域的智能化发展奠定基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号