综述:作为执业神经外科医生,安全有效地使用大语言模型(LLMs)

【字体: 时间:2025年04月10日 来源:Acta Neurochirurgica 1.9

编辑推荐:

  这篇综述聚焦神经外科领域大语言模型(LLMs)的应用。探讨其在临床实践和教育中的多种用途,分析模型选择要点,强调保障患者安全需遵循的隐私法规及机构支持措施,为神经外科医生合理应用 LLMs 提供全面指引。

  

大语言模型(LLMs)在神经外科的应用探索

大语言模型(Large Language Models,LLMs)作为人工智能的前沿技术,正逐步渗透到医学领域,尤其是神经外科,为该领域的实践和教育带来新的机遇与挑战。LLMs 能生成流畅的人类语言,在处理神经外科知识库方面展现出一定能力,但其在临床工作中的角色仍处于探索阶段。

一、LLMs 在神经外科的应用场景

(一)不涉及受保护健康信息(PHI)的应用

在医疗场景中,一些 “防火墙外” 的应用不涉及 PHI 传输,自然符合当地隐私法规,如美国《健康保险流通与责任法案》(Health Insurance Portability and Accountability Act,HIPAA)。
  1. 优化患者资料可读性:LLMs 可简化面向患者的文本,提高材料的可读性、理解度和记忆度。像 Mirza 等人利用 ChatGPT 简化知情同意书,使其 Kincaid 可读性分数从大学生水平降至中学生水平;Swisher 等人也证实 LLMs 能提升患者宣传册等材料的可读性。
  2. 助力医学教育:LLMs 在医学教育方面潜力巨大,不仅能掌握基本神经外科知识,还能向新手解释概念、生成练习题。众多基准研究表明,ChatGPT 等能通过美国医学执照考试(United States Medical Licensing Exam,USMLE),达到三年级医学生水平,为医学教育提供了新的教学辅助手段。
  3. 科研与出版的限制:目前,美国国立卫生研究院(National Institutes of Health,NIH)禁止在资助申请同行评审中使用 LLMs。同时,由于 LLMs 生成文本存在 “幻觉” 和易产生欺诈性文章的风险,不同期刊对在稿件撰写中使用 LLMs 态度不一,医生在科研交流中使用时需谨慎了解相关政策。

(二)涉及 PHI 的应用

“防火墙内” 的应用依赖 PHI,虽增强了 LLMs 的功能,但面临更严格的监管和隐私风险。
  1. 手术计费自动化:部分研究探索用 LLMs 自动查找手术操作术语(Current Procedural Terminology,CPT)代码,如 O’Malley 等人评估多种 LLMs 查找神经外科手术 CPT 代码的准确率在 20% - 75%;Roy 等人研究发现 AtlasGPT 和 ChatGPT 4.0 从手术记录中推导 CPT 代码,部分准确率较高,但完全准确率仅 35% 左右,仍需改进。
  2. 临床文本处理:LLMs 可用于处理临床文本,如总结电子健康记录(Electronic Health Record,EHR)、生成新笔记等。Van Veen 等人用 GPT-3.5 整合 EHR 关键信息,生成的摘要 45% 与医学专家相当,36% 超越专家;Dubinski 等人发现 ChatGPT 生成神经外科患者出院小结的时间大幅缩短,准确率达 83%;Ali 等人训练 GPT-4 按模板生成手术笔记,与医生撰写的笔记准确性无显著差异。
  3. 患者数据挖掘与结构化:LLMs 可从 EHR 中挖掘和结构化患者数据用于研究。Truhn 等人用 GPT-4 从非结构化病理报告中提取弥漫性成人型胶质瘤数据,错误率仅 1.0 ± 0.4%;Wang 等人利用生物医学语言模型 BRLM 分类基因组变异,构建疾病相关网络,有助于精准治疗。

二、神经外科 LLMs 模型选择策略

选择合适的 LLM 用于神经外科任务,需综合评估其准确性、可靠性、可解释性和合规性,同时要考虑任务特性。

(一)开源与闭源模型

LLMs 分为开源和闭源模型。开源模型如 Meta 的 Llama 系列和 Hugging Face 平台上的众多模型,其权重公开,可在本地设备运行,利于保护敏感数据,但本地部署需大量前期资金投入构建计算基础设施。闭源模型如 OpenAI 的 ChatGPT 和 Google 的 Gemini,不公开模型参数,通常通过云服务使用,云服务可扩展性强,但使用前需评估是否符合健康数据隐私法规,部分服务如微软 Azure OpenAI Service 可通过商业伙伴协议(Business Associate Agreements,BAAs)合规使用。

(二)上下文窗口

上下文窗口指 LLM 在一次请求中能处理的文本量。现代长上下文 LLMs 可处理超 100,000 个令牌,有助于全面分析患者病史,但长窗口模型计算成本高,还可能在处理大量输入时难以定位关键信息,因此需权衡确定满足用户查询的最小上下文长度。

(三)多模态

多模态 AI 使 LLMs 能处理文本和视觉数据,如 GPT-4-Vision 可结合影像和临床笔记辅助诊断。不过,当前视觉 - 语言模型(Vision - Language Models,VLMs)在生成输出时更依赖文本输入,且在纯文本任务上表现不如 LLMs,所以建议仅在必要时使用 VLMs 处理影像数据,待其性能提升后再广泛应用。

(四)检索增强生成(RAG)

LLMs 更新知识困难,RAG 技术可基于用户查询从自建数据库检索相关文档,提高 LLM 输出的准确性和可靠性。神经外科领域中,AtlasGPT 是支持 RAG 的闭源模型,LangChain 是用于创建自定义 RAG 框架的开源框架,可与多种 LLMs 兼容。

(五)神经外科基准测试性能

许多研究对 LLMs 在标准化神经外科问题和医学执照考试中的表现进行了测试。在多项研究中,GPT-4 在神经外科书面考试中的表现优于 GPT-3.5 和 Bard,部分模型在国际神经外科考试中也取得不错成绩。但在非常规选择题评估中,如改编的图灵测试,ChatGPT 表现不如多数人类医生,甚至可能给出危险的错误回答。

三、保障患者安全的监测与合规措施

在神经外科应用 LLMs 时,保障患者安全至关重要,需从隐私数据合规、机构支持和应对模型缺陷等方面着手。

(一)隐私 / 数据安全合规

医疗 AI 系统的隐私和数据安全合规受复杂法规框架约束,不同地区有所差异。美国需遵循 FDA 和 HIPAA 规定,2024 年 12 月美国卫生与公众服务部(Department of Health and Human Services,HHS)提议更新 HIPAA 隐私规则和安全规则以加强网络安全和患者数据保护,许多更新与欧盟《通用数据保护条例》(General Data Protection Regulation,GDPR)接轨。合规过程中有诸多细节需注意,如政策中 “强制” 和 “强烈鼓励” 措辞的区别;GDPR 要求告知患者健康数据在 AI 中的使用并获其同意,遵循数据最小化原则,采用去识别化策略,可通过专家判定法或安全港法去除特定标识符。加密也是关键,GDPR 倡导对患者数据在静态和传输时加密,采用先进加密技术确保数据安全处理。目前,美国 HIPAA 在数据保护范围上不如 GDPR 全面,且美国各州患者数据隐私政策差异大,部分州缺乏相关法律,法规完善仍面临挑战。

(二)机构特定支持和机构政策

机构层面的支持对 LLM 部署意义重大。机构可提供符合 HIPAA 标准的 LLM 实例,配备技术支持人员,方便医生和研究人员使用。同时,机构审查委员会(Institutional Review Boards,IRBs)为研究应用提供伦理指导,保护弱势群体,还可促进与社区的沟通。此外,机构在知识产权保护和商业化方面也发挥重要作用,医生需关注就业合同,借助法律建议明确知识产权归属,机构的 “孵化器” 或 “加速器” 可助力创新成果转化。

(三)处理 “幻觉” 和遗漏问题

当前 LLMs 易产生错误陈述(“幻觉”)或遗漏关键信息(“遗漏”),这源于训练数据的特性和模型的概率本质。为降低风险,可采用技术手段,如通过 RAG 整合使回答基于事实,输出时提供置信度度量辅助事实核查;同时,限制回答长度、优化提示结构也有助于减少错误。在临床决策中,必须有人工监督 LLM 输出,确保患者安全。

四、总结

LLMs 为神经外科实践和教育带来了令人期待的发展机遇,但在临床应用中,需要谨慎应对技术、伦理和监管方面的挑战。神经外科医生应系统地考量模型选择、部署策略和合规要求,充分发挥 LLMs 的优势,降低潜在风险。随着该领域的持续发展,持续的研究和机构间的合作对确保 LLMs 在神经外科护理中的安全有效应用至关重要,有望推动神经外科领域迈向新的发展阶段。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号