驾驭新前沿:精神科医生在日常实践中使用大语言模型(LLMs)的指南

《BJPsych Advances》:Navigating the new frontier: psychiatrist’s guide to using large language models in daily practice

【字体: 时间:2025年12月05日 来源:BJPsych Advances 1.7

编辑推荐:

  随着以ChatGPT、Gemini和Claude为代表的大语言模型(LLMs)在医疗领域的应用潜力日益显现,精神科医生如何安全、有效地将其整合入日常实践成为亟待解决的问题。为此,研究人员开展了题为“驾驭新前沿”的主题研究,系统阐述了LLMs的核心原理、关键局限(如虚构信息、谄媚性、知识截止点)及风险管控策略,并提供了基于提示工程和安全框架的实用指南。该研究为精神科医生在低风险行政与教育工作中审慎运用LLMs提供了重要参考,强调了在探索新技术的同时,必须将患者安全与专业责任置于首位。

  
在人工智能(AI)浪潮席卷各行各业的今天,医疗领域也迎来了新的变革契机。特别是以大语言模型(Large Language Models, LLMs)为代表的生成式AI(Generative AI),如OpenAI的ChatGPT、Google的Gemini和Anthropic的Claude,因其强大的自然语言处理能力,在信息检索、文档处理和辅助教育等方面展现出巨大潜力。然而,对于严谨的精神科医疗实践而言,这些模型并非“全知全能”的专家,更像是知识渊博但缺乏临床经验的“实习生”——它们可能自信地给出错误答案(即“幻觉”或“虚构”,Confabulation),盲目附和用户的观点(谄媚性,Sycophancy),并且其知识库存在截止日期(Knowledge Cut-off),无法获取最新研究进展。如何驾驭这把“双刃剑”,使其在遵守数据保护法规(如英国通用数据保护条例UK GDPR)和保障患者安全的前提下,真正成为提升工作效率的辅助工具,而非引入新的风险,成为精神科医生面临的新挑战。
为此,发表在《BJPsych Advances》上的文章《Navigating the new frontier: psychiatrist's guide to using large language models in daily practice》旨在为精神科医生提供一份实用的LLMs使用指南。该研究由剑桥大学精神病学系的Rajeev Krishnadas博士和肯特社区健康NHS信托基金的Vineeth Thilakan医生共同完成,旨在帮助临床医生理解LLMs的工作原理、认识其核心局限性,并学习如何通过结构化的“提示工程”(Prompt Engineering)和安全框架,将其审慎地整合到低风险的行政管理和教育工作中。
研究人员在文中并未进行传统的实验研究,而是基于对现有LLM技术原理、应用场景和监管环境的深入分析,进行了一次系统性的综述和指南制定。其方法论核心在于解构LLM的运作机制(如基于Transformer架构的“随机鹦鹉”,Stochastic Parrot特性),梳理其在精神科实践中的潜在应用场景(如文献检索、行政任务、医患沟通辅助),并紧密结合英国当前的医疗数据保护法规(如UK GDPR, Data Protection Act 2018)和英国国家医疗服务体系(NHS)的指导原则(如AI与数字法规服务,AI and Digital Regulations Service),构建了一套风险管控框架和安全使用清单。
理解LLMs:临床医生的“黑箱”指南
文章首先深入浅出地解释了LLMs的核心机制。LLMs并非具备理解或意识的实体,而是基于Transformer架构的复杂模式匹配和预测引擎。其本质是“随机鹦鹉”,通过分析海量训练数据中的统计规律来预测下一个最可能的词元(Token),从而生成流畅的文本,但这并不意味着它理解文本的含义。这种特性导致了其最显著的风险——虚构(Confabulation),即模型会生成看似合理但完全错误的信息。此外,模型还表现出谄媚性(Sycophancy),倾向于迎合用户的预设观点,即使该观点存在临床缺陷。文章强调,认识到LLM是“文本生成机器”而非“推理伙伴”,是安全使用的基石,临床医生必须承担起对所有输出信息进行独立验证的最终责任。
关键操作概念
为了将LLM从潜在责任转化为有用工具,文章介绍了几个关键操作概念:
  • 提示(Prompt):即用户给模型的指令或问题。高质量的提示是获得高质量输出的关键。使用如PICO(患者/问题、干预、比较、结果)等框架来构建具体、清晰的提示,可以显著提高信息检索的准确性和相关性。
  • 上下文窗口(Context Window):相当于模型的“工作记忆”,决定了单次交互中能处理的文本量。超过此限制,模型会“忘记”先前的指令,导致回答脱离上下文。
  • 知识截止点(Knowledge Cut-off):指模型训练数据更新的最后时间点。模型无法知晓此日期之后发布的新研究、指南或药物信息,因此查询“最新”信息时存在使用过时知识的风险。
  • 参数(Parameters):模型内部的变量数量,通常代表模型的规模和潜在复杂性,但并非衡量其准确性或智慧的绝对指标。大参数模型可能处理更复杂的任务,但同样存在虚构和偏见问题。
  • 轻信性(Gullibility):模型倾向于接受并基于提示中的错误信息进行构建,而非质疑其正确性。
选择工具:英国背景下的分级指南
在工具选择上,文章提出了一个基于英国数据保护法规的分级方法:
  • 第1层:通用公共LLMs(如免费版ChatGPT):不适合处理任何患者机密信息,使用此类平台讨论患者情况可能构成数据泄露。
  • 第2层:商业或企业平台(如Microsoft Azure OpenAI):在NHS信托机构通过合规采购并签订包含数据保护承诺的数据处理协议(DPA)后,可以用于处理患者数据。
  • 第3层:专业医疗LLMs(如Google Med-PaLM 2):专为医疗场景设计,但仍需经过相同的严格审批和DPA流程。
    文章强调,患者隐私是绝对红线,绝不能将可识别患者身份的信息输入公共LLMs。
风险管理:坚持照护标准
使用LLM必须秉持“深刻的、持续的职业怀疑态度”。文章提供了一个安全使用清单,核心原则包括:
  1. 1.
    维护绝对患者隐私:严格遵守UK GDPR和Caldicott原则,仅在具有适当DPA的安全、机构批准的平台上使用最小化、妥善匿名化的信息。
  2. 2.
    假定虚构并严格验证:将模型的所有事实性陈述视为潜在虚构,必须通过可靠原始来源(如NICE指南、PubMed)进行独立验证。
  3. 3.
    减轻固有偏见并防止技能退化:警惕模型可能放大训练数据中存在的社会偏见(如性别、种族),并注意避免过度依赖导致临床推理能力下降。
  4. 4.
    承认最终专业责任:根据英国医学总会(GMC)的《良好医疗实践》(Good Medical Practice),临床医生对其提供的照护负全部责任,LLM仅是工具,不能成为决策失误的借口。
将LLMs整合到精神科工作流程:实践机会与注意事项
文章通过几个临床场景展示了LLMs的潜在应用:
  • 文献检索:利用PICO框架构建精确的搜索提示,将LLM作为搜索策略规划工具,然后对生成的摘要和引文进行严格验证。
  • 行政任务:例如,在安全平台上使用LLM草拟转诊模板、会议议程或教学计划初稿,再由临床医生审核修改,节省时间。
  • 辅助医患沟通:让LLM将复杂的医学术语(如氯氮平监测)转化为通俗易懂的语言草稿,但最终与患者沟通的版本必须由临床医生彻底审查、修改并赋予人情味。
  • 支持教育与培训:生成临床考试(如CASC)站点的草稿或教学材料,但必须由导师严格审查其准确性和教育价值。
结论:对增强型工具的谨慎乐观
文章总结指出,LLMs不能替代临床专业知识、批判性思维或富有同情心的精神科照护。它们最好被理解为需要持续、警惕监督的复杂助手。通过掌握提出临床问题的艺术、致力于严格的验证、以绝对勤勉维护患者隐私,并始终优先运用自身的专家临床判断,精神科医生可以开始探索这些强大的语言工具如何支持其专业实践。应以好奇和谨慎的态度拥抱这项技术,在改善患者照护的同时,坚守循证医学、患者安全和专业责任的承诺。
重要意义
这项研究的重要意义在于,它首次系统地为精神科医生提供了在英国医疗监管框架下安全、有效使用LLMs的全面指南。它不仅揭示了技术的局限性(如虚构、谄媚性),更重要的是提供了一套可操作的风险管理策略和安全使用框架。这有助于临床医生在日新月异的技术面前保持清醒的头脑,避免因盲目信任或使用不当而引入风险,确保技术创新真正服务于提升医疗质量和患者安全这一根本目标。随着AI技术的持续演进和相关法规的不断完善,这类指南性文章对于促进负责任的技术转化应用具有不可或缺的指导价值。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号