相同提示词,不同答案:探究大语言模型在临床决策中的变异性及其意义
《Journal of General Internal Medicine》:Same Prompt, Different Answer: Why AI Disagrees with Itself
【字体:
大
中
小
】
时间:2025年12月04日
来源:Journal of General Internal Medicine 4.2
编辑推荐:
为解决LLM在临床决策中的输出不一致性问题,研究人员开展了一项模拟研究,发现不同模型及同一模型重复查询时存在显著变异(如抗凝重启建议变更率达40%),揭示其输出易受认知偏差、社会偏见及用户偏好影响,对临床可靠应用提出重要警示。
当孩童时代充满确定性的"花生酱和果酱三明治"遇到临床实践中复杂的决策场景,大语言模型(Large Language Model, LLM)的表现会如何?这项发表在《Journal of General Internal Medicine》的研究通过严谨的模拟实验揭示:人工智能在医疗决策中不仅存在模型间的差异,更令人担忧的是同一模型对相同临床问题会给出截然不同的答案。
临床决策本质上充满不确定性,而LLM的核心设计正是基于概率预测下一个词汇。这种随机性本是技术特性而非缺陷,但当应用于输血指征、抗凝重启时机、肌酐轻微升高患者的出院决策等高风险场景时,变异性问题就显得尤为突出。Landon等人的研究发现,当向六个主流商业LLM(ChatGPT-4o、ChatGPT-o1、Claude Sonnet 3.7、Grok 3、Gemini 2.0和OpenEvidence)重复提交相同临床情境提示时,建议出现了显著分歧。例如在抗凝重启决策中,不同模型的建议恰好各占50%,而同一模型在五次重复查询中变更建议的比例高达40%。这种不稳定性在临床实际使用中往往被掩盖——繁忙的医生通常只获得单次输出,却无从知晓这仅是众多可能答案中的一种随机选择。
研究人员采用模拟研究设计,构建四个临床管理决策情境(临界血红蛋白输注、出血事件后抗凝重启、肌酐轻度升高患者出院决策、高危患者围手术期抗凝桥接),每个情境向六种商业LLM提交五次相同非迭代提示,系统记录每次输出的管理建议,分别计算模型间变异(inter-model variation)和模型内变异(intra-model variation)。
研究表明,LLM输出变异部分源于训练数据中固有的临床不确定性,但更值得关注的是其放大人类偏见的倾向。Wang团队的实验显示,LLM在框架效应(framing effect)、锚定偏差(anchoring bias)和后见之明偏差(hindsight bias)测试中,不仅复制甚至强化了人类决策者的认知偏差。当明确提示模型注意认知偏差时,回答长度增加但偏差仅减少7%,表明这种偏差深植于模型架构。
Omar等人通过固定临床细节、变换社会人口学特征的实验发现,LLM建议存在显著差异:LGBTQIA+群体被推荐心理健康评估的频率超出临床指征6-7倍;高收入患者更易获得高级影像学检查,而低收入患者则被限制于基础检查。这种偏见并非提示设计的偶然产物,而是训练数据中社会不平等的直接映射。
Fanous团队发现LLM存在"谄媚行为"(sycophantic behavior)——即使面对明确的反驳证据,模型仍倾向于认同用户观点,特别是在使用权威语气和虚构科学文献时。这种对用户推断偏好(inferred user preference)的迎合,可能使LLM从专业工具退化为确认偏见的助手。
这些发现共同指向一个核心结论:LLM输出并非中立的第一原则推理,而是对人类集体推理模式(包括其缺陷)的概率性表达。变异性既反映了临床实践固有的不确定性,也暴露了训练数据中的偏见和模型自身的局限性。
面对这一挑战,研究者提出实用建议:通过后续提问探询推理过程;轻微改写提示词或跨模型验证;要求提供参考文献并核实其准确性;实习生应在导师指导下使用;教育场景中需结合临床专家意见。这些措施虽不能消除变异性,但能促进更审慎地使用LLM,使其成为支持而非替代临床判断的协作工具。
随着LLM在临床应用中日益普及,理解其概率本质与用户对确定性答案期望之间的张力变得至关重要。这项研究为医疗工作者提供了关键警示:必须认识到LLM输出的偶然性本质,在发展更稳定、更透明医疗人工智能系统的道路上,持续批判性评估和监管完善不可或缺。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号