
-
生物通官微
陪你抓住生命科技
跳动的脉搏
谁知道在医学领域里“好”到底是什么样的呢?
《BMJ Digital Health & AI》:Who knows what good looks like in medicine?
【字体: 大 中 小 】 时间:2025年12月05日 来源:BMJ Digital Health & AI
编辑推荐:
临床生成人工智能(GenAI)易受现有医疗记录系统缺陷影响,需通过医生参与制定临床标准规格来引导AI学习最佳实践而非平均表现。
这名23岁的患者因右下腹疼痛来到急诊室,几分钟内就得到了实验室检测结果。CT扫描设备立即可以使用。一小时内,外科医生通过腹腔镜手术切除了他的阑尾。第二天他就可以回家了,一周后便恢复了正常生活。
大多数临床医生都能描述这种理想状态。但在日常实践中,我们的操作往往与理想状态存在很大差距(偏离了三个标准差)。正是这种理想与现实之间的差距,对临床生成式人工智能(GenAI)的发展构成了严重威胁。
如果我们在平均数据而非理想数据的基础上训练AI系统——而这些数据受到计费压力、时间限制和系统惯性的影响——那么当AI模仿出我们的平庸表现时,我们就不应感到意外。虽然很多人担心AI可能出现“幻觉”(即做出错误的判断),但更大的问题在于有缺陷的规范被系统性地复制和传播。简单来说:如果AI是从我们的病历中学习的,它就会继承我们的捷径;如果它从我们的诊疗规范中学习,它就有机会实现我们的理想目标。
许多人建议用电子健康记录(EHR)的数据来训练GenAI,纽约大学(NYU)的同事也证明,用临床病历训练大型语言模型(LLMs)确实具有显著的预测能力。1在临床决策支持领域也遇到了类似的问题。2但这些模型只是学习当前医疗系统中的行为模式,并没有理解在更理想的医疗体系中应该怎么做。这些记录反映了实际发生的情况,而不一定是医疗人员原本的意图。
实际上,病历的格式受到报销政策、法规要求、责任归属和工作流程的影响。十年来,病历的长度增加了60%,其中超过一半的内容都是重复或模板化的。3>因此,AI从这些数据中学习到的只是医疗流程的表象,而非真正的临床思维。
如果我们不基于理想标准,而只是根据现实情况来制定规范,那么AI自然会复制我们的平庸表现。虽然很多人担心AI可能出现错误判断,但更根本的问题在于有缺陷的医疗规范被系统性地复制。简而言之:如果AI模仿的是我们的病历,它就会延续我们的错误做法;如果它模仿的是我们的诊疗规范,它才有可能实现我们的理想目标。
有人建议用电子健康记录的数据来训练GenAI,纽约大学的学者也证明了这一点。1>然而,这些模型只是预测当前医疗系统中的行为,而非更理想状态下的行为。这些记录反映的是实际情况,而非医疗人员的真实意图。
在现实中,病历的编写受到报销政策、法规、责任归属和工作流程的影响。十年间,病历的长度增加了60%,其中超过一半的内容都是重复或模板化的。3>因此,AI从这些数据中学习到的只是医疗流程的表象,而非真正的临床思维。
如果我们不基于理想标准来制定规范,AI就会复制我们的平庸表现。虽然我们不希望看到糟糕的医疗结果,但我们也不能满足于平庸的医疗水平。如果AI继续从那些追求效率的系统中学习,那么它只会复制这些缺点。问题在于:我们无法一方面要求医生写更详细的病历来训练AI,另一方面又希望减少医生的工作负担。
解决办法不是要求医生写更多文字,而是需要一种新的规范:一种与病历并存、但独立于病历的临床标准。AI辅助工具可以帮助减轻医生的文档工作负担,但它们无法解决核心问题——即缺乏一个专门用于临床推理的空间。
仅用病历数据训练AI不仅会复制现有的工作流程,还会强化其中的不良倾向。过度检查、过度诊断和低效的医疗行为早已深深植根于病历中。诊断:病毒性上呼吸道感染,治疗:阿奇霉素。AI之所以频繁看到这种组合,是因为医生通常会这样记录,否则它们就不会被关联在一起。类似的例子比比皆是:一个病情稳定的患者出现非典型胸痛,但医生还是会安排实验室检查、压力测试和心脏病科会诊,原因并非基于医学依据,而是因为病历上如此记载。
这些模式不仅会持续存在,还会被视为“标准”。由于缺乏对“好医疗”的明确定义,AI学习到的只是常见做法,而非正确的医疗标准。结果是平庸做法被无限放大,医疗质量不断下降,最终每个人都只能接受这种平均水平。
因此,我们需要明确界定“好医疗”的标准。期望AI能自动区分病历中的有用信息和无用信息是一种不切实际的幻想。医生当然不希望自己的失误被律师发现,所以这些诊疗规范应该独立于法律记录之外,用于指导未来的医疗实践,而不是暴露过去的错误。
即使AI最终能够从有缺陷的病历中提取有用信息,我们也不应该接受那些仅基于现有系统缺陷进行学习的系统。我们应该制定明确的诊疗规范,而不是让AI去适应这些缺陷。
仅用病历数据训练AI不仅会复制现有的工作流程,还会强化其中的不良倾向。过度检查、过度诊断和低效的医疗行为早已成为医疗系统的常态。诊断:病毒性上呼吸道感染,治疗:阿奇霉素。AI之所以频繁看到这种组合,是因为医生通常会这样记录,否则它们就不会被关联在一起。类似的例子比比皆是:一个病情稳定的患者出现非典型胸痛,但医生还是会安排各种检查,原因并非基于医学依据,而是因为病历上如此记载。
这些模式不仅会持续存在,还会被视为“标准”。由于缺乏对“好医疗”的明确定义,AI学习到的只是常见做法,而非正确的医疗标准。结果就是平庸做法被无限放大,医疗质量不断下降。
因此,我们需要明确界定“好医疗”的标准。期望AI能自动区分病历中的有用信息和无用信息是一种不切实际的幻想。医生当然不希望自己的失误被律师发现,所以这些诊疗规范应该独立于法律记录之外,用于指导未来的医疗实践。
即使AI最终能够从有缺陷的病历中提取有用信息,我们也不应该接受那些仅基于现有系统缺陷进行学习的系统。我们应该制定明确的诊疗规范,而不是让AI去适应这些缺陷。
在软件工程中,规范定义了系统的功能和使用效果——这是医学领域迫切需要的。我们那些未明确表达的诊疗路径和出院标准,虽然对我们来说很清楚,但在数据中却难以体现,而这正是AI无法学习的内容。
以阑尾炎为例:对于一个健康的23岁患者来说,“好医疗”可能意味着“一小时内进行手术,第二天出院”。但对于一个85岁的患者来说,“好医疗”可能还需要较长的恢复时间或进一步的诊疗讨论。我们的期望不同,因此诊疗规范也会相应调整。虽然我们医生是凭直觉做出这些判断,但电子健康记录(EHR)却将这些判断简化为相同的诊断代码,导致AI也忽略了这些差异。
为了防止AI复制平庸的医疗行为,医生必须参与诊疗规范的制定,明确界定不同情境下的“好医疗”标准。这并不意味着要在病历中添加更多文字,而是制定简洁、通用且可跨环境和时间使用的诊疗规范。
这并不是要放弃真实世界的数据,而是要为数据添加更多背景信息。电子健康记录中的数据有助于了解医疗实践的实际情况,但仅凭这些数据无法定义“好医疗”的标准。AI可以从这些数据中学习到的是医疗流程,而非真正的临床思维。
如果我们不基于理想标准来制定规范,AI就会复制现有的平庸做法。因此,我们需要临床医生参与规范的制定,明确界定不同情境下的“好医疗”标准。
仅用病历数据训练AI不仅会复制现有的工作流程,还会强化其中的不良倾向。过度检查、过度诊断和低效的医疗行为早已成为医疗系统的常态。诊断:病毒性上呼吸道感染,治疗:阿奇霉素。AI之所以频繁看到这种组合,是因为医生通常会这样记录,否则它们就不会被关联在一起。类似的例子比比皆是:即使患者病情稳定,也会因为病历上的记录而被安排各种检查。
这些模式不仅会持续存在,还会被视为“标准”。由于缺乏对“好医疗”的明确定义,AI学习到的只是常见做法,而非正确的医疗标准。结果就是平庸做法被无限放大,医疗质量不断下降。
因此,我们需要明确界定“好医疗”的标准。期望AI能自动区分病历中的有用信息和无用信息是一种不切实际的幻想。医生当然不希望自己的失误被律师发现,所以这些诊疗规范应该独立于法律记录之外,用于指导未来的医疗实践。
即使AI最终能够从有缺陷的病历中提取有用信息,我们也不应该接受那些仅基于现有系统缺陷进行学习的系统。我们应该制定明确的诊疗规范,而不是让AI去适应这些缺陷。
在软件工程中,规范定义了系统的功能和成功标准——这是医学领域迫切需要的。我们那些未明确表达的诊疗路径和出院标准,虽然对我们来说很清楚,但在数据中却难以体现,而这正是AI无法学习的内容。
以阑尾炎为例:对于一个健康的23岁患者来说,“好医疗”可能意味着“一小时内进行手术,第二天出院”。但对于一个85岁的患者来说,“好医疗”可能还需要更长的恢复时间或进一步的诊疗讨论。我们的期望不同,因此诊疗规范也会相应调整。虽然我们医生是凭直觉做出这些判断,但电子健康记录却将这些判断简化为相同的诊断代码,导致AI也忽略了这些差异。
为了防止AI复制平庸的医疗行为,医生必须参与诊疗规范的制定,明确界定不同情境下的“好医疗”标准。这并不意味着要在病历中添加更多文字,而是制定简洁、通用且可跨环境和时间使用的诊疗规范。
这并不是要放弃真实世界的数据,而是要为数据添加更多背景信息。电子健康记录中的数据有助于了解医疗实践的实际情况,但仅凭这些数据无法定义“好医疗”的标准。AI可以将诊疗规范作为指引,电子健康记录作为实际操作的参考。只有通过这种反馈机制,我们才能不断改进医疗质量:规范定义了目标,数据则显示我们离目标的距离。
在AI方面,开发者应该公开他们的开发过程。例如,应该明确说明模型是基于教科书、指南还是原始电子健康记录数据进行训练的。如果没有这种透明度,医生就无法判断某项建议是否符合最佳医疗实践。
当然,制定“好医疗”的标准也存在风险。一旦某种标准被写下来,就可能被用来针对医生。如果医生制定的规范与实际医疗实践不符,反而可能被视为错误的做法。解决办法不是增加更多文档,而是为诊疗规范创建一个独立、受保护的渠道,使其能够随着时间发展。专业协会或医疗系统可以维护这样的规范库,记录“好医疗”的标准,而不将其与具体的病历绑定。可以将这些规范视为医学领域的“开源代码”——透明、可版本更新且持续改进的。制定这些规范不需要专门的团队或资金支持。例如,可以列举10种常见的住院原因(肺炎、心力衰竭、阑尾炎等),然后询问医生:这些情况下的“好医疗”标准是什么?收集意见、进行比较和迭代。随着时间的推移,这些集体经验会逐渐形成统一的诊疗规范。任何医学协会、医疗系统或培训项目都可以开展这样的工作。
这不仅仅是编程问题,而是要明确那些未明确表达的医疗标准:例如,“密切随访”对发热婴儿意味着什么,或者“成功治疗”在心力衰竭治疗中到底是什么。这些标准需要医生来明确界定,因为AI无法从现有的病历中自动理解这些概念。
病历用于记录过去的发生情况,而诊疗规范则用于指导未来的医疗实践。只有我们医生才能制定这些规范。
生物通微信公众号
知名企业招聘