解锁 AI 医疗应用新路径:基于临床试验框架的落地部署与深远意义

【字体: 时间:2025年02月19日 来源:npj Digital Medicine 12.4

编辑推荐:

  为解决 AI 在医疗临床应用慢、碎片化及监管、安全等难题, 研究人员开展基于临床试验框架的 AI 实施研究。结果显示该框架可系统评估 AI。推荐阅读,助您了解 AI 医疗部署要点,把握行业发展方向。

  

基于临床试验的人工智能应用在真实世界临床实施与部署框架


杰奎琳?G?尤(Jacqueline G. You),蒂娜?埃尔南德斯 - 布萨德(Tina Hernandez-Boussard),迈克尔?A?普费弗(Michael A. Pfeffer),亚当?兰德曼(Adam Landman),丽贝卡?G?米舒里斯(Rebecca G. Mishuris)

随着人工智能解决方案的迅速发展,医疗机构需要一个实施路线图。一种基于 “临床试验” 的方法有助于推动人工智能的安全应用,并产生实际效果。该框架包括四个阶段:(1)安全性;(2)有效性;(3)与现有标准对比的效果;(4)监测。结合机构间的合作以及国家资金支持,这种方法将推动人工智能在医疗领域的安全、可用、有效且公平的应用。

人工智能(AI)正改变着医疗行业,医学领域对人工智能应用的研究数量呈爆发式增长。然而,人工智能在临床实践中的应用进展缓慢,且往往较为零散。部分原因在于医疗人工智能面临着特殊的监管、安全以及伦理挑战。这些挑战要求进行仔细的测试和合作开发,以确保人工智能技术的安全性、伦理性、隐私性、公平性、易用性,并实现其预期效果。国家和国际上已开始采取监管行动,认识到需要对快速发展的人工智能技术及时设立规范。显著的例子包括欧盟的《人工智能法案》;美国白宫关于人工智能安全、可靠和可信开发与使用的行政命令;美国卫生与公众服务部、技术政策助理部长以及国家卫生信息技术协调员办公室(ONC)发布的针对医疗领域的 HTI - 1 最终规则,该规则要求属于 ONC 认证的健康信息技术一部分的人工智能算法具备透明度。同样,其他各方也在国际、国家和地方层面提出了医疗人工智能治理的框架和最佳实践,将安全、信任、伦理和公平作为医疗领域负责任使用人工智能的核心原则。

主要的人工智能框架和指南侧重于模型评估而非实施,例如 IBM 针对行业人工智能流程的人工智能生命周期管理框架;用于报告涉及人工智能的临床试验的 SPIRIT - AI 和 CONSORT - AI 指南;以及医疗领域人工智能透明度的 HTI - 1 框架。人工智能生命周期管理框架通常侧重于人工智能模型开发、部署和维护的技术阶段,但可能缺乏针对医疗领域独特的安全和伦理要求进行的具体调整。SPIRIT - AI 和 CONSORT - AI 为涉及人工智能的临床试验报告标准提供指导,但并未提供在临床实践中实施、监测和扩展人工智能工具的分步方法。最后,虽然 HTI - 1 为透明度和符合伦理的人工智能使用提供了监管指导,但它没有为医疗机构提供系统验证和扩展人工智能工具的具体实施阶段。

在这一领域,关于实际部署解决方案的实施方法的指导尚处于初期阶段。因此,[第一作者单位] 的研究人员主张采用一种结构化方法,这种方法既要足够迅速,以便在合理的时间范围内对临床变革产生影响,又要经过审慎考量,以产生明确的结果并具备可扩展性。此前,已有其他人讨论过在医疗领域扩展人工智能应用的实际问题以及人工智能医疗产品开发的方法。在此,[第一作者单位] 的研究人员为医疗机构提供一个框架,用于安全且有效地实施人工智能技术,该框架不仅适用于科学研究,也适用于使用内部开发工具或供应商提供的解决方案的情况。

临床试验框架


美国食品药品监督管理局(FDA)的临床研究分为四个阶段:第一阶段,在 20 - 100 名健康个体或患病个体中了解安全性和药物剂量;第二阶段,在数百名患病个体中测量疗效并识别副作用;第三阶段,在 300 - 3000 名个体中进行更大规模的疗效 / 益处评估,并监测不良反应,通常与标准治疗方案进行对比;第四阶段,在 FDA 批准后,对数千名个体进行上市后安全性和疗效监测。[第一作者单位] 的研究人员提出一种基于临床试验的框架,用于在医疗系统中大规模实施人工智能,该框架借鉴了 FDA 监管的临床试验的四个阶段,即安全性、有效性、效果评估以及部署后监测,以系统地解决关键问题,如合规性、患者安全和模型验证。这种方法确保人工智能解决方案在每个阶段都经过严格验证,为安全有效的临床整合奠定基础。通过遵循这些阶段,医疗人工智能可以更顺利地从研究环境过渡到常规实践,在最大程度提高患者治疗效果的同时,将风险降至最低。美国医学信息学协会(American Medical Informatics Association),作为美国信息学专业人员、研究人员和其他成员的全国性组织,在人工智能案例研究中也采用了类似的方法。

就本观点而言,虽然研究人员认识到 “人工智能” 这一术语涵盖了广泛的系统,但主要关注基于机器学习或大语言模型的人工智能解决方案,尽管这些概念也可能适用于其他人工智能系统,如计算机可解释的临床指南和医疗决策论证系统。研究人员还认识到,这些原则可能在美国最为相关,因为美国的人工智能法规不同,且临床管理负担更为复杂。

研究人员提出的基于临床试验的医疗领域人工智能解决方案部署框架,适用于不一定属于医疗器械的人工智能解决方案,该框架包含四个实施阶段(表 1),并非用于监管目的。由于这些人工智能解决方案既不是医疗器械也不是药物,该框架在信息学领域纳入了对临床工作流程的实际考量。

第一阶段:安全性


这一初始阶段评估人工智能模型或工具的基本安全性。在此阶段,模型被部署在一个受控的非生产环境中,不会影响临床决策。测试可以回顾性进行,或采用 “静默模式”,即观察预测结果但不影响患者护理。例如,一个大语言模型可用于临床试验筛选,通过评估回顾性电子健康记录(EHR)来确定患者的入选资格,而不会对患者结果造成风险;评估还可包括验证 / 偏差分析,以衡量不同患者群体之间的公平性,确保模型不会无意中对特定群体造成不利影响。

第二阶段:有效性


在第二阶段,在理想条件下前瞻性地检验模型的有效性,通常是将其整合到现场临床环境中,但对临床工作人员的可见性有限。此阶段测试人工智能能否在实时工作流程中准确且有效地运行。在这个阶段,模型通常在 “后台” 运行,使其能够处理现实世界的数据,直到性能经过彻底审查后才会影响临床决策。团队开始组织数据管道,以便将医院数据输入模型,并确定哪些团队成员(如护士或医生)将在临床工作流程的哪些步骤中对数据输出采取行动。团队必须确定显示数据输出的时间点以及提供及时、可解释输出的方式。例如,使用人工智能预测急诊科的入院率,在此过程中结果对终端用户隐藏,以便在不影响护理的情况下提高准确性;还有基于人工智能的急性冠状动脉综合征检测工具,通过摄入现实世界的数据实现公平性和公正性的优化。

第三阶段:效果评估及与现有标准对比


在这个阶段,人工智能工具的部署范围更广,并相对于当前的护理标准评估其效果。与侧重于理想情况下结果衡量的第二阶段不同,第三阶段侧重于实际临床环境中的效益衡量。此阶段纳入健康结果指标,展示对患者护理和临床医生工作流程的实际影响。实施团队通过在各种患者群体和临床环境中测试模型来评估其通用性,测量地理和特定领域的性能。一个现实世界的例子是环境文档,这是一个由斯坦福大学和布里格姆妇女医院(Mass General Brigham)在多个临床专科试点的生成式人工智能平台,它将患者与临床医生的对话转换为草稿笔记,在电子健康记录系统中签名之前由临床医生进行审核和编辑。这些笔记的质量和可用性正在与临床医生自己撰写的笔记进行比较,同时严格评估临床医生的体验和职业倦怠等结果指标。另一个例子是人工智能生成的收件箱草稿回复,患者消息内容被安全地发送到电子健康记录供应商的 OpenAI GPT - 4 实例,生成草稿回复,然后由诊所工作人员(在研究人员的实施案例中,包括医生、高级实践提供者、护士或药剂师等临床工作人员)进行编辑。研究人员正在评估回复收件箱消息所花费的时间,以确定人工智能技术是否提高了效率。在专业性和语气等领域对临床医生和人工智能生成的草稿回复进行比较,是超越传统流程结果的评估示例。

第四阶段:监测 - 扩展部署和部署后监测


在扩展部署之后,人工智能工具需要持续监测,以随时间跟踪性能、安全性和公平性。持续监测能够识别模型性能的任何变化,而用户反馈有助于确保其与临床需求和安全标准保持一致。此阶段确保随着人工智能模型的发展或面临数据变化时,能够重新校准以保持有效性和无偏差性。将监测系统集成到日常工作流程中,可以快速识别不良事件或偏差,有助于在临床实践中维持模型的完整性。检测模型变化的系统可以为模型更新或停用无效的人工智能解决方案提供依据。采用传统临床决策支持举措中的现有方法,如将覆盖评论作为改进临床决策支持的反馈机制,以及范德堡大学(Vanderbilt University)的 Clickbusters 计划,该计划通过反复审查临床警报来关闭不必要的警报,并改进或添加更有针对性的警报,有助于确保更好的临床应用和干预效果。此外,团队应传播研究结果,以便其他机构能够学习和分享最佳实践。

在医疗系统中大规模部署人工智能面临着一些挑战,特别是在协调专科实践和初级护理之间的人工智能生成的指导方面。斯坦福大学评估的患者预测模型就存在许多问题。一个主要问题是建议不匹配,在专科环境中训练的人工智能模型可能在初级护理工作流程或指南下表现不佳。此外,人工智能推荐的某些检测或治疗方法缺乏覆盖范围和报销机制,可能会限制其在现实世界中的使用。另外,医疗群体往往分散在多个医疗机构中,美国三分之一的患者没有初级护理提供者。这种分散使得患者管理和随访变得复杂,因为对人工智能建议的干预措施的依从性可能会受到影响。这个监测阶段需要持续的模型评估、反馈循环和可能的重新校准,在实际操作中可能会很复杂。

讨论


使用基于临床试验的框架来评估和扩展医疗领域的新型人工智能解决方案,为医疗服务提供了一种务实、结构化和分步的方法。该框架强调患者安全、有效性和现实世界的适用性。通过借鉴传统临床试验的严格流程,该框架提供了一条全面验证人工智能工具的有力途径,确保这些技术使不同人群受益,同时不会带来意外风险。此外,这种方法解决了医疗人工智能面临的独特挑战,包括监管差异、伦理考量、模型变化和数据通用性问题,同时强调持续监测以长期维持模型的完整性。其他以医疗为重点的框架,如 SPIRIT - AI/CONSORT - AI,更多地侧重于报告标准或监管指导(如 HTI - 1)。

在美国,虽然外部临床决策支持可能被视为医疗器械,并可能需要经过 FDA 的正式审查,但医疗机构可以在未经 FDA 认证的情况下部署内部人工智能模型,这为内部临床使用提供了很大的灵活性。对外部解决方案进行严格且通常耗时较长的评估需求,限制了其即时市场可用性。这种监管灵活性与其他司法管辖区的要求形成对比,在其他地方,大多数临床人工智能工具在使用前必须经过认证。解决这种监管差异对于确保该框架在全球医疗环境中的适用性至关重要,需要在内部使用的灵活性与外部部署的结构化验证之间取得平衡。

该框架可能不太适用于更广泛的医疗领域的人工智能应用,如公共卫生或社区健康项目,在这些项目中,直接集成到临床工作流程并不总是可行或必要的。此外,基于临床试验的方法可能不适用于中小型医疗机构,这些机构可能在人工智能工具进入持续监测阶段后才会采用。类似于传统的实验室或临床研究,这些人工智能临床试验更有可能在大型学术医疗中心进行,因为它们需要资源、资金投入以及人工智能特定的技术专长。然而,尽管大型学术医疗中心可能引领这些工作,但从这些举措中获得的经验教训必须在所有医疗社区中共享,包括社区医疗中心和安全网医院。通过传播知识和最佳实践,能够确保所有人都能从安全、有效和公平的人工智能解决方案中受益。

研究人员认识到,监测医疗领域基于人工智能的技术存在独特挑战,这可能会限制研究结果的普适性。例如,在环境文档方面,研究人员所在机构观察到不同供应商在配置、底层大语言模型、设备支持和电子健康记录集成方面存在差异,在竞争激烈的供应商市场中,平台功能和模型的快速变化进一步加剧了这种情况。在实施方面,不同机构在推出环境文档技术时,用户专业和用户数量各不相同。标准化的基准和指标可能有助于减轻部分体验和性能方面的差异。例如,在研究人员提出的框架的第二阶段,供应商可以定期使用用于常规验证的测试用例库(测试消息、标准化录音)来监测性能。

在医疗领域部署人工智能时,必须优先考虑结果和安全性,而不是仅仅关注过程指标和模型性能,这一点在第三阶段中尤为强调。虽然诸如人工智能起草笔记的准确性或草稿回复生成时间等指标很重要,但它们并不能完全反映人工智能对患者护理的现实世界影响。人工智能解决方案必须证明它们能够改善健康结果、减少伤害,并有助于提升整体患者体验。从第一阶段到第四阶段强调患者安全,确保人工智能解决方案得到负责任的使用,将意外后果(如加剧健康差距或引入偏差)的风险降至最低。通过将重点转向有意义的结果,特别是在从个体到人群的不同健康层面确定人工智能解决方案的公平性影响,医疗系统可以更好地评估人工智能解决方案的真正价值,并确保它们以符合公平和质量改进这一更广泛目标的方式提升医疗服务。

研究人员强调的每个阶段都依赖于高质量、多样化的数据集进行测试和验证。然而,数据质量和代表性问题可能差异很大,尤其是在代表性不足的患者群体中,这可能会限制该框架在促进公平人工智能方面的有效性。更多样化的跨机构数据将有助于测试所开发的人工智能解决方案的公平性和通用性,这一点应在研究人员框架的第二阶段进行评估。虽然机构应如何实施这些技术的具体细节可能存在争议,但显然需要更明确的监管指导来规范这些技术的使用,这与其他关于谨慎对待生成式人工智能独特挑战的呼吁相呼应,需要上述利益相关者的参与,以及更好的系统和法规来促进跨机构的数据联合汇集,以提高这些工具的性能。

研究人员主张,迫切需要广泛的利益相关者参与、政府支持(如美国国立卫生研究院的资助)和行业赞助,以便严格、系统地研究人工智能技术,从而使新型人工智能解决方案能够在医疗系统中得到验证和扩展。像麻省理工学院未来工作特别小组(MIT Task Work on the Work of the Future)、健康人工智能联盟(Coalition for Health AI,CHAI)以及其他更具针对性的机构间合作组织,可以分享经验教训。布里格姆妇女医院(MGB)和斯坦福大学都是 CHAI 的成员。MGB 是环境临床文档协作组织的一部分,该组织由多个学术医疗中心组成,共同实施环境文档项目,分享见解并共同探索相关技术。斯坦福大学在许多此类组织中发挥主导作用,并推动当地的倡议,如 “安全公平健康的负责任人工智能”(Responsible AI for Safe and Equitable Health,RAISE Health)和 “以人为本的人工智能”(Human - Centered AI)。

最后,随着信息学和医疗系统领导者构建并在临床和管理工作流程中实际应用人工智能,团队在早期规划阶段必须考虑解决方案的财务可行性。虽然人工智能具有诱人的潜力,但如果成本过高,它可能并不适合解决特定问题。成本考量不仅包括构建人工智能解决方案的初始技术成本,还包括应用成本、员工培训成本、与社区建立对安全公平的医疗人工智能应用信任的成本以及维护这些解决方案的成本;随后,成本应与投资回报进行权衡。成本应与实际结果、以患者为导向的结果或其他有意义的结果相结合,以证明测试和扩展该技术的合理性。这种思维方式将避免不必要地重复那些不一定能产生可扩展、财务可持续解决方案的试点项目。

重要的是,研究人员认识到医疗人工智能是一个快速发展的领域,该框架可能需要根据国际监管环境和不同的临床环境进行调整。通过分享实施见解和最佳实践,特别是早期采用者的经验,研究人员旨在支持人工智能工具在从大型学术中心到社区医院的所有医疗环境中更广泛、公平地应用。最终,该框架为医疗领域安全有效的人工智能应用提供了一条途径,使技术进步与以患者为中心的结果、公平性以及长期社会效益的目标相一致。

总之,虽然人工智能有望改变医疗行业,但其部署必须谨慎且严格。采用基于临床试验的框架可确保人工智能解决方案在广泛实施之前,对安全性、有效性和实用性进行全面测试。团队应衡量患者结果、安全性和公平性,而不是仅仅关注流程改进或模型性能。通过在所有医疗环境中分享早期采用者(包括学术医疗中心)的经验教训,能够确保人工智能解决方案既有效又公平,使不同人群受益并提高整体医疗质量。

数据可用性


在本研究期间未生成或分析数据集。

接收日期:2024 年 9 月 28 日;接受日期:2025 年 2 月 9 日;在线发布日期:2025 年 2 月 17 日

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号