编辑推荐:
糖尿病视网膜病变(DR)是可预防性失明的主要原因,筛查存在显著障碍。来自斯坦福大学和谷歌的研究人员评估谷歌 AI 筛查系统(ARDA)。结果显示,AI 筛查可扩大早期检测覆盖面。这为解决 DR 筛查难题提供了新途径。
本次对话是一系列访谈的一部分,在这些访谈中,《美国医学会杂志》(JAMA)网络编辑和专家嘉宾探讨了围绕人工智能(AI)与医学迅速发展的交叉领域的相关问题。
糖尿病视网膜病变影响着全球一半的糖尿病患者,并且仍然是可预防性失明的主要原因。尽管有每年进行筛查的建议,但存在显著障碍,尤其是在医疗服务不足的地区,那里往往没有眼科医生。
基于 AI 的筛查在检测糖尿病视网膜病变和糖尿病黄斑水肿(DME)方面,在受控研究环境中已显示出有前景的结果,但它们在现实环境中的表现仍是一个关键的未解决问题。
一项发表于《JAMA 网络开放》杂志的新研究,在印度近 50 个临床站点的数十万患者中部署了谷歌的 AI 筛查系统 —— 自动视网膜疾病评估(ARDA)后,对其进行了评估。作者写道:“这是眼科领域 AI 算法的首份大规模上市后性能报告。” 他们的研究结果表明,在专科护理有限的环境中,AI 筛查可以显著扩大早期检测的可及性。
斯坦福大学的眼科住院医师亚瑟?布兰特(Arthur Brant)医学博士,以及领导谷歌健康 AI 产品团队的产品经理桑尼?维尔马尼(Sunny Virmani)理学硕士,与《JAMA+AI》主编、麻省总医院定量健康中心主任罗伊?珀利斯(Roy Perlis)医学博士、理学硕士,讨论了他们的研究结果及其对公共健康的影响。本次访谈经过编辑,以保证内容清晰和篇幅适宜。
珀利斯博士:您能给我们介绍一下这在公共健康问题上的重要程度吗?这项筛查有多重要?在这项技术出现之前,标准的医疗护理是怎样的?
布兰特博士:实际情况是,无论是在美国还是在其他国家,筛查的频率远低于应有的水平。在美国,每位糖尿病患者每年至少应接受一次筛查,但实际上我们只对约一半符合筛查标准的患者进行了筛查。在印度,我们估计有 1 亿糖尿病患者,而接受常规筛查的可能只是其中很小的一部分。在我们合作的研究站点 —— 阿拉文(Aravind)眼科医院,该研究的数据就来源于此。他们在泰米尔纳德邦推广了大多数人认为是一流的眼科护理模式。在那里,他们不仅有多家主要的三级医院,能够提供眼科的所有亚专科服务,还在外围设有约 100 个视力中心,这样患者就能在离家更近的地方,由眼科技术人员和验光师进行常规随访。这些相机主要放置在视力筛查中心,糖尿病患者每次前往其中一个中心就诊时,除了接受其他眼部检查外,还可以进行眼底拍照。还有一小部分相机直接放置在糖尿病诊所,我们建议每位前来就诊的糖尿病患者,根据病情每年至少进行一次眼底拍照。如果病情较轻,就诊频率会更高;如果病情较重,患者会被转诊给当地的眼科医生。
珀利斯博士:听起来这是筛查的理想情况。在该地区之外,常规做法是什么样的呢?如果没有这些相机或验光师网络,谁来做这项工作呢?
维尔马尼先生:亚瑟刚刚提到印度目前有 1 亿糖尿病患者,但我们的一些统计数据显示,这些患者中约有 50% 甚至不知道自己患有糖尿病。这不仅关乎进行筛查,还关乎了解自己需要何种医疗护理。即使人们知道自己在糖尿病和糖尿病视网膜病变筛查方面的需求,他们也难以获得相应的医疗服务,尤其是在印度、泰国的农村地区以及我们开展这项工作的其他地方。那么问题来了:这些患者可以去初级保健诊所,但那里有相机来进行实际的筛查吗?有眼科医生吗?这不仅关乎技术,还关乎能否接触到像眼科医生这样的专科医生,他们才应该进行这类筛查。我们研究了 AI 如何切实帮助改善这些患者难以轻易接触到眼科医生地区的医疗服务可及性。患者可能需要前往三级医院,这有时意味着要花上一整天时间,离开自己的村庄,前往主要城市。这是一个大问题,不仅涉及筛查的方式和地点,还关乎患者能否获得这类医疗服务。
珀利斯博士:跟我们讲讲这项研究的具体情况吧。
布兰特博士:谷歌的 AI——ARDA,多年来一直在印度为糖尿病视网膜病变患者进行筛查。眼科及其他医学领域有许多获得美国食品药品监督管理局(FDA)批准的设备也用于筛查。我们想要探究的问题是:该 AI 在现实世界中的表现,与回顾性或前瞻性研究中的表现是否相符或相近?在批准之后,当设备处于更多样化的多站点环境中时,需要确保在批准前设定的安全标准仍然能够得到满足。具体来说,在筛查了 60 万名患者后,我们在 2019 年至 2023 年期间对约 1% 的患者进行了抽样,由人工分级员对这些患者的图像进行分级,然后将 AI 生成的分级结果与人工分级结果进行比较,以确保在现实世界中使用 3 种不同类型的眼底相机对 45 个不同站点进行筛查时,AI 的性能没有下降。
珀利斯博士:我能理解模型会随着时间推移,因风险预测等因素而发生变化。输入在很多方面都会改变。为什么你们会担心图像方面的偏差呢?你们认为随着时间推移可能会发生哪些变化,为什么这会是一个问题呢?
维尔马尼先生:有几个因素可能导致偏差。一般来说,AI 模型是在特定的一组图像上进行训练的。可能有大量图像,但它们可能都来自某一个种族、民族或地区。当在现实世界中实际测试该算法时,不会只在那个特定地点进行部署和测试。问题在于,随着在临床中测试和部署这些算法,患者群体如何随时间发生变化。另一个可能改变的因素是相机,这是进行视网膜病变筛查所必需的设备。用于糖尿病视网膜病变筛查的视网膜相机,会随着时间不断更新、变化和改进。不同的制造商进入市场,为使用这项技术的医生提供相机。还有一个因素是实际拍摄图像的人员,也就是诊所的技术人员。他们使用这些相机的培训水平也会发生变化,新的技术人员当然需要更多时间才能拍出更好的图像。我们在论文中也提到了无法分级的图像,这正是可能出现的情况。这就是为什么在临床实际部署之前,对所有这些变化进行测试非常重要。在一组特定图像上训练的模型,能否适用于另一组不同的图像(可以称之为测试集)呢?实际上,在申请监管批准之前,我们就做了这项工作。这些模型的实际表现,是否与我们训练时的表现一样好,甚至更好呢?当然,拥有更多样化的训练数据会有所帮助,但训练后的测试在这里也非常、非常重要。
布兰特博士:我们还担心另外两个方面。其一,如果你查看文献中的许多前瞻性和回顾性研究,会发现他们会特意排除含有其他病变的照片。如果患者患有青光眼、眼部有疤痕或患有严重白内障,他们在论文验证中使用的是经过高度筛选的数据。但在现实世界中并非如此,随着时间推移,你会看到各种情况,你需要确保在未经筛选的数据集中,AI 的性能不会下降。以我在斯坦福大学的经验,每台相机随着时间推移都会产生一些小瑕疵:镜头上有一点污渍、有一粒灰尘。时间久了,你甚至能根据看到的小瑕疵判断出是哪台相机拍摄的患者,每台相机都有自己的特点。我敢肯定在这次研究的部署中也是如此。你需要确保设备出现磨损时,患者仍然安全。
珀利斯博士:进行这些研究是谁的责任呢?在这个案例中,这是一项学术机构与谷歌的联合倡议,但随着这类情况越来越多,技术部署之后,谁来负责确保它不会出现偏差呢?
维尔马尼先生:我打个比方。过去,在 AI 模型出现之前,就拿相机来说,制造商依赖使用相机的客户反馈设备存在的问题,以便进行修复。这是非常被动的做法,而且可能需要很长时间。AI 技术的优势在于,我们可以主动思考模型在实际应用中的表现。这也让我们有机会确保算法或模型能够达到预期,并始终保持良好状态。当我们将这个算法推向市场,尤其是在阿拉文眼科医院这样的临床领域时,我们决定积极主动地开展工作。我们想办法获取了诊所中的一小部分图像样本,并让眼科医生重新解读。因为我们的系统是基于云计算的,所以这些操作都得以实现。我们能够实时测试算法的表现是否良好,是否达到了我们设定的标准。如果出现问题,我们能很快找出原因。与其说是谁的责任,不如说是对谁有益。归根结底,我们希望确保患者得到尽可能好的医疗服务。这是医生关心的,也是制造商关心的。我认为这对大家都有好处,这就是我们能够积极开展这项工作的原因,而且这一直是我们的计划。
珀利斯博士:这个模型表现如何?在偏差方面你们有什么发现?
布兰特博士:有多种方法可以考察最终结果。我们特意选择了一个名为 “重度加”(severe plus)的终点指标。患者是否患有重度非增殖性糖尿病视网膜病变或增殖性糖尿病视网膜病变(PDR)?这是两个关键类别,如果漏诊,患者可能会不可逆地失明。在我们抽取的 1% 样本中,所有符合这些情况的患者都被转诊到了诊所。我们的转诊阈值是中度、重度、PDR 或 DME。只要类别稍微宽泛一些,我最担心的那部分患者,100% 都被转诊到了诊所。这已经是最让人放心的结果了。
珀利斯博士:那假阳性情况呢?这项技术常见的一个问题是,可能会提高转诊率,让太多人去进行随访。
布兰特博士:总体阳性预测值约为 50%,也就是说,每有一名真正患病的患者,就会转诊两名患者。但话说回来,另一种选择是让眼科医生对每位患者进行筛查。总体而言,这仍然是一个巨大的进步。
珀利斯博士:在进行这项研究的过程中,您认为除了这项技术本身,对于该领域其他类似的模型,我们应该如何思考?对于这类成像技术的下一次迭代,您有什么不同的做法吗?
布兰特博士:另一个关键问题是如何权衡敏感性和特异性。这可能因地区而异,也取决于特定国家或地区所期望的阳性预测值和阴性预测值。从监管角度来看,是否可以为不同国家设定多个阈值,这在很大程度上还是未知领域,需要随着时间的推移逐步完善。但我认为每个环境可能都有稍微不同的阈值,这些阈值至少对其特定情况是最优的。
维尔马尼先生:除了论文中发表的内容,也就是关于模型及其与我们过去临床工作相比的表现,我们还学到了一些其他重要的东西。说到未知领域,因为这些是农村地区,这些视力中心以前从未进行过此类筛查,一些诊所不知道如何开展视网膜筛查:相机应该放在哪里、房间应该多暗、需要营造什么样的环境。这些因素对图像质量至关重要。还有,我们是否有经过培训能够使用这些相机的技术人员?患者是否了解如何在相机前配合 —— 如何坐、如何把下巴放在下巴托上?随着阿拉文眼科医院在不同站点部署新设备和不同类型的相机,我们学到了很多细微的知识。我们意识到,我们的模型只是其中一部分,而且是核心部分。然而,输入、输出以及对输出结果的处理 —— 所有这些都非常重要。从医疗保健和工作流程的角度全面测试这些系统,而不仅仅是孤立地测试,找出差距和瓶颈,确保这对每个人来说都是成功的,而不仅仅是对模型而言,这真的很重要。