医学影像中专家级视觉-语言基础模型的人口统计学偏见研究

《SCIENCE ADVANCES》:Demographic bias of expert-level vision-language foundation models in medical imaging

【字体: 时间:2025年03月27日 来源:SCIENCE ADVANCES 11.7

编辑推荐:

  推荐语:针对AI医疗模型可能放大人类偏见的问题,哈佛医学院团队系统评估了CheXzero等视觉-语言基础模型在胸片诊断中的公平性。研究发现,相比放射科医师,这些模型对女性、黑人和老年患者存在系统性漏诊,且能更精确编码人口统计学信息。该成果发表于《Science Advances》,为医疗AI的伦理部署提供了重要依据。

  

人工智能(AI)席卷医疗领域的今天,胸片诊断正经历着革命性变革。专家级视觉-语言基础模型(Vision-Language Foundation Models)如CheXzero通过自监督学习(self-supervised learning),无需病理标注就能检测多种疾病,其性能甚至媲美专业放射科医师。然而,一个幽灵始终萦绕在AI医疗上空:这些"数字专家"是否会复制甚至放大人类社会的偏见?尤其令人担忧的是,历史上被边缘化的群体——女性、黑人患者等,是否会在算法诊断中遭遇系统性歧视?

哈佛医学院的研究团队在《Science Advances》发表的重要研究,首次系统揭示了医学影像领域视觉-语言基础模型存在的人口统计学偏见(Demographic Bias)。研究人员收集了来自美国、西班牙和越南的五个大型胸片数据集(MIMIC、CheXpert、NIH、PadChest和VinDr),包含超过80万张影像。通过对比CheXzero模型与执业放射科医师的诊断表现,团队发现:在保持专家级准确率(AUC 0.917-0.938)的同时,AI模型对边缘群体的漏诊率(False Negative Rate, FNR)显著更高,特别是黑人女性患者等交叉子群(intersectional subgroups),差异最高达24.1%。

关键技术方法包括:1) 使用自监督训练的CheXzero模型进行零样本推断(zero-shot inference);2) 在五大数据集上评估14-174种病理的假阴性率差异;3) 通过线性预测头(linear prediction head)分析模型嵌入层(embedding layer)对人口统计学信息的编码能力;4) 邀请3位执业放射科医师进行盲法评估作为人类基准。

研究结果部分揭示了一系列重要发现:

"数据集、模型和评估方案"显示,团队建立了包含357,167张影像的国际多中心评估框架,覆盖不同性别(男/女)、年龄(0-100岁)和种族(亚裔/黑人/白人)群体。通过设计特定文本提示(如"患者是否患有{病理}?"),实现了对模型诊断公平性的系统评估。

"与放射科医师相比基础模型存在显著公平性差异"部分发现,虽然模型诊断性能(AUC)与人类专家相当,但在性别(P=1.28×10-131)、年龄(P=2.51×10-103)和种族(P=8.79×10-93)等维度上,模型的漏诊差异显著更大。特别是对"心脏纵隔增大"等病症,黑人女性患者的漏诊率比白人男性高20%。

"边缘群体和交叉子群的诊断偏见"通过分析"无异常发现"(no finding)标签显示,模型对>80岁老年患者与18-40岁年轻患者的误诊差异高达100%。更令人担忧的是,这种偏见在PadChest数据集174种影像学表现中普遍存在,31/48种重要病症的性别诊断差异超过5%。

"基础模型中超越人类水平的人口统计学信息编码"部分最具突破性:模型嵌入层对性别(AUC=0.92)、年龄(AUC=0.94)和种族(AUC=0.78)的预测能力远超放射科医师,表明AI可能通过未知的影像特征识别人口统计学信息。

讨论部分指出,这项研究具有三重重要意义:首先揭示了医疗AI面临的新型伦理挑战——即使性能达到专家水平,算法偏见仍可能导致边缘群体获得更差的医疗服务;其次发现自监督模型能编码超出人类认知能力的人口统计学特征,这既可能成为改进诊断的新途径,也可能成为放大偏见的"捷径"(shortcut);最后强调,在AI医疗产品监管中,公平性评估应成为与准确性同等重要的指标。

该研究的局限性包括:人口统计学标签可能存在记录偏差;影像质量不均可能影响结果;以及参与评估的放射科医师数量有限。未来研究需要探索更有效的去偏见(debiasing)方法,并扩大临床验证规模。这项工作为医疗AI的负责任发展提供了重要基准,提示我们在追求诊断准确性的同时,必须同等重视算法公平性,才能真正实现"精准医疗"的普惠愿景。

下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究

10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!

欢迎下载Twist《不断变化的CRISPR筛选格局》电子书

单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析

下载《细胞内蛋白质互作分析方法电子书》

相关新闻
生物通微信公众号
微信
新浪微博

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号