用于可信医疗联邦学习的奖励系统

《ACM Transactions on Computing for Healthcare》:Reward Systems for Trustworthy Medical Federated Learning

【字体: 时间:2025年11月07日 来源:ACM Transactions on Computing for Healthcare

编辑推荐:

  本文研究联邦学习(FL)在医疗图像诊断中的模型偏差问题,通过构建性别和年龄分组的模拟数据集,量化各机构的贡献并设计奖励系统。采用Shapley值近似方法评估机构对预测性能和偏差的贡献,发现数据分布不均会导致系统性偏差。结合偏差贡献与预测性能,提出多目标奖励机制,实验表明该机制能有效激励机构减少偏差并提升预测效果,同时通过标签翻转实验验证了其对数据质量的要求。

  联邦学习(Federated Learning, FL)是一种在医疗领域广泛应用的技术,允许不同机构在不共享原始数据的情况下协同训练机器学习(Machine Learning, ML)模型。这种技术能够帮助打破机构间的“数据孤岛”现象,使模型能够在更多数据基础上进行训练,从而提高预测性能。然而,模型的偏差问题仍然是FL研究中的一个重要挑战,因为偏差可能导致对某些患者亚群体的不公平对待。此外,信任度的提升也是构建可信AI的关键,不仅需要高预测性能,还需要确保模型在不同患者群体间具有较低的偏差。目前,FL研究中关于如何衡量机构对模型偏差的贡献以及如何设计激励机制以实现可信模型的研究仍处于初级阶段。本文通过多个胸部X光数据集的实验,探讨了如何衡量机构对预测性能和偏差的贡献,并设计了相应的激励机制,最终提出了一种结合预测性能和偏差的综合激励系统。

在实际应用中,FL机构通常会面临成本和风险,如数据收集、计算资源消耗以及隐私保护等。这些因素可能导致机构参与FL的积极性不足,从而引发“搭便车”问题。为了解决这一问题,激励机制可以对机构的贡献进行补偿,从而促进其积极参与FL。然而,现有的激励系统往往仅关注预测性能,这可能导致模型在某些亚群体上的表现较差,从而加剧偏差。因此,本文认为,设计一种能够同时激励预测性能和偏差的激励机制是实现可信AI的重要步骤。

为了衡量机构对模型偏差的贡献,本文引入了Shapley值(Shapley Value, SV)的概念。SV是一种用于评估个体对整体合作贡献的数学工具,具有公平性和可解释性等优点。然而,由于SV的计算复杂度较高,实际应用中通常采用近似方法。本文采用了一种名为SaFE(Scalable and Efficient Shapley Estimation)的方法,该方法通过在联邦模型中训练大型联盟,并利用逻辑回归(Logistic Regression, LR)模型对各个机构的贡献进行快速评估,从而有效降低了计算成本。

在实验设计方面,本文使用了三个大型胸部X光数据集:NIH ChestX-ray8(NIH)、CheXpert(CXP)和MIMIC-CXR(CXR)。这些数据集涵盖了患者的性别、年龄和疾病信息,并在不同机构间存在数据分布差异。为了更系统地研究不同患者亚群体对模型偏差的影响,本文在数据集内部进行了性别和年龄的子集划分,模拟了不同机构的数据分布情况。例如,在性别划分中,机构可能包含更多的女性或男性患者数据,而在年龄划分中,机构可能包含更多年轻或年长患者的影像数据。这种子集划分使得研究人员能够更直接地评估数据分布对模型偏差的影响。

实验结果表明,机构对模型偏差的贡献与其数据分布密切相关。例如,在性别划分的“100/0”模式下,所有包含女性患者数据的机构都对模型的性别偏差产生了正向贡献,而包含男性患者数据的机构则产生了负向贡献。这表明,机构的数据分布直接影响其对模型偏差的贡献,而这种贡献可以通过SV进行量化。此外,年龄偏差的贡献通常比性别偏差更大,这可能是因为年龄分布的不均衡性在医疗数据中更为普遍。

在激励机制的设计上,本文提出了两种不同的方案:一种是基于预测性能的激励方案,另一种是基于偏差的激励方案。基于预测性能的激励方案中,机构的奖励与其对模型预测性能的贡献成正比。例如,对于一个包含60个机构的联邦联盟,总奖励池为60个货币单位(MU),每个机构的奖励与其对模型预测性能的贡献(SV)成比例。而基于偏差的激励方案则关注如何减少模型的绝对偏差,其中机构的奖励与其对偏差的贡献方向和大小有关。例如,如果一个机构的数据对模型偏差有正向影响,其奖励可能会减少;反之,如果一个机构的数据有助于减少偏差,其奖励可能会增加。

本文还提出了一种综合激励方案,该方案同时考虑预测性能和偏差。这种方案的优势在于,它能够促进机构不仅关注模型的预测能力,还关注模型的公平性。例如,在性别和年龄偏差的综合激励下,机构的奖励不仅取决于其对预测性能的贡献,还取决于其对偏差的贡献。实验结果显示,这种综合激励方案能够有效提升模型的预测性能并降低偏差,从而提高模型的可信度。

此外,本文还进行了标签翻转实验,以评估激励机制在数据质量方面的效果。标签翻转是指在训练数据中随机翻转部分标签,模拟实际医疗数据中的错误标签。实验发现,标签翻转会显著降低机构的奖励,这表明激励机制能够促使机构关注数据质量,从而减少标签错误对模型性能的影响。例如,在标签翻转比例为2.5%、5%和7.5%的情况下,机构的奖励会相应减少,而数据质量较高的机构则能够获得更高的奖励。

在实现上,本文采用了一种基于DenseNet-121的卷积神经网络(CNN)模型,并使用了ImageNet数据集进行预训练。为了提高模型的泛化能力,对训练数据进行了随机水平翻转、随机旋转(最多15度)以及随机平移(最多10%的图像高度和宽度)等预处理步骤。此外,模型的输入图像被统一缩放为256×256像素,并进行了基于ImageNet的归一化处理。

联邦学习的训练过程采用联邦平均算法(Federated Averaging),即每个机构在本地训练模型,并将梯度信息上传到中央服务器。服务器对所有机构的梯度进行平均,形成全局模型,并将其返回给各个机构。为了评估模型的性能,本文在所有机构的验证数据集上进行测试,并使用AUROC(Area Under the Receiver Operating Characteristic Curve)作为主要评估指标。AUROC可以衡量模型的预测能力,其值范围在0到1之间,0.5表示随机预测,而更高的AUROC值则表示更好的预测性能。

在实验中,本文还研究了不同数据分布对模型性能和偏差的影响。例如,在性别分布的“as is”模式下,模型对女性患者的预测性能略优于男性患者,而在年龄分布的“as is”模式下,模型对年轻患者的预测性能显著优于年长患者。这些结果表明,数据分布对模型的偏差有重要影响,而激励机制可以通过调整奖励分配,促使机构贡献更多样化和均衡的数据,从而减少偏差。

此外,本文还探讨了联邦学习的可扩展性问题。在现有数据集规模下,SV的近似方法能够有效计算机构的贡献,并且可以在较短时间内完成。然而,随着联邦联盟规模的扩大,计算复杂度可能会增加。因此,本文建议未来研究可以探索更高效的SV近似方法,或者采用分布式计算技术,以提高计算效率。

总的来说,本文的研究表明,通过合理设计激励机制,可以有效提升联邦学习模型的预测性能和公平性,从而实现可信AI。此外,机构的数据分布对模型偏差有重要影响,而激励机制可以通过调整奖励分配,促使机构贡献更多样化和均衡的数据。这种综合激励方案不仅能够提高模型的性能,还能减少偏差,从而提升模型在医疗应用中的可靠性。未来的研究可以进一步探索如何在实际医疗场景中应用这些激励机制,并评估其对模型公平性和性能的具体影响。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号