
-
生物通官微
陪你抓住生命科技
跳动的脉搏
利用生成式平衡提升医疗机器学习模型:迈向公平卓越医疗新征程
【字体: 大 中 小 】 时间:2025年02月15日 来源:npj Digital Medicine 12.4
编辑推荐:
为解决医疗机器学习中数据集不平衡和模型偏差问题,美国伊利诺伊大学厄巴纳 - 香槟分校的研究人员开展 FairPlay 方法研究。结果显示该方法能提升模型性能与公平性。推荐科研读者阅读,探索医疗 AI 新突破。
美国伊利诺伊大学厄巴纳 - 香槟分校(University of Illinois at Urbana-Champaign)的 Brandon Theodorou、Benjamin Danek 等研究人员在《npj Digital Medicine》期刊上发表了题为 “Improving medical machine learning models with generative balancing for equity and excellence” 的论文。这篇论文在医疗机器学习领域意义重大,为解决医疗数据不平衡和模型偏差问题提供了创新思路,有望推动医疗人工智能更加公平、精准地服务于患者。
在医疗领域,健康不平等问题长期存在且影响深远。从患者获取医疗服务的机会,到临床试验队列的多样性,再到不同患者群体接受治疗后的结果差异,这些不平等现象受到临床因素与患者人口统计学特征(如性别、种族和社会经济地位)相互作用的影响。尽管医疗机构努力提供公平的治疗,但医疗系统中的系统性问题和偏见却难以避免,导致医疗服务和治疗结果的不平等。
随着机器学习(ML)在医疗领域的应用日益广泛,如医学图像解读、疾病诊断和患者预后预测等,对高质量训练数据集的需求也越来越大。然而,实际构建这样的数据集困难重重。健康数据的敏感性使得数据获取受限,目标疾病或结果的罕见性增加了数据收集的难度,而且医学专家的人工标注工作也十分繁琐。此外,机器学习模型对患者群体分布的变化较为敏感,这进一步加剧了利用机器学习辅助医疗服务的挑战。数据稀缺不仅导致模型泛化能力差,还使得不同患者群体间的模型性能不均衡,可能会延续甚至加剧医疗领域中弱势群体面临的不公平问题。即便在一些大型、精心整理的热门医疗数据集中,这些问题也普遍存在。
为了应对数据集不平衡导致的模型性能差异问题,人们尝试了多种方法。上采样(Upsampling)通过增加少数群体在训练数据中的代表性来平衡数据,但可能会引入重复数据,影响模型学习效果;下采样(Downsampling)则是减少多数群体的数据,虽然能使数据分布更均衡,但会丢失部分信息;为不同群体分别训练模型,操作复杂且难以保证整体性能;而一些基于公平性的模型在训练过程中考虑公平性,但可能会在性能和公平性之间产生权衡,影响模型的整体能力提升。这些方法都存在一定的局限性,难以在不牺牲性能的前提下有效解决医疗数据不平衡和模型公平性的问题。
研究团队提出了一种名为 FairPlay 的创新方法,该方法利用大型语言模型生成合成患者数据,从源头上解决医疗数据不平衡和模型偏差问题。FairPlay 主要基于以下两项关键技术:
条件和全局模式学习:FairPlay 运用强大的概率语言模型,对患者群体的整体模式以及特定群体和结果的模式进行学习。它能够捕捉临床数据集中复杂的关系和特征,为后续生成高质量的合成数据奠定基础。
数据集均衡生成:在学习到数据模式后,FairPlay 从这些分布中进行采样,有条件地生成具有所需特征的新合成患者记录。这些新记录被添加到训练数据集中,平衡了患者群体的分布,减少了模型产生偏差的可能性。
具体实现过程中,研究人员首先将源数据构建成临床事件序列,涵盖患者的诊断、实验室检查、用药情况和治疗结果等信息。然后,根据患者的人口统计学因素(如保险类型、性别、种族、年龄)和临床结果(如死亡率、再入院率)对患者记录进行标注。这些标注后的记录与患者事件序列一起被用于训练条件生成模型。在训练过程中,FairPlay 会识别数据集中可能影响下游模型性能的不平衡和偏差因素,针对代表性不足的群体和结果类别生成合成记录。最终,将原始数据和合成数据合并,形成增强的数据集,用于训练下游的机器学习模型,以实现更公平、准确的预测。
总体性能:研究人员使用 PhysioNet eICU 和 PhysioNet MIMIC-IV 这两个公开的住院患者数据集进行实验,以院内死亡率预测作为示例任务。结果显示,FairPlay 能够显著提升下游死亡率预测模型的性能。在不获取额外数据、不改变下游模型训练方法的情况下,FairPlay 使 eICU 数据集上所有下游模型的平均 F1 分数从 0.376 提高到 0.457,提升了 21.5%;在 MIMIC 数据集上,平均 F1 分数从 0.296 提高到 0.329,提升了 11.1%。相比之下,其他数据增强方法效果较差,在高维的 MIMIC 数据集中,除 MCRAGE 外,其他基线方法平均都降低了模型性能。
分组性能:为了探究 FairPlay 对不同群体性能的影响,研究人员进行了四项不同的实验,分别在两个数据集上针对不同的保护特征(eICU 数据集上的年龄和性别,MIMIC 数据集上的种族和保险类型)运行 FairPlay,平衡数据集在不同死亡率标签和群体成员对之间的分布。结果表明,FairPlay 不仅提高了每个实验中各群体的整体性能,还减少了群体间的性能差异。例如,在 eICU 数据集中,不同年龄组的性能都有所提升,成人、儿童和老年人模型性能之间的差距缩小;在性别组中,女性和其他 / 未知性别的患者模型性能得到改善。在 MIMIC 数据集中,黑人患者群体的性能提升明显,超过了之前的平均水平;保险类型方面,政府赞助保险计划和私人保险患者之间的性能差距也因 FairPlay 而减小。通过计算公平性指标(如差异影响(Disparate Impact)和泰尔指数(Theil Index))发现,FairPlay 是唯一在所有四项实验中同时降低泰尔指数、使差异影响更接近 1 的方法,这表明 FairPlay 在提高性能的同时,显著提升了模型的公平性。
多组性能:研究人员进一步在两个数据集上进行了综合的多组评估,在 eICU 数据集上同时考虑性别和年龄标签,在 MIMIC 数据集上同时考虑种族和保险类型进行 FairPlay 处理。结果显示,FairPlay 增强后的数据集不仅整体性能更强,而且每个子群体的性能都有所提升。在 eICU 数据集的年龄和性别实验中,性能更加均匀,表明群体间的性能差异显著减小。这说明 FairPlay 能够处理复杂的多变量模式,在同时学习和消除大量受保护特征的偏差时,仍能保持整体性能的提升,适用于实际医疗场景中对多种属性的关注和处理。
这项研究通过引入 FairPlay 方法,利用大型语言模型生成合成患者数据,有效解决了医疗机器学习中数据集不平衡和模型偏差的问题。研究结果表明,FairPlay 在提升模型整体性能、改善各子群体模型性能以及缩小子群体间性能差距方面表现出色,为实现公平、精准的医疗预测提供了有力支持。
然而,研究也发现,数据集中群体代表性的差异程度、群体规模大小以及患者数据特征的差异程度等因素,会影响 FairPlay 的改进效果。对于极小的数据集、罕见病任务、人口统计学多样性较低的数据或仅具有表面受保护特征的数据,FairPlay 的应用可能存在局限性,这需要进一步的实验来探索和研究。
在实际应用中,FairPlay 具有显著优势。它能够在不改变现有训练和推理管道的情况下,纠正自然临床数据集中的偏差,避免了额外的训练干预或模型调整。这使得在优化预测能力、识别高风险患者的同时,还能保证不同群体、模型和预测管道之间预测质量的一致性。此外,FairPlay 在概念上具备扩展能力,有望支持更多任务和群体,构建全局模型,进一步解决数据分布外的偏差问题。
总体而言,FairPlay 为医疗机器学习领域带来了新的突破,其在提高模型性能和公平性方面的显著效果,为推动公平医疗的发展提供了重要的技术支撑。未来,随着对该方法的深入研究和应用拓展,有望进一步改善医疗服务质量,减少医疗领域的不平等现象,让更多患者受益于精准、公平的医疗人工智能技术。
生物通微信公众号
知名企业招聘