公平机器学习助力精准医学消除祖先偏见

【字体: 时间:2025年03月11日 来源:Nature Communications

编辑推荐:

  为解决基因组数据中祖先偏见问题,研究人员开展 PhyloFrame 相关研究,提升模型性能,意义重大。

  在精准医学领域,基因组数据是解开疾病奥秘的关键钥匙,但如今这把钥匙却存在着明显的 “缺口”。目前,金标准基因组数据集严重缺乏非欧洲人群的代表性,这就好比在一幅描绘世界的地图上,大部分地区都模糊不清。在众多组学数据库中,欧洲血统的个体占据了主导地位,而非洲血统个体的相关数据却少得可怜。这种数据的不平衡,导致了精准医学在不同种族群体中的疗效差异巨大,许多基于这些数据建立的疾病模型,对于非欧洲人群的疾病预测和治疗指导存在严重不足,使得精准医学这一前沿领域出现了不公平的现象。
为了填补这一重要的空白,来自美国佛罗里达大学(University of Florida)的研究人员莱斯利?A?史密斯(Leslie A. Smith)、詹姆斯?A?卡希尔(James A. Cahill)、李智贤(Ji-Hyun Lee )和基利?格雷姆(Kiley Graim)等开展了一项具有创新性的研究。他们提出了一种名为 PhyloFrame 的公平机器学习方法,旨在实现公平的基因组精准医学。该研究成果发表在《Nature Communications》上,为解决精准医学中的祖先偏见问题带来了新的希望。

在研究过程中,研究人员主要运用了以下几种关键技术方法:首先,利用来自基因组聚合数据库(gnomAD)的群体基因组数据,计算增强等位基因频率(Enhanced Allele Frequency,EAF),以此来识别不同人群中特异性富集的基因变异;其次,借助 HumanBase 的功能相互作用网络,寻找与疾病相关基因可能相互作用的基因;最后,通过构建 PhyloFrame 公平机器学习框架,将群体基因组数据和功能相互作用网络相结合,对疾病特征进行优化,进而提高模型在不同人群中的预测能力。研究使用的样本队列主要来源于癌症基因组图谱(TCGA)中乳腺癌、甲状腺癌和子宫癌的数据,以及从其他 14 项乳腺癌研究中整理的数据。

研究结果如下:

  • 祖先特异性特征共享通路水平的失调:研究人员通过对比不同祖先群体数据训练出的模型特征,发现尽管不同祖先的疾病特征在直接层面上重叠较少,但在功能相互作用网络中却处于共享的子网中。这表明,无需依赖每个祖先群体的大量训练数据来训练特定祖先模型,利用群体基因组数据调整数据分布,就有可能从不平衡的祖先训练数据中检测出公平的疾病特征。
  • 识别祖先特异性遗传变异:研究定义了 EAF 这一统计量来识别群体特异性富集的变异。通过分析发现,非洲血统群体在 COSMIC 癌症相关基因中的平均 EAF 值最高,且更具多样性和采样不足的群体(如非洲、东亚、南亚群体)与大量 EAF 富集基因相关。这一结果凸显了更广泛采样的重要性,同时也表明 EAF 能够整合来自代表性不足群体的信息。
  • 整合群体基因组学和疾病数据:研究人员提出了 PhyloFrame 公平机器学习框架。该框架仅需基因表达数据和样本的类别标签,就能创建适用于所有人群的疾病特征。它通过逻辑回归模型获取初始疾病相关基因集,然后将这些基因投影到功能相互作用网络上,并根据 EAF 对网络进行筛选和扩展,最后重新训练疾病特征回归模型,从而生成更具普适性的疾病特征。
  • 评估模型在多个独立数据集上的性能:研究人员选取了 TCGA 中的三种癌症(乳腺癌、甲状腺癌、子宫癌)数据,将样本按祖先群体划分为多个独立的单祖先数据集和混合祖先数据集。通过在这些数据集上训练和测试 PhyloFrame 模型与基准模型,并比较多个性能指标(如马修斯相关系数(MCC)、受试者工作特征曲线下面积(AUC)等),发现 PhyloFrame 在整体性能上优于基准模型。在乳腺癌和子宫癌的预测任务中,PhyloFrame 的优势更为明显;在甲状腺癌的预测中,虽然 PhyloFrame 的性能提升不具有统计学意义,但也显示出一定的优势。此外,研究还发现,在训练数据中使用欧洲血统数据训练的模型,在应用于多样化数据集时稳健性较差,而 PhyloFrame 在这方面表现更优。
  • 公平机器学习创建更稳定的疾病特征:研究通过测试乳腺癌模型识别的疾病特征之间的重叠情况,发现 PhyloFrame 模型的特征在不同训练集之间的重叠度更高,表明其受训练数据过拟合的影响较小。同时,PhyloFrame 模型能够更一致地识别已知的癌症相关基因,例如在乳腺癌模型中,PhyloFrame 识别出的 COSMIC 癌症相关基因数量更多,且更具一致性。
  • 通过难以预测的样本识别模型漏洞:研究人员通过评估样本特异性准确性,发现不同癌症模型的性能存在差异。在乳腺癌样本中,PhyloFrame 和基准模型表现良好,但基准模型在预测非洲和混合血统个体时表现较差;子宫癌模型的错误率高于乳腺癌但低于甲状腺癌;甲状腺癌模型的性能变异性最大。这表明在复杂的预测任务中,现有模型存在局限性,也凸显了多样化数据的重要性。
  • 混合血统揭示精准医学中的不公平现象:研究发现,混合血统个体在模型分类中的一致性低于单血统个体。通过对乳腺癌数据集的分析,研究人员发现,尽管基准模型和 PhyloFrame 模型在整体上的 AUC 值都很高,但 PhyloFrame 的召回率更高。在预测混合血统个体时,随着欧洲血统比例的增加,两个模型的性能都有所提高,但 PhyloFrame 在所有血统群体中的表现都更好。这表明基准模型可能存在过拟合现象,更倾向于模拟欧洲血统个体的变异,而 PhyloFrame 在处理混合血统个体时更具优势。
  • 乳腺癌模型的外部验证:研究人员整理了 14 项独特的乳腺癌研究数据,对 PhyloFrame 和基准模型进行外部验证。结果显示,在所有样本以及各个大陆血统群体中,PhyloFrame 的预测准确性均显著高于基准模型。这进一步证明了 PhyloFrame 在不同人群中的有效性。
  • 非洲内部的多样性对模型性能的影响:由于非洲数据的缺乏,精准医学研究难以准确代表非洲人群。研究人员利用包含东非个体的验证数据集进行分析,发现 PhyloFrame 和基准模型在非非洲血统个体中的预测准确性最高,在东非血统个体中次之,在西非血统个体中最低。但在所有群体中,PhyloFrame 的性能均优于基准模型,且在非洲人群中,PhyloFrame 的性能下降幅度更小。这表明 PhyloFrame 在处理非洲人群数据时具有更好的适应性。

研究结论和讨论部分指出,PhyloFrame 这种公平机器学习技术能够有效弥补组学精准医学模型中的祖先偏见,使模型在处理不同祖先群体的数据时更加稳健。它不仅在多种癌症数据集上表现出更高的性能,而且能够创建更稳定、更具生物学相关性的疾病特征,更好地识别已知的癌症相关基因。此外,PhyloFrame 还能为那些在数据中代表性严重不足的人群(如东非人群)提供更准确的预测。虽然该框架并非专门针对特定癌症或癌症领域,但在受祖先偏见影响的疾病和预测任务中,有望发挥更大的作用。未来,随着基因组资源和数据的不断完善,PhyloFrame 将在实现公平的精准医学方面发挥重要作用,为所有个体提供更可靠的基因组信息预测。

下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究

10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!

欢迎下载Twist《不断变化的CRISPR筛选格局》电子书

单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析

下载《细胞内蛋白质互作分析方法电子书》

相关新闻
生物通微信公众号
微信
新浪微博

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号