编辑推荐:
多基因评分(PGS)模型在不同族群的预测准确性存疑,尤其在夏威夷原住民中缺乏评估。研究人员利用多族群队列数据,研究 BMI、身高和 2 型糖尿病(T2D)的 PGS 模型。结果发现其准确性因族群而异,优化效果有限。该研究为改善少数族裔 PGS 模型提供方向。
在生命科学和健康医学领域,多基因评分(Polygenic Scores,PGS)的出现为预测个体患复杂疾病的遗传风险带来了新的希望。它就像一把基因 “钥匙”,试图打开精准医疗的大门,通过计算个体携带的与疾病相关的等位基因数量,并结合其效应大小,评估个体的疾病风险。然而,这把 “钥匙” 在不同人群中的适配性却大相径庭。目前,大多数 PGS 模型是基于欧洲或东亚血统人群训练的,当应用于其他少数族裔群体时,往往表现不佳。这就好比一把原本为特定锁具设计的钥匙,在其他锁上却难以发挥作用。
夏威夷原住民作为太平洋岛民的重要组成部分,在美国拥有独特的地位。他们面临着肥胖、糖尿病和心血管疾病等高发风险,同时癌症死亡率也较高。但由于历史上的殖民和全球化,夏威夷原住民的基因具有高度混杂性,主要有波利尼西亚(约 40%)、欧洲(约 30%)和东亚(约 29%)等血统。尽管疾病风险高,但针对这一群体的基因研究却严重不足,他们就像被精准医疗列车遗忘在站台的乘客,无法充分享受基因研究和基因组医学带来的益处。
为了填补这一空白,来自美国南加州大学(University of Southern California)、夏威夷大学癌症中心(University of Hawai’i Cancer Center)等多个研究机构的研究人员展开了一项深入研究。该研究成果发表在《Communications Biology》上,为我们理解 PGS 模型在夏威夷原住民中的应用提供了宝贵的见解。
研究人员主要采用了以下关键技术方法:首先,收集了大量已发表的全基因组关联研究(Genome-Wide Association Studies,GWAS)汇总统计数据,涵盖欧洲(EUR)、东亚(EAS)和多族群(META)等不同人群,用于训练 PGS 模型。同时,从 PGS 目录数据库获取相关模型进行测试。其次,利用多族群队列(Multiethnic Cohort,MEC)中的个体水平遗传数据,包括约 5300 名夏威夷原住民(MEC-NH)、约 19600 名日裔美国人(MEC-J)和约 8500 名非拉丁裔白人(MEC-W),这些数据来自 Illumina 多族群全球阵列(MEGA)和全球多样性阵列(GDA)。在分析过程中,运用了两种常用的 PGS 模型构建方法,即聚类和阈值法(Clumping and Thresholding,C+T)和 LDpred2 方法 ,并通过回归模型评估 PGS 模型与性状或疾病之间的关联。
研究结果
- EAS 或 EUR 训练的 PGS 在夏威夷原住民中的预测准确性降低:研究人员发现,PGS 模型在同种群验证队列中的预测准确性最高。例如,基于 BBJ GWAS 汇总统计数据优化的 BMI 的 PGS 模型,在 MEC-J 验证队列中部分 R2达到 0.059 。然而,当将 EAS 或 EUR 训练的 PGS 应用于夏威夷原住民队列时,预测准确性并不总是很差,这取决于所研究的性状和训练所用的 GWAS 汇总统计数据。对于身高,EAS 训练的 PGS 预测准确性明显下降,如基于 BBJ GWAS 的 PGS,在 MEC-J 中部分 R2为 0.253 ,在 MEC-NH 中降至 0.048 。而 BMI 的 EAS 或 EUR 训练的 PGS 在 MEC-NH 中下降幅度较小,T2D 的 PGS 模型表现与身高类似,但总体预测准确性更低。
- 在夏威夷原住民中优化 PGS 不一定能提高其转移性:由于波利尼西亚血统人群缺乏大规模 GWAS,研究人员尝试用 MEC-NH 队列优化 PGS 模型。结果发现,在 MEC-NH 中优化的 PGS 模型,在验证队列中的预测准确性并不一定比使用 MEC-J 和 MEC-W 优化的模型更好。仅在某些情况下,如 BMI 使用 UKB + GIANT 的 GWAS 汇总统计数据,以及身高使用 BBJ + TWB 的 GWAS 汇总统计数据时,优化才有一定效果,但这种效果并不具有普遍性。
- 公开可用的 PGS 模型对夏威夷原住民的预测准确性:研究人员构建并评估了基于最新 GWAS 荟萃分析数据集的 PGS 模型,同时验证了 PGS 目录中所有与 BMI、身高和 T2D 相关的模型。结果显示,本研究开发的 BMI 的 PGS 模型与目录中表现最佳的公开模型预测准确性相近;T2D 方面,目录中有比本研究更好的模型;而对于身高,目录中存在比本研究更准确的模型,部分顶尖模型采用集成 PGS 方法,且在南亚人群中训练。
- 在波利尼西亚血统最丰富的夏威夷原住民中 PGS 预测准确性降低:研究发现,PGS 模型在波利尼西亚血统最丰富的夏威夷原住民(PNS)亚队列中的预测准确性较低。例如,BMI 表现最佳的 PGS 模型(PGS004734)在随机选择的 MEC-NH 中部分 R2为 0.118 ,在 PNS 中降至 0.084 。不过,本研究中使用 MEC-NH 优化的 PGS 模型在 PNS 中的性能下降相对较小。
研究结论与讨论
这项研究系统评估了 PGS 模型在夏威夷原住民中的预测准确性和转移性。研究表明,虽然 EAS 训练的 PGS 在其他大陆人群中预测准确性降低,但在夏威夷原住民队列中有时表现出可比的准确性,尤其是 BMI 方面。使用 MEC-NH 优化 PGS 模型对提高预测准确性的作用有限。此外,公开可用的 PGS 模型在 PNS 亚队列中的预测准确性下降,这表明近期与欧洲或东亚血统的混杂可能影响了 PGS 的性能,这些模型可能更不适用于太平洋地区的波利尼西亚血统人群。
研究还发现,训练 PGS 模型时,基于欧洲的 GWAS 通常产生性能更好的模型,这反映了 GWAS 中存在的偏差,即欧洲血统人群的 GWAS 样本量更大、更具信息性。为了提高 PGS 模型的准确性,未来不仅要增加 GWAS 的样本量,还需提高其代表性和多样性。例如,可以整合多个群体的 GWAS 汇总统计数据或 PGS 模型构建新的 PGS 模型,但波利尼西亚特定研究的样本量小可能会带来噪声问题。因此,加强与波利尼西亚血统社区的教育、合作和招募,开展更多相关 GWAS 研究至关重要。
此外,PGS 模型在 MEC-NH 中的性能因性状、GWAS 数据集和优化方法而异,这导致其转移性表现不一致。遗传血统的变化可能影响个体疾病风险,因此结合遗传血统的评估方法可能会提高夏威夷原住民或混杂人群的预测准确性。但由于收集和使用夏威夷原住民遗传数据存在历史遗留问题,引发了社区的不信任,未来需要围绕研究参与、遗传数据收集和数据主权等问题,与社区进行持续讨论、互动和合作。
总体而言,这项研究为改善夏威夷原住民和其他少数族裔群体的多基因预测模型提供了重要的基础,为未来精准医疗在不同族群中的应用指明了方向,推动了生命科学和健康医学领域向更加公平、有效的方向发展。