基于基因组背景信息与对抗性学习的2型糖尿病遗传风险分类新方法
《Communications Medicine》:Using genomic context informed genotype data and within-model ancestry adjustment to classify type 2 diabetes
【字体:
大
中
小
】
时间:2025年11月19日
来源:Communications Medicine 6.3
编辑推荐:
本研究针对复杂遗传疾病风险预测性能不足的问题,开发了结合基因组背景信息(CID)的卷积神经网络(CNN)模型。通过对抗性任务消除祖先信息混淆,结果显示神经网络模型(AUC:0.66)显著优于传统多基因风险评分(PRS)方法,为提升疾病遗传检测精度提供了新方向。
在精准医疗时代,利用遗传信息预测疾病风险一直是研究人员追求的目标。2型糖尿病(T2D)作为全球患病率高达6.3%的复杂遗传疾病,其遗传机制研究已通过全基因组关联分析(GWAS)鉴定出数百个相关变异位点。然而,尽管T2D具有较高的遗传度,现有模型的预测性能仍远低于理论预期,这成为遗传流行病学领域的一大挑战。
传统多基因风险评分(PRS)方法在T2D分类中的表现不尽如人意,部分原因在于T2D的遗传风险涉及全基因组范围内众多小效应位点,比主要组织相容性复合体(MHC)区域主导的1型糖尿病更为复杂。此外,机器学习模型容易受到祖先混淆(population stratification)的影响——当训练数据中病例和对照存在系统性祖先差异时,模型可能学会区分祖先而非真正的疾病风险。
为了突破这些限制,Eric J. Barnett等研究人员在《Communications Medicine》上发表了一项创新研究,开发了一种结合基因组背景信息的深度学习框架。该研究的核心创新在于将基因功能注释、风险关联信息等基因组背景与基因型数据整合,构建上下文信息数据矩阵(CID),并采用对抗性学习技术消除祖先信息的影响。
研究人员主要采用了以下几种关键技术方法:利用UK Biobank和WTCCC数据库的基因型与表型数据;构建包含功能注释和风险值的上下文信息数据矩阵(CID);设计多种卷积神经网络(CNN)和神经网络(NN)架构;应用梯度反转层实现对抗性祖先调整;采用集成梯度法进行特征重要性分析;通过外部验证评估模型泛化能力。
通过系统比较不同模型的性能,研究发现神经网络模型"Geno-T2D Adv-PC"(AUC:0.66)和卷积神经网络模型"CID-T2D Track-PC/Geno"(AUC:0.65)均显著优于最佳多基因风险评分方法(LDpred2 AUC:0.63)。值得注意的是,这些机器学习模型仅使用了11,730个单核苷酸多态性(SNP),而PRS方法使用了近百万个SNP,表明新方法在特征利用效率上的优势。
研究通过巧妙的实验设计验证了祖先调整的有效性。使用仅基于祖先主成分(PC)的模型预测T2D的AUC为0.56,表明祖先信息确实与疾病分类相关。通过引入梯度反转层创建对抗性任务,成功消除了模型对祖先信息的依赖,同时保持了疾病分类性能。在"Geno-T2D Adv-PC"模型中,祖先主成分估计的R2变为负值,说明模型无法利用祖先信息进行分类。
通过集成梯度分析,研究发现在最佳模型中分别有352、57和62个SNP在病例和对照间的平均归因存在显著差异。这些SNP与T2D的GWAS关联p值与其他SNP无显著差异,表明模型捕捉到了超越等位基因频率差异的信息。外部验证显示模型在WTCCC数据集上保持良好性能,证明了方法的泛化能力。
通过比较不同输入类型的模型性能,研究发现CID输入能够创建独特的风险表征,其分类性能显著优于仅使用基因型数据的模型。当使用对抗性任务强制模型学习输入特异性特征时,"CID Specific"和"Geno Specific"模型分别捕捉到了不同的风险模式,而结合两者特征的"Combined Specific"模型性能进一步提升,说明两种输入提供了互补的风险信息。
该研究的讨论部分强调了几个重要观点。首先,仅依靠前10个主成分可能不足以完全消除祖先混淆的影响,因此模型内祖先控制方法对于构建稳健的预测模型至关重要。其次,基因组背景信息的加入使模型能够捕捉传统方法难以发现的风险模式,这为理解T2D的复杂遗传机制提供了新视角。
尽管当前模型的性能尚未达到临床实用要求,但这种结合基因组背景信息和对抗性学习的方法代表了遗传风险预测的重要进展。研究证实了卷积神经网络在处理基因组数据中的潜力,特别是当结合丰富的功能注释信息时,能够提高模型的特征利用效率。对抗性学习技术的成功应用也为处理祖先混淆问题提供了新思路,有助于开发更具泛化能力的遗传风险模型。
未来研究可进一步优化模型架构,扩展基因组注释类型,并纳入更多祖先多样化的样本,以推动复杂疾病遗传风险预测向临床实用迈进。这种融合多组学数据和先进机器学习算法的方法,有望最终实现个性化疾病风险预测的精准医疗愿景。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号