
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于变分推断的快速全基因组关联分析方法Quickdraws显著提升混合模型统计效能
【字体: 大 中 小 】 时间:2025年01月23日 来源:Nature Genetics 31.8
编辑推荐:
研究人员针对当前全基因组关联分析(GWAS)方法在计算效率与统计效能间难以兼顾的困境,开发了基于变分推断和尖峰-平板先验的Quickdraws算法。该方法通过随机变分推断和GPU加速实现了线性计算复杂度,在UK Biobank数据分析中比REGENIE多发现4.97%数量性状和3.25%疾病性状关联位点,同时保持与BOLT-LMM相当的统计效能,为大规模生物库研究提供了高效分析工具。
随着现代生物库规模的爆炸式增长,全基因组关联研究(GWAS)面临着计算效率与统计效能难以兼得的困境。传统方法如BOLT-LMM虽具有优异的统计效能,但其O(N1.5)的计算复杂度难以应对百万级样本分析;而SAIGE、REGENIE等高效算法又因采用无限小先验或稀疏遗传关系矩阵等近似方法,导致在非多基因遗传架构中统计效能下降。特别是在二分类性状分析中,病例对照不平衡常导致关联统计量膨胀,这一"鱼与熊掌不可兼得"的现状严重制约着大规模遗传研究的进展。
牛津大学(University of Oxford)的研究团队在《Nature Genetics》发表的研究中,开发了名为Quickdraws的创新算法。该方法通过巧妙融合机器学习技术与经典遗传分析模型,成功实现了统计效能与计算效率的双重突破。研究显示,Quickdraws在UK Biobank约40万样本的分析中,不仅运行成本与现有高效方法相当,还能多发现22.71%的数量性状和7.07%的疾病性状关联位点,相当于在不增加样本量的情况下获得了13.4%的统计效能提升。
研究团队主要采用了三项关键技术:(1)基于尖峰-平板先验(spike-and-slab prior)的贝叶斯回归模型,通过随机变分推断实现线性计算复杂度;(2)利用GPU加速矩阵运算的转移学习策略;(3)针对二分类性状的近似Firth逻辑回归校正。分析数据来自UK Biobank约40万英国白人样本的79项数量性状和50种疾病性状,以及Biobank Japan和FinnGen的验证队列。
统计效能评估
通过50,000名UK Biobank参与者的模拟分析显示,Quickdraws在数量性状关联检测中的χ2统计量比线性回归提高19.2%,尤其在低多基因性(1%因果变异)时优势更显著。对于病例对照不平衡的二分类性状,该方法成功控制了假阳性率,而BOLT-LMM在患病率≤0.1时出现显著膨胀。
实际数据分析
应用至UK Biobank约40万样本时,Quickdraws鉴定出26,236个独立关联位点,较REGENIE和FastGWA分别多发现4.97%和22.71%。在250个血浆蛋白性状分析中,其有效样本量比FastGWA提高14.7%。通过Biobank Japan和FinnGen数据的验证,Quickdraws发现的关联位点复制率显著高于其他方法。
计算效率优化
在UK Biobank研究分析平台上,Quickdraws分析50个数量性状耗时149.3小时,成本93英镑,仅为BOLT-LMM的1/80。对于二分类性状,虽然其计算时间(682.3小时)略长于FastGWA-GLMM(254.1小时),但统计效能显著提高。
功能与预测应用
Quickdraws第一步模型拟合产生的多基因评分(PGS)在留出样本中预测准确度(r=0.307)显著优于基于汇总统计的PRS-CS方法(r=0.271)。功能富集分析显示,该方法独有信号与已知功能区域具有相似注释模式,验证了其生物学合理性。
这项研究通过将现代机器学习技术与经典遗传分析方法创新融合,解决了GWAS领域长期存在的"效率-效能"权衡难题。Quickdraws不仅为分析日益庞大的生物医学数据提供了高效工具,其采用的变分推断框架更为整合复杂先验知识开辟了新途径。特别值得注意的是,该方法在保持计算效率的同时,成功捕捉了非无限小遗传效应,这一突破对解析复杂性状的遗传架构具有重要意义。随着生物库数据多样性的增加,这种可扩展的分析框架有望在跨群体研究和精准医学中发挥更大价值。
生物通微信公众号
知名企业招聘