《BMC Genomics》:Efficient blockLASSO for polygenic scores with applications to all of us and UK Biobank
编辑推荐:
在多基因评分(PGS)研究中,传统方法存在计算效率低、内存需求大等问题。为解决这些难题,研究人员开展了 “blockLASSO” 方法训练 PGS 的研究。结果表明,该方法在不同生物样本库和祖先群体中,与传统 LASSO 效果相似,但计算效率更高,为探索性研究提供了新途径。
在生命科学和健康医学领域,多基因评分(Polygenic Scores,PGS)正逐渐成为理解遗传结构、识别疾病潜在遗传风险以及应用于临床的重要工具。传统的 PGS 构建方法主要有两种:一种是基于单标记回归,结合基因组信息进行加权;另一种则是直接在基因组子集上执行训练算法。然而,这两种方法都存在各自的缺陷。第一种方法依赖全基因组关联研究(Genome-Wide Association Studies,GWAS)结果,在近似基因组水平数据的过程中容易丢失信息;第二种方法虽然直接在基因组数据上训练算法,但需要加载庞大的遗传矩阵,对计算机内存要求极高,计算成本也很高。这些问题限制了 PGS 的广泛应用和深入研究,因此,寻找一种更高效、更实用的 PGS 训练方法迫在眉睫。
为了解决这些问题,来自密歇根州立大学(Michigan State University)和 Genomic Prediction, Inc. 的研究人员 Timothy G. Raben、Louis Lello、Erik Widen 和 Stephen D. H. Hsu 开展了一项关于 “block” LASSO(blockLASSO)方法训练 PGS 的研究。该研究成果发表在《BMC Genomics》杂志上。
研究人员在研究过程中,主要运用了以下关键技术方法:
样本处理与分组 :使用来自 All of Us(AoU)和英国生物样本库(UK Biobank,UKB)的数据,通过自我报告、调查数据、ICD9/10 编码诊断和实验室测量确定表型,对样本进行预处理,去除异常值。将样本分为训练集、模型选择集(验证集)和测试集,其中在两个生物样本库中均使用欧洲(EUR)队列进行训练,其他队列用于测试8 9 11 。
特征选择 :通过 GWAS 对单核苷酸变异(Single Nucleotide Variants,SNVs)进行排序,选择候选 SNVs。针对不同的方法(blockLASSO 和传统 LASSO)和不同的生物样本库,设置不同的筛选条件。例如,在选择特征时使用等位基因频率 > 0.001 的阈值,以避免假阳性关联12 13 。
模型训练 :使用 Scikit-Learn 进行 LASSO 算法训练,在 blockLASSO 中,假设关联结构为块对角矩阵,对每个块独立运行 LASSO 算法,然后重新加权,确定每个块的相对重要性14 15 。
研究结果如下:
blockLASSO 与传统 LASSO 的性能比较 :在 AoU、UKB 以及 UKB 缩减训练集(UKB*)中,对 11 种不同表型进行研究。通过比较接受者操作特征曲线下面积(Area Under the Receiver Operating Characteristic Curve,AUC)和表型与 PGS 的相关性(corr.),发现 blockLASSO 与传统的(全局)LASSO 在训练 PGS 方面效果大致相同。例如,在 AoU 中,blockLASSO 训练的 1 型糖尿病(T1D)的 PGS 的 AUC 为 0.63±0.02,体重指数(Body Mass Index,BMI)的相关性为 0.21±0.01;传统 LASSO 训练的 T1D 的 AUC 为 0.65±0.03,BMI 的相关性为 0.19±0.031 2 3 。
计算效率和内存使用 :blockLASSO 在计算效率和内存使用方面表现优异。使用全 UKB 数据训练时,blockLASSO 比传统的全局 LASSO 快得多,使用的内存也少得多。例如,在训练痛风、牛皮癣和 1 型糖尿病等疾病的预测模型时,blockLASSO 平均每个染色体使用 133 个 SNV,仅需 2.63GB 内存,运行时间为 0.924 秒。相比之下,基于 scikit-learn 的传统全局 LASSO 使用 50,000 个 SNV,需要 500 - 700GB 内存,运行时间为 8 - 24 小时4 5 6 。
特征选择和解释 :blockLASSO 和传统 LASSO 使用不同的输入 SNVs,但通过比较它们对 PGS 方差的解释发现,blockLASSO 能够恢复与传统 LASSO 相似的重要区域,且权重相似。这表明即使使用不同的特征选择方法,blockLASSO 仍能获得有意义的 PGS7 10 。
研究结论和讨论部分指出,blockLASSO 为多基因评分的训练提供了一种高效的新方法。它能够在保证预测性能的同时,显著减少计算时间和内存需求,这对于大规模的基因组分析和云计算环境下的研究具有重要意义。随着越来越多的生物样本库采用第三方云计算资源,这种高效的方法能够降低研究成本,使研究人员能够更便捷地开展探索性研究。此外,研究还发现训练和测试多基因预测器在很大程度上与数据集无关,这表明混杂因素对基于 LASSO 的 PGS 影响较小。然而,该方法也存在一些局限性,如对变异的预筛选更为敏感,可能导致过拟合。未来的研究可以进一步探索如何优化 blockLASSO 方法,结合其他筛选规则、功能信息和表型定义的优化,进一步提高 PGS 的性能。同时,尽管 PGS 在临床实践中展现出了巨大的潜力,但仍面临着实际和伦理方面的挑战,需要在后续研究中加以关注和解决。
闂佺懓鐏氶幑浣虹矈閿燂拷
婵炴垶鎸搁鍫澝归崶鈹惧亾閻熼偊妲圭€规挸瀛╃€靛ジ鏁傞悙顒佹瘎闁诲孩绋掗崝鎺楀礉閻旂厧违濠电姴娲犻崑鎾愁潩瀹曞洨鐣虹紓鍌欑濡粓宕曢鍛浄闁挎繂鐗撳Ο瀣煙濞茶骞橀柕鍥ㄥ哺瀵剟骞嶉鐣屾殸闂佽偐鐡旈崹铏櫠閸ф顥堥柛鎾茬娴狀垶鏌曢崱妤婂剱閻㈩垱澹嗗Σ鎰板閻欌偓濞层倕霉閿濆棙绀嬮柍褜鍓氭穱铏规崲閸愨晝顩烽柨婵嗙墦濡鏌涢幒鎴烆棡闁诲氦濮ょ粚閬嶅礃椤撶姷顔掗梺璇″枔閸斿骸鈻撻幋锔藉殥妞ゆ牗绮岄埛鏍煕濞嗘劕鐏╂鐐叉喘閹秹寮崒妤佹櫃
10x Genomics闂佸搫鍊瑰姗€骞栭—娓媠ium HD 閻庢鍠掗崑鎾绘煕濮樼厧鐏犵€规洜鍠撶槐鎺楀幢濮橆剙濮冮梺鍛婂笒濡粍銇旈幖浣瑰仢闁搞儮鏅滈悾閬嶆煕韫囧濮€婵炴潙妫滈妵鎰板即閻樼數鐓佺紓浣告湰濡炶棄螞閸ф绀嗛柛鈩冡缚閳ь兛绮欓弫宥夋晸閿燂拷
濠电偛妫庨崹鑲╂崲鐎n偆鈻旈悗锝庡幗缁佺櫉wist闂侀潧妫楅敃锝囩箔婢舵劕妫樻い鎾跺仜缂嶄線鏌涢弽銊у⒈婵炲牊鍘ISPR缂備焦绋掗惄顖炲焵椤掆偓椤︿即鎮ч崫銉ゆ勃闁逞屽墴婵″鈧綆鍓氶弳鈺呮倵濞戞瑥濮冮柛鏃撴嫹
闂佸憡顨嗗ú婊呭垝韫囨稒鍤勯柣鎰嚟閵堟挳骞栭弶鎴犵闁告瑥妫濆濠氬Ω閵夛絼娴烽柣鐘辩劍瑜板啴鎮ラ敓锟� - 濠电儑绲藉畷顒勫矗閸℃ḿ顩查柛鈩冾嚧閹烘挾顩烽幖杈剧秵閸庢垵鈽夐幘顖氫壕婵炴垶鎼╂禍婊冪暦閻旇櫣纾奸柛鈩冭壘閸旀帡鎮楅崷顓炰槐闁绘稒鐟ч幏瀣箲閹伴潧鎮侀梺鍛婂笧婢ф寮抽悢鐓庣妞ゆ柨鐏濈粣娑㈡煙鐠ㄥ鍊婚悷銏ゆ煕濞嗘ê鐏ユい顐㈩儔瀹曠娀寮介顐e浮瀵悂鏁撻敓锟�
婵炴垶鎸搁鍫澝归崶顒€违濠电姴瀚惌搴ㄦ煠瀹曞洤浠滈柛鐐存尦閹藉倻鈧綆鍓氶銈夋偣閹扳晛濡虹紒銊у閹峰懎饪伴崘銊р偓濠氭煛鐎n偄濮堥柡宀€鍠庨埢鏃堝即閻樿櫕姣勯柣搴㈢⊕閸旀帡宕濋悢鐓幬ラ柨鐕傛嫹