编辑推荐:
在全基因组关联研究(GWAS)中,样本相关性是一大干扰因素。为解决此问题,研究人员开展了关于 SPAGRM 分析框架的研究。结果显示,SPAGRM 能有效控制 I 型错误率,SPAGRM(CCT)聚合结果效果良好。这为 GWAS 研究提供了新方法。
在生命科学和健康医学领域,全基因组关联研究(GWAS)是探索遗传与疾病关系的重要手段。随着生物样本库的发展,大规模 GWAS 研究不断推进,然而样本相关性问题却成了研究路上的 “拦路虎”。当样本存在相关性时,如果不加以适当控制,会导致 I 型错误率升高,使研究结果出现偏差,就像在迷雾中寻找宝藏,很容易迷失方向。特别是在研究复杂性状,如纵向性状(指表型值随时间重复测量的性状,能反映健康状态的演变)时,传统的将遗传相关矩阵(GRM)纳入回归模型的策略困难重重,不仅在统计任务上对准确的方差成分估计要求极高,而且在处理生物样本库的大规模数据时,面临内存使用和计算效率的挑战。在这样的背景下,开展能够有效控制样本相关性的研究迫在眉睫。
北京大学的研究人员为了解决这些问题,开展了关于 “SPAGRM: effectively controlling for sample relatedness in large-scale genome-wide association studies of longitudinal traits” 的研究。他们提出了一种可扩展且准确的分析框架 SPAGRM,该研究成果发表在《Nature Communications》上。这一研究意义重大,它为大规模 GWAS 研究提供了新的有效方法,有助于更准确地识别与疾病相关的遗传变异,推动生命科学和健康医学领域的发展,为疾病的预防、诊断和治疗提供更坚实的遗传学基础。
研究人员在开展研究时用到了以下几个主要关键技术方法:
- 数据模拟:使用英国生物银行(UK Biobank)中无关白人英国受试者的真实变体进行基因下降模拟,生成模拟数据,用于评估 SPAGRM在纵向性状分析中的性能。
- 建立模型:运用线性混合效应模型(LMM)和广义估计方程(GEE)对纵向性状进行建模。LMM 可刻画纵向性状的平均轮廓和个体内(WS)变异性;GEE 则通过用户指定的相关结构来表征纵向数据。
- 近似计算:采用鞍点近似(SPA)方法估计得分统计量的零分布,结合 Chow-Liu 算法近似相关受试者基因型的联合分布,以调整样本相关性。同时使用 Cauchy 组合检验(CCT)聚合不同模型的结果。
下面来看看具体的研究结果:
- SPAGRM框架概述:SPAGRM框架包含两个主要步骤。第一步是拟合零模型,调整协变量对表型的影响并计算模型残差,在此步骤中纳入 GRM 相关随机效应是可选的,这扩大了其适用范围;第二步是通过近似得分统计量的零分布,将感兴趣的性状与单个遗传变异相关联。为提高计算效率,SPAGRM采用了预先估计基因型联合分布、限制最大家族大小、方差比调整等策略12。
- 模拟研究:通过模拟不同家族相关性的数据集,比较了 TrajGWAS、SPAGRM等五种方法。结果表明,SPAGRM、SPAGRM(INT)和 SPAGRM(CCT)能很好地控制 I 型错误率,而 NormGRM在检测罕见变体时无法控制 I 型错误率,TrajGWAS 在处理相关受试者时 I 型错误率显著膨胀。在经验功效方面,当研究队列包含相关受试者时,SPAGRM在检测 βg和 τg时比 TrajGWAS 更具功效;即使在队列仅包含无关受试者时,检测 τg=0 时,SPAGRM也更具优势。此外,SPAGRM(CCT)可作为一种统一的最优方法,结合不同模型的 P 值,在各种模拟设置中都表现出色34。
- SPAGRM在英国生物银行 79 个纵向性状中的应用:将 SPAGRM应用于分析从 UK Biobank 初级护理数据中提取的 79 个纵向性状。与 TrajGWAS 相比,SPAGRM成功识别出更多显著位点,且能有效控制 I 型错误率。例如,在估计肾小球滤过率(eGFR)、血清铁蛋白等性状的研究中,SPAGRM和 SPAGRM(CCT)表现出比 TrajGWAS 和 NormGRM更优异的性能,检测到了更多与性状相关的遗传位点56。
- 广义估计方程有助于提高功效:研究发现广义估计方程(GEE)可通过指定相关结构来刻画纵向数据,与线性混合模型(LMM)相比更灵活。将基于 GEE 模型的 SPAGRM方法(如 SPAGRM(GEEexc)和 SPAGRM(GEEarl))与基于 LMM 的 SPAGRM方法进行比较,结果表明基于 GEE 模型的方法在某些情况下能产生更显著的 P 值,且 SPAGRM(CCT)在不同性状分析中表现稳定,能达到与最有效方法相当的 P 值78。
- 计算效率:评估了 SPAGRM的计算效率,发现其计算 GRM 和 IBD 共享概率的时间成本较低。在分析纵向 BMI 数据时,SPAGRM的运行时间比 TrajGWAS 长,但内存使用更高效。
研究结论和讨论部分指出,SPAGRM是一种可扩展且准确的分析框架,通过将基因型视为随机变量,利用 IBD 和 Chow-Liu 算法近似基因型联合分布,有效控制样本相关性,广泛适用于复杂性状研究。SPAGRM能很好地控制 I 型错误率,比 TrajGWAS 更具功效,且通过不同方式计算或更新模型残差可进一步提高功效。同时,研究人员提出 SPAGRM(CCT)来聚合不同模型的结果,可作为一种广泛有效的方法。然而,SPAGRM也存在一些局限性,如假设基因型边际上遵循二项分布,需进行 HWE 检验;基于得分检验,不拟合完整模型;在 UK Biobank 数据分析中仅关注纵向轨迹的均值和 WS 变异性;当前版本仅支持分析常染色体等。尽管如此,该研究为 GWAS 研究提供了新的思路和方法,在生命科学和健康医学领域具有重要的推动作用,有望为后续研究奠定基础,助力更深入地探索遗传与疾病的关系。