编辑推荐:
在孟德尔随机化(MR)研究中,现有方法在无效工具变量存在时易出现 I 型错误率膨胀和因果效应偏差。研究人员开展 “基于随机期望最大化算法的孟德尔随机化潜在结果变量法” 研究,结果显示新方法在控制错误率、偏差等方面表现更优,为 MR 分析提供更精准框架。
在生命科学和健康医学领域,探究遗传与环境因素如何相互作用影响复杂性状一直是研究的重点。复杂性状由遗传和环境因素共同作用产生,基因组 - wide 关联研究(GWAS)揭示了遗传因素的基础,流行病学研究强调了环境因素的作用。而水平多效性(一个基因变异影响多个性状)和垂直多效性(基因变异通过相同因果途径影响结果变量)在其中扮演着重要角色。传统的孟德尔随机化(MR)方法是检测垂直多效性和估计暴露对结果因果效应的有力工具,但它存在一些问题。当存在无效工具变量时,现有 MR 方法会出现 I 型错误率膨胀和因果效应偏差,这使得研究结果的准确性大打折扣。因此,为了更准确地揭示暴露与结果之间的因果关系,来自澳大利亚等多地研究机构的 Lamessa Dube Amente、S. Hong Lee 等人开展了相关研究,研究成果发表在《Human Genetics》杂志上。
研究人员运用了多种关键技术方法。在模拟研究中,通过设定不同的场景模拟数据,包括无多效性、平衡多效性、定向多效性以及通过混杂因素产生多效性等情况,来对比不同 MR 方法的性能。对于真实数据分析,研究人员选取了公开的 GWAS 汇总数据,像冠心病(CAD)、血脂、血压、体重指数(BMI)和代谢综合征(MetS)相关数据等进行因果关系探究。同时,研究使用了潜在结果变量法(LOVA)结合随机期望最大化(EM)算法,该方法通过生成潜在表型排除垂直多效性影响,并迭代优化因果效应估计值。
研究结果如下:
- 模拟结果:在零假设(无因果效应)且使用有效工具变量的情况下,所有方法的 I 型错误率都能得到较好控制。但在平衡多效性、定向多效性等场景中,随着无效工具变量比例增加,许多传统 MR 方法的 I 型错误率和均方误差(MSE)显著上升,如加权中位数、加权模式等方法的 I 型错误率膨胀明显,IVW 和 MR-Egger 的 MSE 更大。而新提出的 MR-LOVA 方法在这些情况下,I 型错误率和 MSE 的增长都极小。在替代假设(非零因果效应)下,MR-LOVA 方法在样本量为 50,000 时与其他成熟 MR 方法的检验效能相当,且在均方误差和偏差控制上表现更优。此外,MR-LOVA 方法在检测定向多效性和 InSIDE 假设违背方面也表现出色,比 MR-Egger 方法更具优势。
- 真实数据分析:在对血脂、血压与 CAD 以及 BMI 与 MetS 等关系的分析中,对于 LDL 与 CAD,多数方法都发现了显著关联,MR-LOVA 等方法的估计较为一致;HDL 与 CAD,多数方法未发现显著关联;血压与 CAD,所有方法都观察到了显著正相关。对于 BMI 与 MetS,多数方法都支持 BMI 对 MetS 有因果效应,MR-LOVA 显示出较强的关联。但在分析 BMI 与 MetS 得分时,MR-LOVA 的估计值与其他方法差异较大,其他方法的估计值因水平多效性的影响而偏高。
研究结论和讨论部分指出,MR-LOVA 方法为 MR 分析带来了新的突破。它通过利用潜在表型排除垂直多效性影响,借助 EM 算法迭代优化估计,提高了因果效应估计的准确性。在多种复杂遗传场景下,MR-LOVA 在控制 I 型错误率和均方误差方面表现出色,有效减少了假阳性结果,在遗传混杂存在的情况下也展现出更强的稳健性。与其他方法相比,MR-LOVA 能更有效地处理 LD 诱导的水平多效性问题,还能明确区分不同类型的多效性,对 InSIDE 假设违背的检测更具针对性。同时,该方法对弱工具变量偏差的控制也更好。总体而言,MR-LOVA 为研究复杂性状的因果推断提供了更可靠的工具,有助于研究人员更深入地探索复杂疾病和性状的遗传基础,未来可在更多样的人群和不同表型背景下进一步研究应用。