巧用 LDpred2 技术构建甲基化评分:探索精神分裂症新视角

【字体: 时间:2025年04月24日 来源:BMC Research Notes 2.8

编辑推荐:

  为探究能否用 LDpred2 从甲基化组关联研究(MWAS)推导 DNA 甲基化评分(MS),研究人员以精神分裂症数据为样本开展研究。结果显示,基于 LDpred2 的模型表现略优于传统方法,但结构先验选择并非关键。该研究为 MS 构建提供新方向。

  在生命科学和健康医学领域,DNA 甲基化研究一直是热门话题。DNA 甲基化就像细胞中的 “小卫士”,它能在不改变 DNA 序列的情况下,影响基因的表达,进而对各种生物过程产生作用。在复杂精神障碍方面,比如精神分裂症,研究 DNA 甲基化与疾病之间的关系,有助于揭示疾病的发病机制,找到潜在的治疗靶点。
以往,在甲基化组关联研究(MWAS)中构建甲基化评分(MS)时,常用的修剪和阈值(P + T)方法存在一定局限性。而在多基因风险评分(PRS)领域,已经有许多先进方法,如基于贝叶斯回归、正则化线性回归等技术的方法,表现优于 P + T 方法,但这些方法在 MS 构建中的应用还未得到充分探索。其中,R 包 LDpred2 在 PRS 构建中表现出色,它利用外部参考连锁不平衡(LD)相关图作为先验,通过吉布斯采样计算后验效应大小。然而,LD 并不适用于甲基化,所以寻找合适的替代先验,成为将 LDpred2 应用于 MS 构建的关键问题。

为了解决这些问题,来自挪威卑尔根大学临床科学系、豪克兰大学医院医学遗传学系等多个研究机构的研究人员,开展了一项关于利用 LDpred2 技术构建甲基化评分的研究。他们旨在探究能否将 LDpred2 进行调整,使其适用于从 MWAS 中推导 MS,并比较基于 LDpred2 构建的 MS 与传统 P + T 方法的优劣。

研究人员用到的主要关键技术方法如下:首先,使用了多个 R 包,如 CoMeBack 版本 0.1.0、bigsnpr 版本 1.12.2(包括 bigstatsr 和 LDpred2)。其中,CoMeBack 用于计算共甲基化区域(CMRs)并分配探针,bigsnpr 中的 LDpred2 则是核心分析工具。其次,研究采用了多种聚类方法,如以 CMRs、拓扑相关结构域(TADs)、滑动窗口法创建聚类,还设置了随机聚类作为对照。此外,使用训练数据和测试数据进行模型构建与评估,训练数据来自之前发表的精神分裂症 EWAS 荟萃分析,测试数据则是经过预处理的 NORMENT TOP 样本中的个体外周血甲基化数据。

研究结果


  1. 不同先验模型的构建与评估:研究人员用 LDpred2 测试了两种先验(CMRs 和 TADs)来创建 MS。基于 CMRs 先验构建了两个模型,一个包含单例簇,一个排除单例簇。同时,使用 CoMeBack 创建了六种不同窗口大小(5kb、10kb、20kb、100kb、500kb 和 1Mb)的滑动窗口模型,并创建了十组随机聚类作为 TAD 模型的空模型。之后,通过逻辑回归将这些模型与现有的 P + T 模型进行比较。
  2. 模型性能比较:包含单例簇的基于 CMRs 的模型表现不佳,因为它在相关矩阵中仅创建了部分块结构,为算法提供的相关信息过少。排除单例簇后,模型性能虽有显著提升,但出现的负h2值表明相关矩阵可能存在负特征值,模型因此被舍弃。TADs 为基础的模型表现略好,不过由十组随机聚类组成的空模型与 TAD 模型结果近乎相同,这表明可能是算法本身及其在计算后验效应大小时对探针 - 探针相关性的使用,而非 TAD 结构,提升了模型性能。滑动窗口模型的结果与 TAD 模型也几乎一样,即便 5kb 滑动窗口仅将 74% 的探针聚类成非单例簇,其表现仍与 TAD 簇相当,且较小的簇大小并未对模型产生负面影响。

研究结论与讨论


该研究表明,基于 LDpred2 的模型在构建 MS 时,性能略优于传统的 P + T 方法,这说明将 PRS 方法应用于 MS 构建是可行的。同时,研究结果支持了之前的研究发现,即约 3.5% 的精神分裂症表型变异可由 DNA 甲基化通过 MS 解释 。在 MS 构建过程中,CMRs 先验在分析中表现不佳,TAD 先验也未显著优于随机聚类空模型,这意味着在 MS 创建过程中,关键步骤可能是通过修剪(如 P + T 方法)或正则化(如 LDpred2)来限制纳入的探针数量。

此外,该研究也存在一定局限性。例如,LDpred2 模型仅在单一数据集和单一表型上进行了测试;矩阵中的块是使用测试集创建的,存在数据泄露风险;模型构建使用的 LDpred2 - auto 函数虽无需验证集调整超参数,但理想情况下应使用独立验证集和 - grid 模型进行测试;训练 MWAS 和测试样本的样本量分别为 2015 和 1227,可能限制了 MS 的效力,后续可能需要更大样本量的测试。

尽管如此,这项研究仍为 MS 构建提供了新的思路和方法,为深入探究 DNA 甲基化与精神分裂症等复杂疾病的关系奠定了基础。未来,研究人员可以进一步探索其他类型的算法,如随机森林或神经网络,这些不依赖标准线性统计方法的算法,可能会为 MS 构建带来新的突破,帮助人们更好地理解和应对复杂精神障碍疾病。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号