基于亲缘关系的多内核学习基因组预测对表型性状潜在遗传机制的新洞察

《Genome Biology》:Genomic prediction with kinship-based multiple kernel learning produces hypothesis on the underlying inheritance mechanisms of phenotypic traits

【字体: 时间:2025年04月05日 来源:Genome Biology 10.1

编辑推荐:

  为解决基因组预测及解释中遗传机制研究的问题,研究人员开展了基于亲缘关系的多内核学习(GMKL)用于基因组预测的研究。结果表明 GMKL 优于传统方法,能对遗传机制提出假设,这为理解基因组数据与表型关系提供新视角。

  在生命科学领域,基因组学的发展让人们对生物遗传信息的探索不断深入。基因组预测在农业和人类遗传学中都扮演着重要角色。在农业中,它用于预测个体的遗传价值,帮助选育优良品种;在人类遗传学里,则致力于评估个体患疾病的风险。然而,目前的研究方法存在一些局限性。传统的基因组最佳线性无偏预测(GBLUP)主要依赖于计算亲缘关系矩阵来模拟个体间的遗传相似性,但通常仅考虑加性遗传效应,对显性和上位性等效应的研究不够深入。而在人类遗传学中常用的多基因风险评分(PRS),虽能对疾病风险进行一定评估,但在统计学原理上不如线性混合模型(LMM)/GBLUP 严谨。因此,为了更深入地探究基因组与表型之间的关系,挖掘潜在的遗传机制,来自法国蒙彼利埃分子遗传学研究所(Institut de Génétique Moléculaire de Montpellier,IGMM)、比利时鲁汶大学(KU Leuven)等机构的研究人员开展了相关研究。
他们提出了一种新的基因组多内核学习方法(GMKL),该研究成果发表在《Genome Biology》上。GMKL 的重要意义在于,它不仅在预测性能上表现出色,与传统方法相比具有优势,还能通过评估与目标表型的兼容性对不同遗传机制的亲缘关系内核进行排序,从而为解释遗传机制提供假设,这为理解基因组数据与观察到的表型之间的关系开辟了新的途径,朝着可解释的机器学习迈进了一步。
研究人员为开展此项研究,运用了多种关键技术方法。在数据获取方面,使用了牛 SNP 阵列数据模拟表型、炎症性肠病(IBD)的 SNP 阵列数据和全外显子测序(WES)IBD 数据。在分析方法上,通过构建亲缘关系矩阵来衡量样本间的遗传相似性,采用五折交叉验证评估预测性能,利用支持向量机(SVM)结合不同的内核学习方法,如 MEAN、FH、CKA 等,进行基因组预测和遗传机制分析 。
研究结果主要包括以下几个方面:
  1. GMKL 在基因组预测中的表现:GMKL 方法有多种变体,如 MEAN、FH、CKA 等。研究人员在牛数据集上对这些变体进行了基准测试,通过五折交叉验证,将其与传统方法对比。结果显示,GMKL 在预测合成表型时,表现优于传统的加性 GBLUP,且与假设的最优 GBLUP (OP) 模型相当。例如,对于一些仅涉及加性和显性效应的表型,GMKL 的 FH 和 CKA 方法在使用合适数量的亲缘关系内核矩阵时,能取得较高的皮尔逊相关性。而对于包含上位性效应的复杂表型,GMKL 的优势更为明显,在预测最复杂的表型时,其表现甚至超过 GBLUP (OP),在皮尔逊和斯皮尔曼得分方面都有出色表现。
  2. GMKL 对遗传机制的推断:GMKL 可利用内核对齐启发式算法,根据与理想内核矩阵的兼容性对亲缘关系内核进行排序,进而推断产生目标表型的遗传机制。在牛数据集的合成表型测试中,GMKL 的一些方法(如 FH 和 CKA)能较好地对涉及加性 - 显性谱的表型的遗传机制进行排序,但在识别具体的上位性效应类型时存在一定困难。不过,当表型中存在上位性效应时,所有方法都能检测到其存在。
  3. GMKL 在 IBD 研究中的应用:研究人员将 GMKL 应用于 IBD 的病例 - 对照判别研究,使用了两个不同的 IBD 数据集(IBDSNP 和 IBDWES)。在 IBDSNP 数据集上,GMKL 的一些模型(如 MEAN、FH、CKA)随着使用的亲缘关系矩阵增多,预测性能提升,表明多种遗传机制在 IBD 中可能起作用。同时,GMKL 对 IBD 遗传机制的假设表明,上位性效应可能具有重要作用。在 IBDWES 数据集上,GMKL 的预测性能与其他先进方法相当,且其对遗传机制的排名与 IBDSNP 数据集有相似之处,进一步验证了上位性效应在 IBD 中的重要性。
    研究结论和讨论部分强调了 GMKL 在基因组预测和解释中的重要意义。GMKL 在预测性能上与传统方法相当甚至更优,还能对遗传机制提出假设。特别是在 IBD 研究中,通过不同数据集的验证,表明上位性效应可能是 IBD 的重要遗传驱动因素。虽然目前确定具体的上位性效应类型存在困难,但 GMKL 能可靠地检测到上位性效应的存在。这一研究成果为深入理解 IBD 的遗传机制提供了新的依据,也为其他复杂疾病的基因组研究提供了参考,推动了基因组学在生命科学和健康医学领域的发展。

下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究

10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!

欢迎下载Twist《不断变化的CRISPR筛选格局》电子书

单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析

下载《细胞内蛋白质互作分析方法电子书》

相关新闻
    生物通微信公众号
    微信
    新浪微博

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号