章元明教授团队在大型生物样本关联分析高效快速算法研究中取得新进展

【字体: 时间:2024年06月28日 来源:华中农业大学植物科学技术学院

编辑推荐:

   南湖新闻网讯(通讯员 王靖天)2024年6月18日,华中农业大学植物科学技术学院章元明教授团队在生物信息学领域重要刊物Briefings in Bioinformatics上发表了题为“FastBiCmrMLM: a fast and powerful compressed variance component mixed logistic model for big genomic case-control genome-wide association study”的研究论文,报道了全基因组关联分析(GWAS)方法学研究的重要进展

  

南湖新闻网讯(通讯员 王靖天)2024年6月18日,华中农业大学植物科学技术学院章元明教授团队在生物信息学领域重要刊物Briefings in Bioinformatics上发表了题为“FastBiCmrMLM: a fast and powerful compressed variance component mixed logistic model for big genomic case-control genome-wide association study”的研究论文,报道了全基因组关联分析(GWAS)方法学研究的重要进展。

该研究提出了一种多位点混合逻辑回归全模型的大型生物样本关联分析高效快速FastBiCmrMLM算法与软件,专门检测抗感二分类性状或case-control数据的性状与标记关联,是目前运行速度很快、检测功效最高和假阳性控制严格的二分类性状关联分析新工具。

GWAS是一种广泛应用于动植物、微生物和人类遗传学的基因挖掘方法。它通过检测标记与性状表型的关联,以挖掘控制复杂性状的基因,进而揭示复杂性状的遗传基础。以混合线性模型为基础的GWAS方法是在控制群体结构和遗传背景情况下高功效检测性状与标记间的关联,在过去20年得到广泛应用和发展。然而,目前的方法存在以下问题。第一,随着英国生物样本库(UK Biobank)等大型生物样本库的出现,关联群体样本量达到数十万甚至数百万,混合线性模型GWAS方法面临耗时、耗运算资源的挑战;第二,现有的大多GWAS方法通常只考虑等位基因替代效应及其遗传背景,导致估计的效应(混杂)和控制的多基因背景均不全面,且需要假定随机交配,降低检测功效与精度;最后,作物抗性性状关联分析通常采用连续型性状关联分析方法,也降低了位点检测功效与精度。

为解决上述问题,本研究创建了二分类性状的压缩方差组分混合逻辑回归全模型。该模型全面考虑了所有可能效应和遗传背景,采用章元明教授团队已建立的压缩方差组分技术(Li et al. 2022)将四个方差组分压缩为两个,显著降低了运算复杂度,结合了一系列快速算法和管理内存方法,发展了FastBiCmrMLM算法(图1),特别地,将SNP与性状关联推进至由连锁不平衡标记构建的bin或基因单倍型与性状关联,为作物抗性性状和人类复杂疾病基因挖掘提供新工具。

图1. FastBiCmrMLM算法的总体框架

图1. FastBiCmrMLM算法的总体框架

FastBiCmrMLM新算法包含了4个模块以满足数据分析对样本容量、运算速度、节省内存和功能标记的需求。分析1000个体100万标记数据集大约需要7分钟;分析50万个体100万标记大型生物样本库规模的数据集大约需要14小时,且可检测大小为3?、等位基因替代效应趋近于零和显性效应的位点。在模拟研究中,新算法的检测功效比现有二分类GWAS方法更高(图2);在5×10-8的显著概率阈值下,新算法假阳性率为4.2×10-8~4.8×10-8,很好地控制了假阳性率。此外,快速高效的新算法为多组学数据分析提供新工具。为检测到更多的基因,将关联分析从SNP标记分析推进到bin或基因单倍型分析,拓展了FastBiCmrMLM-Hap模块。该模块在模拟研究中可检测到频率为1.1%的稀有位点;在实际数据分析中能检测到更多的稀有(<5%)位点,为稀有位点检测提供新思路。

图2. Monte Carlo模拟研究中的位点检测功效

图2. Monte Carlo模拟研究中的位点检测功效

用FastBiCmrMLM新算法重新分析了WTCCC数据库(Burton et al., 2007)的7个人类复杂疾病数据集。结果表明:新算法共挖掘了29个现有方法未检测到的有多方面证据支撑的候选基因。这一结果有力地证实了新算法的有效性。在与这些候选基因关联的36个显著位点中,12个有较小的等位基因替代效应,2个只有显性效应。这说明FastBiCmrMLM取得较高功效原因在于其更全面的模型设计,弥补了现有方法检测小效应和显性效应位点的不足。II型糖尿病的关联分析与基因挖掘结果如图3。

图3. 二型糖尿病的显著关联位点及附近的候选基因

图3. 二型糖尿病的显著关联位点及附近的候选基因

章元明教授领衔的统计基因组学团队一直聚焦于复杂性状基因发掘方法学研究,取得了一系列成果。在GWAS方面,最早发表了关联分析混合模型方法学框架,联合优化了压缩混合模型方法,发展的一系列多位点方法已被广泛应用,建立了压缩方差组分混合模型新框架。相关结果在Mol Plant(2022a,b)、Brief Bioinform(2018, 2024)、Genom Proteom Bioinf(2020, 2024)、Plant J(2020)、J Exp Bot(2020)、BMC Biol(2014)和Genetics(2005)等刊物上发表。

据悉,华中农业大学植物科技学院博士生王靖天为该论文第一作者,章元明教授为通讯作者,硕士研究生常晓宇和赵琼参与研究。R软件包已经在GitHub平台上发布。本研究得到国家自然科学基金项目和惠康信托基金会(Wellcome Trust)的资助。

【英文摘要】

Large sample datasets have been regarded as the primary basis for innovative discoveries and the solution to missing heritability in genome-wide association studies. However, their computational complexity cannot consider all comprehensive effects and all polygenic backgrounds, which reduces the effectiveness of large datasets. To address these challenges, we included all effects and polygenic backgrounds in a mixed logistic model for binary traits and compressed four variance components into two. The compressed model combined three computational algorithms to develop an innovative method, called FastBiCmrMLM, for large data analysis. These algorithms were tailored to sample size, computational speed, and reduced memory requirements. To mine additional genes, linkage disequilibrium markers were replaced by bin-based haplotypes, which are analyzed by FastBiCmrMLM, named FastBiCmrMLM-Hap. Simulation studies highlighted the superiority of FastBiCmrMLM over GMMAT, SAIGE and fastGWA-GLMM in identifying dominant, small α (allele substitution effect), and rare variants. In the UK Biobank-scale dataset, we demonstrated that FastBiCmrMLM could detect variants as small as 0.03% and with α ≈ 0. In re-analyses of seven diseases in the WTCCC datasets, 29 candidate genes, with both functional and TWAS evidence, around 36 variants identified only by the new methods, strongly validated the new methods. These methods offer a new way to decipher the genetic architecture of binary traits and address the challenges outlined above.

点击阅读全文

点击下载软件

审核人:章元明

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号