
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于PyTorch的torchtree框架:突破系统发育模型计算瓶颈的变分贝叶斯新方法
【字体: 大 中 小 】 时间:2025年07月05日 来源:Systematic Biology 6.1
编辑推荐:
本研究针对贝叶斯系统发育分析中马尔可夫链蒙特卡洛(MCMC)算法计算效率低下的问题,开发了基于PyTorch的torchtree框架。该研究通过变分贝叶斯(VI)和自动微分技术,实现了对固定拓扑系统发育模型的高效推断,创新性地提出前向KL散度优化准则以处理非连续模型,并在HCV和SARS-CoV-2数据集验证中取得与BEAST相当的精度。这项工作为大规模系统发育分析提供了兼具速度与灵活性的新工具。
系统发育分析是理解物种进化关系的重要工具,但传统贝叶斯方法依赖的马尔可夫链蒙特卡洛(MCMC)算法面临计算效率瓶颈。随着基因组数据爆发式增长,这种限制愈发突出——研究人员不得不在计算成本与模型复杂性之间艰难权衡。虽然最大似然法等非贝叶斯方法能处理更大数据集,但它们难以支持复杂模型推断,且置信区间估计存在挑战。这一困境催生了变分贝叶斯(VI)等替代方案的研究,但现有工具如phylostan在扩展性和计算速度上仍有局限。
澳大利亚科技大学等机构的研究团队在《Systematic Biology》发表的研究中,开发了名为torchtree的新型Python框架。该框架巧妙结合PyTorch的自动微分与定制化梯度计算插件,首次实现了系统发育模型中计算密集型部分(如树似然)与简单先验分布的分层梯度优化。研究团队还创新性地提出"skyglide"连续分段线性种群模型,解决了传统分段恒定(skygrid)模型在梯度优化中的不连续性问题。通过HCV和SARS-CoV-2病毒数据的实证分析,证明该框架在保持推断精度的同时,计算效率显著提升。
关键技术方法包括:1) 基于PyTorch构建的自动微分系统发育框架;2) 支持解析梯度计算的bito插件接口;3) 前向KL散度(KL(p||q))与证据下界(ELBO)双目标优化系统;4) 用于非连续模型处理的skyglide人口统计模型;5) 包含63例HCV和583例SARS-CoV-2序列的验证数据集。
【有效种群规模估计验证】
通过HCV数据集分析发现,基于ELBO的变分推断在分段恒定(skygrid)模型中会出现根节点高度和Gamma位点模型形状参数的估计偏差,而连续的分段线性(skyglide)模型表现稳健。前向KL散度优化则对两类模型均能获得准确近似,证实梯度计算是影响不连续模型性能的关键因素。
【SARS-CoV-2进化偏倚分析】
在SARS-CoV-2数据集中,torchtree成功复现了Magee等报道的C→T替换率显著升高的非可逆进化模式。通过随机效应HKY模型(HKY-RE)获得的贝叶斯因子显示,C→T和G→T替换的非可逆性支持强度与BEAST分析结果高度一致,验证了框架处理复杂替代模型的能力。
【计算效率比较】
研究发现前向KL散度优化的单次迭代速度比ELBO快3倍,但后者收敛更快。令人意外的是,两种方法都倾向于低估后验方差,这与高维设置下梯度估计的理论局限相符。相比MCMC,变分推断虽未展现出预期的速度优势,但通过分层梯度计算策略,其树似然相关参数的计算效率获得显著提升。
这项研究的意义在于:首先,torchtree框架通过模块化设计实现了系统发育模型开发"鱼与熊掌兼得"——既保留自动微分带来的扩展便利,又通过定制插件维持关键环节的计算效率;其次,提出的skyglide模型解决了传统人口统计模型在梯度优化中的适用性问题;最后,对前向KL散度的探索为处理非连续、不可微模型提供了新思路。尽管当前框架尚限于固定拓扑分析,但其技术路线为未来整合拓扑空间探索奠定了基础,有望推动贝叶斯系统发育分析进入大规模基因组时代。研究团队特别指出,该框架的Python实现将深度学习领域丰富的模型架构快速引入系统发育研究,这种跨学科融合可能催生更多方法学突破。
生物通微信公众号
知名企业招聘