
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于不可逆突变模型的快速精确分支长度估计方法ConvexML及其在CRISPR/Cas9谱系追踪中的应用
【字体: 大 中 小 】 时间:2025年08月09日 来源:Systematic Biology 5.7
编辑推荐:
来自牛津大学的研究团队开发了名为ConvexML的创新算法,首次实现了在CRISPR/Cas9谱系追踪数据中构建时间解析树(chronograms)。该方法通过凸优化框架下的正则化最大似然估计(MLE),结合保守型最大简约法,在通用不可逆突变模型中实现10-100倍加速的精确分支长度估计,为研究细胞群体进化动力学提供了全新工具。
在统计系统生物学领域,分支长度估计是构建进化树的核心环节。传统方法依赖时间可逆突变模型,但随着CRISPR/Cas9基因编辑技术的突破,研究者迫切需要针对不可逆突变(如DNA插入/缺失)的新型算法。这项研究巧妙解决了单细胞谱系追踪中的关键瓶颈——现有方法仅能重建细胞间的拓扑关系,却无法量化祖先细胞与现存细胞间的时间跨度。
研究团队开发的ConvexML方法采用双管齐下的策略:首先建立通用不可逆突变模型框架,通过引入最小分支长度约束和伪计数技术稳定低信息量区域的参数估计;其次针对CRISPR/Cas9特有的双切除事件(double-resection),设计特殊数据编码方案而非复杂建模。这种"保守型最大简约法"仅重构高置信度的祖先状态,配合完全随机缺失假设,将问题转化为可在数秒内求解的凸优化问题。
性能测试显示,该方法在模拟数据和真实谱系追踪数据中均显著优于TiDeTree和LAML等现有工具。特别值得注意的是,其计算效率提升达10-100倍,且模型更具普适性——不仅适用于CRISPR/Cas9系统,任何具有高多样性特征的不可逆突变体系均可应用。这项突破使得研究者首次能够精确量化细胞亚群的相对适应性、表型变化的动态过程等关键生物学问题,为肿瘤进化、发育生物学等领域提供了前所未有的时间分辨率分析工具。
开源Python包convexml已实现该算法,其创新性体现在两方面:一是建立快速稳健的通用不可逆突变模型求解框架,二是开发针对CRISPR/Cas9数据的特殊预处理方案。这种"简单模型+智能编码"的研究范式,为处理复杂生物数据提供了新思路。
生物通微信公众号
知名企业招聘