在动态分化模型下计算树的大小

《Theoretical Population Biology》:Computing tree size under dynamical models of diversification

【字体: 时间:2025年10月28日 来源:Theoretical Population Biology 1.3

编辑推荐:

  Ailene MacPherson,Matt Pennell|Department of Mathematics,Simon Fraser University,Burnaby,V5A 1S6,Canada|

摘要

本文提出三种方法计算系统发育树的大小分布:确定性极限、主方程(ME)和集合矩近似(EMA)。通过模拟实验比较了指数模型、逻辑模型和SIR模型对树大小的影响,发现树大小能揭示密度依赖性、时间依赖性及模型同构性问题,为演化与流行病学研究提供新工具

  这篇论文探讨了在系统发育动力学(phylodynamic)分析中,是否应该更明确地考虑树的大小(tree size)这一属性。通常,系统发育树的属性包括大小、形状(拓扑结构)和分支密度。尽管许多研究关注于树的大小,但目前大多数的推断方法仅使用了形状和分支密度这两个属性。本文提出三种方法来计算树的大小分布,包括确定性极限、主方程(Master Equations)方法和集合矩近似(Ensemble Moment Approximation)方法,并通过模拟实验评估这些方法在不同情况下的准确性。此外,还探讨了树的大小在解决系统发育过程中的关键问题时的潜在信息价值。

系统发育树作为生物进化过程的记录,包含了关于物种、基因、细胞或病毒谱系历史动态的痕迹。在系统发育动力学中,研究者通常关注于重建历史分支的速率。然而,由于系统发育树是复杂的数学对象,研究者在开发估计方法和统计检验时,往往只能聚焦于特定的属性或树的总结。例如,树的形状(如Colless指数、Sackin指数和γ统计量)用于描述分支模式,而分支密度则用于计算给定系统发育模型的似然函数,并估计参数或比较模型支持度。

尽管树的形状和分支密度在系统发育推断中被广泛应用,但它们往往忽略了树的大小这一重要属性。树的大小,即与树的年龄相关联的谱系数量或采样物种数量,有时比分支密度更容易解释。例如,Yule(1924)首次提出了宏观进化多样性的统计分析方法,而早期的古生物学家(如Raup, 1977;Gould等, 1977)也使用了采样谱系大小分布来检验进化模型的随机性。此外,一些早期的系统发育测试使用了姐妹谱系的大小比较来评估基于特征的多样化(trait-based diversification)。尽管许多现代系统发育推断方法主要依赖于形状和分支密度,但树的大小可能提供了额外的信息。

然而,目前还没有通用的方法来计算在任何但最简单的多样化过程下的树的大小分布。Raup(1985)在其研究中,基于Bailey(1964)的工作,提出了计算在简单Yule或恒定速率的出生-死亡模型下的树的大小分布的方法。但这种方法仅适用于有限的场景,例如那些包含某些形式多样性依赖性的模型。本文的重点在于考虑基于出生-死亡-采样(BDS)模型的系统发育动力学,其中树的大小是基础动态的涌现属性,与基于合并过程的系统发育模型不同,后者假设谱系总数是恒定的或独立于进化动态。

为了探讨树的大小在系统发育推断中的作用,本文提出了三种方法来推导树的大小分布:确定性极限、主方程方法和集合矩近似方法。通过模拟实验,研究者展示了这些方法在不同情况下的准确性差异及其分析可行性。同时,还表明这些方法的实用性取决于建模背景。

接下来,本文利用这些信息展示了在某些情况下,了解树的大小分布如何有助于推断。首先,研究者探讨了树的大小是否能提供关于树是否由密度依赖过程生成的信息。密度依赖性通常隐含在将流行病模型拟合到病毒系统发育树时,因为病原体谱系的多样化长期受到易感宿主数量的限制。然而,密度依赖性对宏观进化模式的重要性仍然是一个激烈争论的话题,许多方法已经被开发出来用于评估这一问题,这些方法通常依赖于树的形状和分支密度。然而,识别密度依赖性的挑战在于,密度依赖性在任何特定时间的影响可能较小,且与其他多样化速率的变化或谱系间的差异相互混淆。最近的研究表明,密度依赖性对分支密度的影响与时间依赖性难以区分,因此分支密度不足以识别密度依赖性。

其次,Louca及其同事(2022)发现,使用分支密度不足以区分许多替代的BDS模型。这一发现引发了对同构模型集(congruent model sets)的大量研究,探讨了这些模型空间的子集是否可识别,以及这种不识别性对实证推断的影响。本文探讨了考虑树的大小是否能提供关于同构模型类别的额外见解,从而为区分这些模型提供线索。

本文提出了三种方法来计算树的大小分布:确定性极限、主方程方法和集合矩近似方法。其中,确定性极限方法用于计算树的大小,主方程方法考虑了树的分布,而集合矩近似方法则用于估计分布的矩(mean和variance)。这些方法在不同情况下表现不同,且在分析可行性方面也有所不同。通过模拟实验,研究者展示了这些方法在不同模型下的准确性差异,并强调了它们在不同建模背景下的实用性。

在密度独立的指数模型中,谱系的大小在确定性极限下呈指数增长,而树的大小分布呈现几何分布,有较大的谱系和较小的谱系。在密度依赖的逻辑模型中,谱系的大小呈现钟形分布,且在生态承载力下稳定。在SIR模型中,树的大小与基本繁殖数(R0)相关,且恢复率的增加会导致更大的谱系数量和更小的变异。这些发现表明,树的大小可以提供额外的信息,帮助区分不同的多样化模型,即使它们在分支密度上无法区分。

本文还探讨了树的大小在区分同构模型中的作用。通过比较同构模型的树的大小分布,研究者发现,这些模型在某些情况下可能无法区分,但树的大小可能提供额外的见解。例如,当模型假设所有谱系在采样时被移除时,树的大小分布可能与采样时保留谱系的模型不同。因此,考虑树的大小有助于区分这些模型。

此外,本文还讨论了树的大小在系统发育推断中的应用,包括如何考虑树的大小以避免偏倚,以及如何利用树的大小进行更精确的模型选择。通过引入树的大小分布,研究者为未来的系统发育推断方法提供了新的方向,即如何更全面地利用系统发育树的信息进行推断。

综上所述,本文展示了树的大小在系统发育推断中的重要性,并提出了三种方法来计算或近似树的大小分布。这些方法不仅有助于理解系统发育过程的复杂性,还为未来的系统发育研究提供了新的思路。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号