编辑推荐:
本文通过分析 6519 个物种的蛋白质和基因长度分布,发现基因生长的尺度不变关系。研究表明真核细胞起源是算法相变的结果,该相变平衡了基因生长与遗传调控,解锁了多细胞生物进化路径,为理解生命复杂性演化提供新视角。
### 研究背景
地球上生命的历史充满了重大转变,其中真核细胞的起源尤为关键。在生命历史的大部分时间里,生物体局限于简单的原核细胞,如细菌和古菌。真核细胞的出现,带来了膜结合的细胞核和细胞器,为多细胞生物的后续进化奠定了基础。然而,基因活动的现有调控机制如何转变以实现这种复杂性的增加,仍不明确。
研究方法
- 数据来源:从 Ensembl 数据库提取 33627 个注释基因组的基因长度数据,涵盖古菌、细菌、原生生物、真菌、植物、无脊椎动物和脊椎动物等多种生物;从 Uniprot 下载 9913 个参考蛋白质组数据。
- 数据分析方法:通过将基因和蛋白质长度分布拟合到多种分布模型,确定其符合对数正态分布;开发基因生长的乘法模型,预测基因生长规律,并与实际数据对比;计算平均基因长度、平均基因对数长度等指标,分析基因和蛋白质长度关系。
研究结果
- 基因长度分布:多数物种的基因长度分布符合对数正态分布,这表明基因生长是一个乘法随机过程,如基因延伸、串联重复等。通过模型预测出基因平均长度随时间指数增长公式<L(t)>=L0?exp((<ζ>?1)?t),平均基因对数长度随时间线性增长公式<logL(t)>=G0+<logζ>?t ,且得到实际数据验证。同时得出平均基因长度和方差的缩放定律<L2>=σ2+<L>2=a?<L>β 。
- 蛋白质长度分布:蛋白质长度分布在整个生命树中也呈对数正态分布,但平均蛋白质长度及其方差的泰勒定律范围较窄。在进化过程中,蛋白质分布在某一时刻与基因的乘法过程解耦,因此平均蛋白质长度不如平均基因长度适合作为生物体复杂性的代理指标。
- 基因和蛋白质长度关系:在基因平均长度约 1500 碱基对以下时,平均蛋白质长度与平均基因长度成正比;超过该临界值后,平均蛋白质长度稳定在约Lc/3 ,基因主要通过增加非编码序列(nCDS)生长。可以用公式描述这种关系为:
<Lp>≈{31<L>31Lcif <L>≤Lcif <L>>Lc
基因非编码序列的比例ρ在基因平均长度低于Lc 时几乎为零,高于Lc 时大于零且随物种复杂性增加而增长,符合公式:
ρ(L)≈{01?LLcif L≤Lcif L>Lc
- 临界基因长度的相变:基因非编码序列比例在临界基因长度处的变化呈现二阶相变特征,系统在接近临界点时出现临界减速,如状态分散度在临界点附近达到峰值。
- 算法易 - 难 - 易模式:真核细胞起源可视为算法相变,算法复杂度在临界基因长度处达到最大,随后降低。通过理论推导得出临界基因长度Lc≈1500碱基对,首次达到该长度的时间约为 2600 万年前,与真核细胞出现时间相符。
研究讨论
- 进化意义:真核细胞起源是算法相变的结果,在原核生物阶段,基因通过蛋白质进行遗传调控,但寻找更大蛋白质变得计算不可行。真核生物出现后,基因通过增加非编码序列实现新的调控方式,增加了系统的解决方案,使寻找特定解决方案变得更容易。
- 与其他理论的关系:本研究与传统群体遗传学理论都强调中性、非适应性机制在生物体复杂性起源中的作用,但本研究补充了相变预测和对临界平均基因长度的依赖,弥补了群体遗传学的部分不足。
- 研究局限性与展望:本研究基于当代生物样本重建进化历史,且模型简化了物种进化轨迹,未来应探索能量与信息的反馈在进化中的作用,进一步完善对生命复杂性演化的理解。