综述:蛋白质进化替代模型在系统发育推断中的趋势
【字体:
大
中
小
】
时间:2025年10月02日
来源:Molecular Phylogenetics and Evolution 3.6
编辑推荐:
本综述系统评述了蛋白质进化替代模型的发展趋势,涵盖从传统经验模型到先进结构约束模型的演进。作者详细分析了各类模型的理论基础、应用场景及在系统发育框架中的实现情况,特别强调了结构约束模型(SCS)在提升进化分析准确性方面的优势,并提供了使用先进模型进行系统发育推断的详细实例。
蛋白质进化替代模型通过描述氨基酸间的相对进化速率,为系统发育历史重建、祖先序列推断等进化研究提供了基础工具。早期模型基于经验蛋白质序列数据构建,尽管存在简化假设,至今仍在广泛使用。随后通过引入蛋白质稳定性和功能相关的进化约束参数,模型准确性得到了显著提升。
经验替代模型通常由一个20×20的氨基酸瞬时相对替代速率矩阵(Mij)和平衡状态下的氨基酸频率(f)组成。这些参数从特定分类群或蛋白质家族的大规模序列数据中估计得出,包括核蛋白、叶绿体蛋白、线粒体蛋白和病毒蛋白等类型。虽然此类模型已集成到多种系统发育分析框架中,但其假设所有位点遵循相同进化模式,且忽略了蛋白质结构施加的直接进化约束,导致模拟产生的蛋白质往往具有不现实的低折叠稳定性。
为捕捉分子序列中天然存在的进化异质性,混合替代模型通过组合简单模型来反映蛋白质不同区域和位点的可变替代过程。其中基于类别的(CAT)模型通过建立具有独立氨基酸平衡频率的进化过程类别,有效解释了序列间的异质进化。这些模型通常比传统经验模型更准确,但因计算复杂度和实现限制,其应用不如经验模型广泛。
蛋白质在自然界的进化同时受到序列和结构层面的选择约束。结构约束替代模型(SCS)同时考虑蛋白质序列和结构信息,能够提供更真实的进化建模。根据蛋白质二级结构(如α-螺旋、β-折叠)分类的模型,以及考虑三级结构和折叠稳定性的高级模型,均显示出比纯序列模型更好的数据拟合效果。
蛋白质活性是分子水平选择的重要目标,酶催化位点通常比非催化位点更为保守。少数SCS模型已尝试纳入蛋白质活性相关的进化约束,例如通过结合折叠稳定性和酶动力学特性来评估突变。这些模型虽能提高对真实数据的拟合度,但计算复杂,尚未在系统发育框架中得到广泛应用。
尽管替代模型选择在系统发育推断中的重要性存在争议,但研究表明,对遗传多样性高的数据集,选择最合适的模型会对祖先状态推断等分析产生重要影响。对于位点无关的模型,可利用似然比检验(LRT)、AIC、BIC等标准进行选择;而对于位点依赖模型,则需采用基于模拟的近似贝叶斯计算(ABC)等方法。
蛋白质进化模拟、系统发育树重建和祖先序列重建均依赖于替代模型。通过结构约束模型模拟的蛋白质序列显示出更接近真实结构的折叠稳定性;在HIV蛋白酶实例中,基于结构和活性约束的模型也显示出更高的似然值。此外,应用SCS模型重建的祖先序列表现出更合理的稳定性波动,反映了进化过程中的动态选择压力。
当前经验模型种类有限,开发更多模型并将其集成到系统发育软件中十分必要。结构约束模型在多个方面优于传统模型,但尚未充分考虑蛋白质功能多样性、结构进化及插入缺失(indel)事件。未来模型需整合更多功能约束,并借助机器学习和人工智能技术提升预测准确性。实现这些模型的算法并公开其计算框架,将推动其在进化分析中的广泛应用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号