PSMC方法中可避免的虚假种群峰值:跨物种研究揭示参数设置对种群历史推断的关键影响

【字体: 时间:2025年02月19日 来源:Current Biology 8.1

编辑推荐:

  本研究揭示了PSMC(成对序列马尔可夫合并)方法及其衍生工具在推断种群历史时存在的系统性误差:默认参数设置会导致近期种群规模出现虚假峰值,进而被误读为“扩张-崩溃”事件。通过分析真实基因组数据和模拟实验,德国森肯伯格研究所Leon Hilgers团队发现,这种伪信号源于首个时间窗口的固定参数设计,而调整参数设置(如分割首个时间窗口)可有效消除误差。研究为种群基因组学领域提供了关键方法学修正,避免了对气候变化或人类活动等生态驱动力的错误归因。

  

在探索物种演化历程的科研工具箱中,PSMC(成对序列马尔可夫合并)方法曾被誉为革命性突破——仅需单个个体的基因组数据,就能重建百万年尺度的种群动态。这种方法被广泛应用于人类迁徙、濒危物种保护乃至气候变化响应的研究中。然而当全球多个团队在爬行动物、灵长类乃至鸟类中不约而同地发现“近期种群激增后骤降”的诡异模式时,德国森肯伯格生物多样性基因组学研究中心的科学家们意识到:这些高度一致的“过山车式”曲线背后,可能隐藏着方法学陷阱。

森肯伯格研究所Leon Hilgers和Michael Hiller领衔的团队在《Current Biology》发表的研究,系统性地解剖了这个困扰学界多年的谜团。他们发现,从加拉帕戈斯陆龟到非洲水牛,超过200个已发表案例中所谓的“种群扩张-崩溃”事件,实质上是PSMC默认参数设置导致的数学假象。当模型被迫用单一参数描述包含种群下降的宽泛时间窗口时,会通过夸大前一个时间段的种群规模来补偿,最终产生令人误解的尖峰图案。

研究团队采用多管齐下的验证策略:首先模拟严格遵循“峰值-崩溃”假设的基因组数据,发现PSMC根本无法重现预设的波动模式;继而通过种群结构模拟实验,证明只有特定迁移率(M=5)下的片段化能产生类似伪信号;最终锁定问题根源——PSMC默认将前四个原子时间区间合并为不可分割的首个窗口(参数“-p 4+25 * 2+4+6”)。当研究人员将首窗口拆分为二(改为“-p 2+2+25 * 2+4+6”),所有测试物种(包括原刊中展示的龟类Pelusios castaneus和灵长类Allochrocebus solatus)的虚假峰值均神奇消失。

关键技术方法包括:基于真实种群历史的基因组模拟(使用Wright-Fisher模型)、PSMC参数优化测试(对比默认与分割首窗口方案)、Beta-PSMC交叉验证、以及跨物种数据分析(涉及6种龟类、4种灵长类和人类HGDP样本)。所有数据均通过100次bootstrap重复验证可靠性。

主要发现
虚假峰值的普遍性
在模拟实验中,即使强制输入包含真实峰值的种群历史,PSMC仍无法正确重建该信号,反而在无峰值的对照模拟中持续产生假阳性结果。这直接证明文献中大量报道的“激增-崩溃”模式更可能是方法假象。

种群结构的干扰效应
当模拟恒定规模种群的片段化过程时,研究人员发现中等迁移率(M=5)的亚分化会产生与虚假峰值相似的信号。这说明某些情况下,种群结构变化确实可能被误判为规模波动,但发生时机难以解释为何假峰总出现在特定时间窗口。

参数敏感性的关键作用
调整首窗口分割策略后,所有测试案例的假峰均消失。值得注意的是,较新的Beta-PSMC方法虽能减少此类错误,但在部分龟类中仍会出现残余假信号,表明问题尚未被完全解决。

讨论与展望
这项研究为种群基因组学领域敲响方法学警钟:默认参数并非放之四海而皆准的“金标准”。团队建议今后研究必须进行参数敏感性测试,特别要验证首窗口不同分割方案下的结果稳健性。对于已发表研究中涉及近期(约105年)种群波动的结论,需要谨慎重新评估其生物学真实性。

该发现对理解物种适应机制具有深远意义:许多基于PSMC得出的“气候变化响应”或“人类活动影响”结论可能需要重新审视。研究同时指出,动态化时间窗口分割、整合种群结构模型将是下一代算法开发的关键方向。正如作者强调的,在生物多样性急速丧失的当代,准确重建种群历史不仅是学术追求,更是制定有效保护策略的科学基石。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号