解决心理学与神经科学计算模型研究的统计功效不足问题:样本量与模型空间大小的博弈
《Nature Human Behaviour》:Addressing low statistical power in computational modelling studies in psychology and neuroscience
【字体:
大
中
小
】
时间:2025年11月18日
来源:Nature Human Behaviour 15.9
编辑推荐:
本研究针对心理学与神经科学领域计算模型研究中普遍存在的统计功效不足问题,开发了贝叶斯模型选择(Bayes factor)的统计功效分析框架。研究发现,虽然增加样本量可提高统计功效,但扩大模型空间会显著降低功效。对52项高水平研究的综述显示,79%的研究统计功效低于80%标准,且固定效应模型选择(false positive rate高达97%)存在严重统计问题。该研究为计算模型研究提供了必要的功效分析工具。
在心理学和神经科学领域,计算建模已成为揭示行为与神经数据背后隐藏过程的重要工具。通过创建模拟认知过程的复杂计算模型,研究人员能够检验假设并获得对人类行为和大脑功能机制的新见解。然而,这一计算革命在带来突破的同时也面临着新的挑战,其中最关键但被忽视的问题之一就是如何确定计算研究合适的样本大小,特别是在模型选择分析中。
目前,计算研究中常见的统计推断方法是展示特定计算模型比替代模型能更好地拟合实验数据,这一过程通过贝叶斯模型选择(Bayes factor)实现。例如,研究决策制定的研究人员可能会比较不同类型的强化学习模型,以确定哪个模型能更好地解释参与者在任务中的选择。直觉上,模型选择的准确性不仅取决于可用数据量(样本大小),还取决于考虑的竞争解释数量(候选模型数量)。
然而,当前心理学和神经科学领域的计算建模研究普遍存在统计功效低下的问题。尽管样本量较大,但研究人员往往忽视了模型空间扩大对统计功效的负面影响。更严重的是,该领域还严重依赖固定效应模型选择方法,这种方法存在较高的假阳性率和明显的对异常值敏感性等严重统计问题。
针对这些挑战,Payam Piray在《Nature Human Behaviour》上发表了题为"Addressing low statistical power in computational modelling studies in psychology and neuroscience"的研究,开发了一个用于模型选择研究的统计功效分析框架,并对当前领域现状进行了系统评估。
研究人员开发了基于随机效应贝叶斯模型选择的功效分析方法。该方法通过蒙特卡洛模拟,在已知真实模型存在的情况下评估随机效应模型选择可靠恢复该模型的能力。核心算法包括两个阶段:首先通过零假设模拟计算决策阈值,控制假阳性率在5%;然后在真实模型存在的条件下进行功效计算。研究还进行了叙事文献综述,分析了2018-2024年间发表在Nature Human Behaviour、Nature和Science上的52项心理学和人类神经科学研究。
研究发现,统计功效随样本量增加而提高,但随模型空间扩大而降低。当模型空间包含更多竞争模型时,即使保持样本量不变,统计功效也会显著下降。
这种模式的出现是因为当概率空间必须在更多模型间分配时,每个模型必然捕获的比例变小,导致"效应大小"减少。例如,从均匀狄利克雷分布中抽样时,最佳模型与次优模型在人群中的平均差异对于K=3个模型为0.33,而对于K=4个模型则降至0.25。
对52项研究的叙事综述揭示了令人担忧的结果:给定其实际样本量和模型空间,41项研究(79%)正确识别真实模型的概率低于80%,未能达到常规标准。
值得注意的是,46%的综述研究(24/52)使用了固定效应模型选择。即使保持效应大小不变的分析也显示,31项研究(60%)对中等效应而言统计功效不足。
研究发现固定效应模型选择存在两个严重问题。首先,即使没有真实模型差异,固定效应方法也在97%的模拟中错误地宣布某个模型为获胜者,假阳性率极高。
表1显示,在零假设条件下,固定效应模型选择以大致相等的概率(各约32%)宣布三个模型中的某一个为获胜者,而随机效应方法几乎从不宣布任何模型为获胜者(仅1%)。
其次,固定效应模型选择对异常值极度敏感。模拟分析表明,只需一个极端异常值,就能在84%的模拟中使模型选择结果偏向某个模型。即使只有一个温和异常值,固定效应方法也在约一半的模拟中宣布模型1为获胜者,而有五个异常值(样本的10%)时,这一比例升至94%。
更严重的是,异常值甚至可以在存在明确底层真实模型的情况下翻转模型选择结果。模拟显示,当模型2是所有49个受试者的真实模型时,加入一个偏向模型1的异常值,模型1仍在77%的情况下获胜。
相比之下,随机效应贝叶斯模型选择能更好地适应心理学数据集的生成方式,对异常值较不敏感。随机效应方法通过狄利克雷分布估计每个模型在人群中表达的概率,并计算超出概率来评估某个模型优于所有其他模型的置信度。
该方法的核心公式为:p(m|D)=Dir(m|N?+c),其中N?k=∑nNrnk,rnk=?nk/∑j?nj。每个rnk可解释为模型k生成参与者n数据的概率。
即使在固定效应假设真正成立的场景中,随机效应方法也能成功识别出主导模型,同时在先验参数c=1的标准设置下保持适当的敏感性。
本研究建立的统计功效分析框架为计算模型研究提供了重要工具,强调了在模型选择中同时考虑样本量和模型空间的必要性。研究发现心理学和认知神经科学领域普遍存在统计功效不足的问题,这可能导致I型和II型错误,削弱研究结果的可靠性和可重复性。
固定效应模型选择的严重统计问题应引起领域内重视。其极高的假阳性率和对异常值的敏感性意味着许多已发表的研究结论可能受到质疑。相比之下,随机效应方法提供了更稳健的模型选择框架。
该研究的另一个重要方法论贡献是为随机效应模型选择中的超出概率建立了原则性阈值。通过零模拟校准决策阈值以维持可接受的假阳性率,使功效估计反映真实的敏感性而非任意阈值选择的伪影。
值得注意的是,贝叶斯模型选择的优势不仅限于计算建模领域,作为替代经典零假设检验的强大工具,它适用于任何贝叶斯模型选择有用的统计问题。从犯罪学、社会心理学到生物医学研究和神经科学等多个领域的研究实践都因发现成果的低可重复性而面临严重批评,计算行为研究必须避免这些领域曾经出现的陷阱。
扩展数据图1显示了固定中等效应大小时文献综述结果,即使在这种更宽松条件下,仍有31项研究(60%)未能达到0.8的功效阈值,表明领域面临的功效挑战具有系统性。
总之,这项研究不仅提供了评估模型选择统计功效的实用工具,还揭示了当前计算模型研究中被忽视的方法论问题。通过解决这些挑战,可以加强计算建模研究的基础,推动对人类行为和认知的理解取得更有意义的进展。未来工作应进一步探索模型参数变异的问题,并开发同时考虑模型选择和参数差异检测的样本量确定方法。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号