
-
生物通官微
陪你抓住生命科技
跳动的脉搏
数据预处理选择对行为随机对照试验(RCT)结果的影响:多宇宙分析
《Multivariate Behavioral Research》:The Effects of Data Preprocessing Choices on Behavioral RCT Outcomes: A Multiverse Analysis
【字体: 大 中 小 】 时间:2025年11月05日 来源:Multivariate Behavioral Research 3.5
编辑推荐:
数据预处理对RCT结论影响显著,模拟显示预处理解释76.9%-99.8%的效应估计方差,标准化/对数变换使效应缩水超90%,原始尺度保留可扩大效应十倍,建议常规多宇宙分析。
看似常规的数据预处理步骤实际上可能对随机对照试验(RCT)的结论产生重大影响,尤其是在行为科学领域,因为该领域的数据往往存在噪声、偏态以及大量异常值。我们通过两个针对模拟RCT数据的完整多宇宙分析来验证这一现象。每个分析涵盖了180种不同的分析路径,这些路径是通过结合36种不同的预处理方法(包括异常值处理、缺失数据插补和尺度变换)以及五种常见的模型规格来生成的。在模拟A中,使用线性回归模型时,预处理决策解释了估计治疗效果总方差的76.9%,而模型选择仅解释了7.5%;而在模拟B中,将线性模型替换为更先进的算法(如广义加性模型、随机森林和梯度提升算法)后,预处理的影响更加显著:99.8%的方差可以归因于数据预处理,仅有0.1%归因于模型选择。平均效应的范围也呈现出类似的趋势(模拟A中为4.34 vs 1.43;模拟B中为15.30 vs 0.56)。某些特定的预处理步骤(尤其是标准化或对数变换变量)会使效应估计值相比原始数据减少90%以上,而保持原始数据尺度的处理方法则可能导致效应值增加一个数量级。由于预处理步骤可能会掩盖统计方法上的重大变化,我们呼吁必须详细记录这些步骤,并进行常规的敏感性分析或多宇宙分析以揭示其实际影响。这些做法对于提高行为科学RCT研究的稳健性和可重复性至关重要。