数据预处理选择对行为随机对照试验(RCT)结果的影响:多宇宙分析

《Multivariate Behavioral Research》:The Effects of Data Preprocessing Choices on Behavioral RCT Outcomes: A Multiverse Analysis

【字体: 时间:2025年11月05日 来源:Multivariate Behavioral Research 3.5

编辑推荐:

  数据预处理对RCT结论影响显著,模拟显示预处理解释76.9%-99.8%的效应估计方差,标准化/对数变换使效应缩水超90%,原始尺度保留可扩大效应十倍,建议常规多宇宙分析。

  

摘要

看似常规的数据预处理步骤实际上可能对随机对照试验(RCT)的结论产生重大影响,尤其是在行为科学领域,因为该领域的数据往往存在噪声、偏态以及大量异常值。我们通过两个针对模拟RCT数据的完整多宇宙分析来验证这一现象。每个分析涵盖了180种不同的分析路径,这些路径是通过结合36种不同的预处理方法(包括异常值处理、缺失数据插补和尺度变换)以及五种常见的模型规格来生成的。在模拟A中,使用线性回归模型时,预处理决策解释了估计治疗效果总方差的76.9%,而模型选择仅解释了7.5%;而在模拟B中,将线性模型替换为更先进的算法(如广义加性模型、随机森林和梯度提升算法)后,预处理的影响更加显著:99.8%的方差可以归因于数据预处理,仅有0.1%归因于模型选择。平均效应的范围也呈现出类似的趋势(模拟A中为4.34 vs 1.43;模拟B中为15.30 vs 0.56)。某些特定的预处理步骤(尤其是标准化或对数变换变量)会使效应估计值相比原始数据减少90%以上,而保持原始数据尺度的处理方法则可能导致效应值增加一个数量级。由于预处理步骤可能会掩盖统计方法上的重大变化,我们呼吁必须详细记录这些步骤,并进行常规的敏感性分析或多宇宙分析以揭示其实际影响。这些做法对于提高行为科学RCT研究的稳健性和可重复性至关重要。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号