稳健估计多分格相关系数:针对部分模型误设与 careless responding 的鲁棒方法

《Psychometrika》:Robust Estimation of Polychoric Correlation

【字体: 时间:2025年12月02日 来源:Psychometrika 3.1

编辑推荐:

  本研究针对多分格相关系数(polychoric correlation)在潜在正态性假设被部分违反(如 careless responding)时,传统最大似然估计(ML)易产生严重偏差的问题,提出了一种基于 C-估计框架的稳健估计方法。该方法通过最小化观测频率与理论概率之间的稳健差异,自动降低对模型拟合不佳的响应类别的权重,在不增加计算成本的前提下,显著提升了估计的准确性与抗干扰能力。模拟研究与实际数据分析表明,该方法在存在 careless responding 的情况下仍能保持估计一致性,为心理学量表数据的相关性分析提供了更可靠的工具。

  
在心理学、社会学等领域的问卷调查中,研究者常使用多分格相关系数(polychoric correlation)来估计有序分类变量(如 Likert 量表)背后的潜在连续变量之间的相关性。这一方法假设观测到的有序数据是由潜在的连续变量通过阈值机制离散化生成的,且这些潜在变量服从二元标准正态分布。然而,现实数据收集过程中,常存在部分受访者因注意力不集中、误解题项或随意作答(careless responding)而产生无效响应,导致潜在变量分布偏离正态性假设,进而使得基于最大似然估计(ML)的传统方法产生严重偏差。已有研究表明,即使仅有 5%–10% 的无效响应,也足以显著扭曲多分格相关系数的估计结果,进而影响后续因子分析、结构方程模型等高级统计分析的可靠性。
为应对这一挑战,Welz 等人提出了一种新型的稳健估计方法,其核心思想是:通过比较观测频率与多分格模型下的理论概率,自动识别并降低那些无法被模型充分拟合的响应类别(如 careless responding 对应的极端响应模式)在估计过程中的影响。该方法基于 C-估计框架,通过优化一个稳健的损失函数来实现这一目标。与现有的混合模型或直接剔除异常响应的方法不同,该方法无需对污染类型或程度做任何先验假设,且在模型正确设定时与 ML 估计渐近等价,保证了无污染情况下的效率。
研究团队通过模拟实验系统评估了该稳健方法在不同污染比例下的表现。结果显示,即使在污染比例高达 20% 的情况下,稳健方法仍能保持接近无偏的估计,而 ML 估计则出现严重偏差甚至符号反转。在实证分析中,团队将其应用于一项大五人格问卷数据,发现稳健估计与 ML 估计在多对题项上的相关系数差异高达 0.3,进一步证实了 careless responding 对传统估计的干扰作用。此外,该方法还能通过 Pearson 残差直观标识出拟合不佳的响应类别,为数据质量诊断提供参考。
本研究的主要技术方法包括:
  1. 1.
    基于稳健损失函数的参数估计,通过优化观测频率与模型概率之间的差异实现抗干扰;
  2. 2.
    利用渐近理论推导估计量的标准误与置信区间;
  3. 3.
    在 R 语言中开发高效计算实现(robcat 包),支持并行计算以处理大规模相关性矩阵。

研究结果

1. 模拟研究:个体多分格相关系数估计

在污染比例(ε)从 0 增至 0.49 的模拟中,ML 估计在 ε ≥ 0.05 时即出现明显偏差,且在 ε ≥ 0.15 时估计值符号反转(真值为 0.5,ML 估计趋近 -0.1)。而稳健方法(调优常数 c=0.6)在 ε ≤ 0.2 时偏差均小于 0.03,且置信区间覆盖率保持在 90% 以上。

2. 模拟研究:多分格相关性矩阵估计

在五维潜在变量模型下,ML 估计对所有变量对的相关系数均产生衰减性偏差,且偏差随污染比例增加而加剧。稳健方法则在各变量对上均表现出更好的稳定性,尤其在强相关性(如 ρ=0.56)上优势显著。

3. 实证分析:大五人格问卷中的 careless responding

在神经质维度上,稳健估计显示题项对(如“不嫉妒”与“嫉妒”)的相关系数接近 -0.93,而 ML 估计仅为 -0.62。通过 Pearson 残差分析发现,部分响应模式(如同时肯定互为反义的题项)的残差远超阈值,进一步印证了 careless responding 的存在。

结论与讨论

本研究提出的稳健估计方法为处理部分模型误设(尤其是 careless responding)下的多分格相关系数估计提供了有效解决方案。其优势在于:
  1. 1.
    无需预设污染类型,适用性广;
  2. 2.
    在无污染时与 ML 估计等价,保证效率;
  3. 3.
    计算成本与 ML 相当,便于实际应用。
    此外,该方法在分布性误设(如潜在变量服从 Clayton copula 分布)下也展现出一定的稳健性,为拓展其应用场景提供了可能。未来研究可进一步探索调优常数的自适应选择机制,并将该框架推广至更复杂的多变量模型(如结构方程模型)中,以提升心理学实证研究的稳健性与可重复性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号