在存在直接效应的情况下,用于具有协变量的增长混合模型的两步估计器

《Multivariate Behavioral Research》:A Two-Step Estimator for Growth Mixture Models with Covariates in the Presence of Direct Effects

【字体: 时间:2025年10月23日 来源:Multivariate Behavioral Research 3.5

编辑推荐:

  本文提出了一种扩展的两步估计器用于处理具有协变量直接效应(DEs)的增长混合模型(GMM),并比较了其与一步和三步估计器的性能。通过仿真研究,发现当忽略DEs时,三步估计器表现最差,而两步估计器在模型 misspecification 下更稳健。在真实数据应用中,两步估计器能有效区分认知功能轨迹,验证了其可靠性。

  生长混合模型(GMMs)是处理时间序列中未观察到的人群异质性的一种流行方法。这些模型可以扩展以包含协变量,预测潜在类别(LC)成员资格、类别内的增长轨迹,或两者。然而,当前的估计器在复杂模型中容易受到误设的影响。本文提出将用于潜在类别模型(LCMs)的两步估计器扩展到GMMs,以提供对模型误设的稳健估计,尤其是忽略和过度拟合直接效应的情况。我们进行了多项模拟研究,比较了所提出的两步估计器与常用的一步和三步估计器在模拟条件下的性能。三种不同的群体模型被考虑,包括仅预测潜在类别成员资格的协变量(I)、在潜在截距上添加直接效应的协变量(II),或在增长因素上添加直接效应的协变量(III)。结果显示,当仅预测潜在类别成员资格时,所有三个估计器在测量模型强的情况下都是无偏的,而在弱测量模型中结果更为复杂。当包括协变量对增长因素的影响时,两步和三步估计器表现出一致的稳健性,而在模拟条件下估计的无偏性较高,但倾向于低估标准误差估计,而一步估计器对误设最为敏感。

GMMs在考虑协变量时具有比LCM更复杂的测量模型,如图1所示。具体来说,它包含一系列重复测量(即 $ y_1, y_2, \ldots, y_T $),这些测量直接回归到连续的潜在截距($ \eta_0 $)和斜率($ \eta_1 $)变量上。此外,一个分类的潜在类别变量($ c $)由潜在截距和斜率变量定义,允许人群异质性。协变量可以用于预测潜在类别成员资格(由蓝色线表示,从协变量 $ x_1 $ 和 $ x_2 $ 到 $ c $),也可以直接预测类别特定的增长因素(以两条红色线可视化,从协变量 $ x_2 $ 到 $ \eta_0 $ 和 $ \eta_1 $),或者两者。例如,Chen等人(2024)将中国糖尿病患者的认知功能轨迹与一系列基线协变量(如年龄、教育水平、性别等)相关联,以识别中国老年人的认知功能预测因子。

目前,对于带有协变量的GMMs有两个主要估计器,即一步估计器和偏倚校正的三步估计器(Diallo & Lu, 2017)。对于一步估计器,也称为完全信息最大似然(FIML)估计器,测量模型和结构模型是同时估计的,利用数据集中的所有可用信息,包括协变量(Huang等人,2010;McCutcheon, 1987;Vermunt, 2010)。这种估计器在所有模型假设都成立时产生高效的估计。然而,同时估计可能会引入解释混淆,即应用研究者想要测量的潜在结构每次添加新协变量时都会改变(Asparouhov & Muthén, 2014;Bakk & Kuha, 2018;Di Mari等人,2023;Rosseel & Loh, 2024;Vermunt, 2010)。

为防止解释混淆,作为一步估计器的替代,开发了用于潜在类别模型的偏倚校正三步估计器(Vermunt, 2010),该估计器通过将测量模型和结构模型分开来估计,将估计过程分为三个步骤:(1)仅使用数据中的重复测量来估计测量模型,(2)根据步骤一估计的后验类别成员资格概率对个体进行分类,(3)通过将类别成员资格与外部变量相关联来估计结构模型,同时校正步骤二中引入的分类误差。一系列方法被开发用于潜在类别模型以校正分类误差(Bolck等人,2004;Vermunt, 2010)。Vermunt(2010)提出的三步最大似然(ML)方法在许多带有外部变量的潜在类别模型中表现良好,产生无偏和高效的参数估计(Bakk等人,2014)。在余下部分,我们简称为偏倚校正三步估计器。

本文提出的两步估计器扩展了LC模型的两步估计方法,允许在GMMs中对协变量进行建模。在步骤一中,我们包括协变量对增长因素的直接效应(DEs),这与Vermunt和Magidson(2021a)在LC模型中对DEs建模策略一致。在步骤二中,我们估计结构模型,所有感兴趣的协变量影响类别成员资格,同时在步骤一模型中也包含协变量对潜在截距和斜率的直接效应。具体来说,关心的协变量对增长因素的回归参数在步骤一中固定,而在步骤二中重新估计,以确保在仅预测类别成员资格时获得正确的部分回归系数,符合Vermunt和Magidson(2021a)的建议。此外,我们还提出将Vermunt和Magidson(2021a)的三步估计器方法扩展到GMMs中,以处理观察指标上的DEs。

在本文中,我们引入了两步估计器到GMMs的背景下,并比较了所提出的两步估计器与一步和三步估计器在回归参数估计准确性和覆盖率方面的效率和可靠性。我们还检查了这些估计器对协变量效应误设的稳健性。两种不同的误设方式被使用,即(1)我们忽略了协变量对增长因素的DEs,(2)我们错误地在增长因素上包括了DEs。此外,我们还检查了在协变量和增长因素效应误设的情况下模型的类型I错误率。

本文的其余部分结构如下。首先,我们介绍无条件GMMs和带有协变量的GMMs,并给出各种估计器在估计GMMs时的描述,包括一步、所提出的两步和三步估计器。然后,我们通过广泛的模拟研究评估所提出的两步和竞争的一步和三步估计器的性能。我们将所提出的两步估计器应用于中国健康与退休纵向研究(CHARLS;Zhao等人,2013)的真实数据集。最后,是所呈现结果的讨论。

本文还探讨了在GMMs中对协变量进行建模的估计方法。对于所有三种模拟研究,我们从两个类别线性GMMs中采样数据,这些数据包括三个观察到的连续指标,它们在每个时间点直接回归到潜在截距和斜率变量上,并且:

- 模型I:仅包含协变量 $ x_1 $ 预测类别成员资格(研究1)。
- 模型II:包含协变量 $ x_1 $ 预测类别成员资格,以及协变量 $ x_2 $ 预测潜在截距(即 $ \eta_0 $)(研究2)。
- 模型III:包含协变量 $ x_1 $ 预测类别成员资格,以及协变量 $ x_2 $ 预测潜在截距和斜率(研究3)。

我们对协变量 $ x_1 $ 和 $ x_2 $ 的分布进行了调整,以确保模型在不同条件下具有良好的分离性。模拟研究的结果表明,所有三种估计器在没有协变量对增长因素的DEs的情况下表现良好。当存在DEs时,忽略DEs会导致估计参数出现严重偏差。两步和三步估计器在参数估计有偏差的情况下表现相当,但一步估计器最为敏感,尤其在中等类别分离条件下。

此外,我们还研究了不同协变量效应的指定方式对估计器性能的影响,包括忽略、正确指定和误设DEs。结果显示,所有三种估计器在正确指定或过度指定DEs的情况下表现更好,参数估计无偏,覆盖率接近名义水平。在研究2中,当忽略DEs时,所有估计器的覆盖率未能达到名义水平,而在正确指定DEs时,覆盖率提高。在研究3中,当误设DEs时,所有估计器倾向于高估协变量对潜在类别的影响,导致参数估计有偏差。

在实际数据应用中,我们采用所有三种估计器,使用不同的DEs指定方式对真实数据集进行分析。结果显示,教育水平对潜在类别成员资格有显著影响,而年龄仅对潜在类别成员资格有影响。教育水平较高的人群倾向于属于高稳定类别,而教育水平较低的人群倾向于属于中等下降类别。年龄较大的人群更可能属于中等下降类别,而年龄较小的人群更可能属于高稳定类别。所有估计器的性能总体上是相似的,但一步估计器在误设DEs的情况下表现最差。

本文还讨论了不同估计器在处理GMMs中的表现。模拟研究的结果表明,当忽略DEs时,一步估计器对参数估计的影响较大,而在正确指定或误设DEs时,所有估计器的性能得到改善。两步和三步估计器在误设DEs的情况下表现出较高的稳健性,而一步估计器的类型I错误率较高。此外,我们还探讨了在GMMs中对协变量进行建模的效率问题,发现两步和三步估计器在正确指定DEs时的效率较低,但它们在误设DEs时的表现优于一步估计器。

总的来说,当存在协变量的DEs但DEs的具体位置未知时,我们建议使用一步估计器,其在效率和无偏估计方面表现更好,并且类型I错误率较低。当没有明确的协变量DEs或用于探索性分析时,我们建议使用两步和三步估计器,因为它们对模型误设具有更高的稳健性。本文还讨论了在实际研究中,如何通过模拟研究来评估不同估计器的性能,并提出了一些可能的解决方案,如引入贝叶斯推断方法以更好地处理不确定性,或研究使用自助法的标准误差。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号