基于图形的自适应多臂多重终点两阶段设计:统计方法学与效能比较研究
《Statistics in Medicine》:Graph Based, Adaptive, Multiarm, Multiple Endpoint, Two-Stage Designs
【字体:
大
中
小
】
时间:2025年12月04日
来源:Statistics in Medicine 1.8
编辑推荐:
本综述系统阐述了基于图形的自适应多臂多重终点两阶段临床试验设计方法学,创新性地将图形加权策略与条件错误率(CER)和p值组合(PVCombo)两种FWER控制方法相结合。文章通过详尽的模拟研究证实,CER方法在控制家族错误率(FWER)的前提下,其析取效能和合取效能均显著优于传统PVCombo方法,为复杂适应性临床试验设计提供了更优的统计决策工具,具有重要的方法学创新价值和临床应用前景。
确认性临床试验中一个常见的设计问题是在比较一个或多个治疗组与共同对照组时,如何在控制家族错误率(FWER)的前提下对多个疗效终点进行假设检验。图形化方法为多重检验提供了一种直观方法,使研究团队能够通过有向图清晰地表示其对多个假设进行分层检验的优先级,并将可用的I类错误从被拒绝或剔除的假设传播到尚未检验的假设。尽管最初是为单阶段非适应性设计开发的,但本研究展示了如何将其扩展到两阶段设计,允许早期识别有效治疗、适应性样本量重新估计、剔除假设以及在第一阶段结束时改变分层检验策略。
考虑一个精神分裂症试验的例子,涉及两个剂量组(500 mg/天和350 mg/天)与对照组比较,主要终点是第12周PANSS总分相对于基线的变化,关键次要终点是PANSS阴性症状评分的变化。研究团队希望在对四个基本假设(H1:高剂量主要终点,H2:低剂量主要终点,H3:高剂量次要终点,H4:低剂量次要终点)进行检验时,在水平α上强控制FWER。这可以通过执行封闭检验来实现,该检验涉及对所有子集交集假设HJ = ∩j∈J Hj进行局部水平α检验。
通过基于图形的加权策略可以方便地概念化和显示研究团队以分层方式检验各种假设的策略。图形由代表待检验假设的加权节点和用于将权重从被拒绝的假设传播到尚未检验的假设的有向边组成。初始权重分配反映了不同基本假设的相对重要性,而边权重表示从源节点传输到后继节点的节点权重比例。使用[8]中的算法1,可以从初始图中提取任何交集假设HJ的权重。
本文将方法推广到两阶段适应性设计,其中涉及多个治疗组、多个终点,并允许在基于第一阶段数据的非盲期中分析后进行适应性修改。考虑了两种调整方法:p值组合方法和条件错误率方法。
对于每个交集假设HJ,预先指定一个水平α组合检验。在阶段一结束时,拒绝一些交集假设。试验进入阶段二,可能经过适应性修改后,检验剩余的交集假设。通过封闭检验保留个体假设的FWER。组合检验使用逆正态组合函数将两个阶段的调整后p值合并为一个结合了两个阶段数据的组合调整p值。根据构成交集假设的基本假设的p值之间的相关性信息是否已知,调整后的p值计算分为非参数(加权Bonferroni)、参数(加权参数检验,如Dunnett检验)和混合情况。
对于每个交集假设HJ,预先指定一个两阶段组序贯水平α检验。在阶段一结束时,为每个未早期拒绝的交集假设计算条件错误率(CER)或部分条件错误率(PCER)之和。试验进入阶段二,可能经过适应性修改后,使用修改后的临界值再次检验未拒绝的交集假设,这些临界值分别保留了CER或PCER之和。通过封闭检验保留个体假设的FWER。根据相关性信息是否已知,检验同样分为非参数、参数和混合情况。适应性修改后的检验必须满足基于条件拒绝原则的CER或PCER条件,以确保水平α控制。
为了比较p值组合(PVCombo)和条件错误率(CER)方法的操作特性,进行了模拟研究。模拟了一个具有四个治疗组、每个组与对照组比较两个终点(主要和次要)的试验。使用基于图形的加权策略进行封闭检验,并在两个阶段进行,允许在阶段一结束时早期拒绝有效的假设。
模拟比较了四种备择假设场景(S1:一个有效治疗组,S2:两个,S3:三个,S4:四个)和四种在阶段一结束时剔除无效治疗组的决策规则(保守、正常、激进、超激进)下,两种方法的析取效能(至少拒绝一个真实无效假设的概率)和合取效能(拒绝所有选定的真实无效假设的概率)。
- 1.在所有考虑的场景和决策规则下,CER方法的析取效能均高于Combo方法。
- 2.在每种备择假设场景内,CER相对于Combo的析取效能增益对于保守的治疗剔除规则最大,并随着剔除失败者的激进程度增加而减小。
- 3.CER方法的效能增益可能非常大,对于保守规则,析取效能增益范围在4%到12%之间。
- 4.两种方法的绝对析取效能都随着剔除治疗的激进程度增加而增加。
- 5.在所有考虑的场景下,CER的合取效能也更高,在只有少数治疗有效且使用保守规则时差异最大。
- 6.FWER模拟验证了两种方法在名义水平内控制了FWER,但Combo方法通常更为保守(除超激进规则外)。
本研究以两种方式推进了适应性试验设计的发展。首先,展示了如何将用于检验多重假设的基于图形的方法与用于早期拒绝假设的组序贯方法相结合。其次,通过模拟研究证明,对于保持复杂适应性设计的FWER,CER方法比p值组合方法具有更高的效能。
CER方法效能更高的一个原因是封闭检验的不协和性。对于协和检验,拒绝全局交集假设意味着拒绝至少一个个体假设。非协和检验则不一定如此,从而导致保守性和效能损失。本研究中预计划的CER检验(使用特定图形)是协和的。然而,如果在中期分析中剔除治疗组,则会失去协和性。对于Combo方法,即使不剔除任何治疗,组合检验也不是协和的,这导致了更大的保守性。
尽管本工作的示例侧重于比较多治疗组与多终点,但基于图形的多重检验框架可以更普遍地应用。例如,多重假设可以代表一个感兴趣的人群及其潜在的亚组(可能由生物标志物识别)。在这种情况下,该方法可用于适应性人群设计。
所考虑的检验程序基于各自阶段样本计算出的阶段p值。这些p值可以来自任何假设检验,只要在相应的(交集)原假设下,第一阶段p值的分布随机大于或等于均匀分布,并且第二阶段p值在给定中期数据下的条件分布也随机大于或等于均匀分布。对于参数检验,还要求p值基于多元正态检验统计量。
本文的研究局限于两阶段设计。将Combo方法推广到多于两个阶段是直接的,因为组合增量调整p值的基本算法可以应用。然而,CER方法的推广可能需要更多考虑,是目前的一个研究课题。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号