过去,由于样本量不足,大多数研究难以检测到这些交互作用。然而,随着大型生物样本库(如英国生物样本库)的出现,其中包含了丰富的遗传和环境数据,使得检测交互作用成为可能。在众多检测 G×E 交互作用的方法中,仅病例设计自被提出后便备受关注,它也可用于研究 G×G 交互作用。但该设计在应用时需满足两个重要假设:疾病应罕见,且 G 和 E 或 G 和 G 相互独立。尽管第二个假设已有较多研究,可通过对照数据进行评估,群体分层和偏离哈迪 - 温伯格平衡(HWE)对其影响也有探讨,但罕见病假设却一直未得到深入研究。在实际应用中,仅病例设计已被用于多种疾病患病率差异较大的复杂性状研究,然而这些研究是否满足罕见病假设,以及使用该设计是否合适,都尚不明确。
为了深入探究这些问题,来自哥伦比亚大学医学中心(Center for Statistical Genetics, Gertrude H. Sergievsky Center, and the Department of Neurology, Columbia University Medical Center)和耶鲁大学公共卫生学院(Department of Chronic Disease Epidemiology and Center for Perinatal, Pediatric and Environmental Epidemiology, Yale School of Public Health)的研究人员 Rui Dong、Gao T. Wang、Andrew T. DeWan 和 Suzanne M. Leal 展开了一项全面的研究。他们的研究成果发表在《BMC Genomics》上,为仅病例设计在基因交互作用研究中的应用提供了重要的指导。
研究方法
研究人员主要采用了两种关键技术方法:
模拟研究:研究人员生成了大量数据,涵盖遗传变异(分别在显性和加性模型下)和二元环境暴露情况。通过设置不同的主效应范围、疾病患病率、样本大小、遗传变异的次要等位基因频率(MAF)和环境暴露频率,模拟多种场景。在评估 I 型错误时,设定遗传变异和环境暴露无交互作用;评估效能时,则设定存在交互作用(βG×E?=ln(1.20) )。对于仅病例设计和病例 - 对照设计,分别使用特定公式和逻辑回归模型来估计交互效应,并通过多次重复实验计算 I 型错误率和效能。
理论和分析研究:研究人员构建了理论框架,以揭示交互效应与病例和对照中 G 和 E 之间优势比(OR)的关系。通过比较估计的交互效应(β?G×E? )与真实交互效应(βG×E? ),推导出分析偏差的公式,明确了疾病患病率、主效应等因素对偏差的影响。
I 型错误 —— 仅病例设计和病例 - 对照设计:随着疾病患病率的增加,仅病例设计的 I 型错误率通常会升高,当疾病患病率≥4% 时,I 型错误率会膨胀。例如,当疾病患病率为 4% 时,仅病例设计在α=0.001 和α=0.05 时的 I 型错误率分别为 0.001098 和 0.051387;患病率为 20% 时,I 型错误率大幅上升至 0.002091 和 0.070049。而病例 - 对照设计即使在疾病患病率为 20% 时,I 型错误率仍能得到良好控制。当一个或两个主效应不存在时,仅病例设计在高疾病患病率(如 20%)下 I 型错误率也能得到有效控制12。
主效应与仅病例设计的 I 型错误:研究表明,若一个或两个主效应较强,为控制 I 型错误率,疾病患病率应 < 4%。当两个主效应都很强(如βG?=ln(3.846) 和βE?=ln(5) ),即使疾病患病率低至 1%,I 型错误率也会大幅膨胀(α=0.05 时为 0.141321)。有趣的是,当主效应具有保护作用时,仅病例设计可应用于更高患病率的疾病,且不会出现 I 型错误率膨胀的问题3。
暴露频率与仅病例设计的 I 型错误:遗传变异和环境暴露频率也会影响仅病例设计的 I 型错误率。I 型错误率会先随变异和环境暴露频率增加而上升,当次要等位基因变为主要等位基因或超过 50% 的人群暴露时,I 型错误率会下降。不过,与主效应和疾病患病率的影响相比,其影响相对较小4。
样本量与仅病例设计的 I 型错误:样本量对仅病例设计的 I 型错误率也有影响。当疾病患病率为 4% 且存在两个主效应(βG?=ln(1.2) 和βE?=ln(2) )时,随着样本量从 2500 增加到 10000 再到 50000,I 型错误率逐渐上升。若样本量为 20000,疾病患病率应≤2% 才能控制 I 型错误率;若样本量为 2500,疾病患病率为 5% 时 I 型错误率仍能得到良好控制5。
偏差 —— 分析结果:在零假设下,当一个或两个主效应不存在时,β?G×E? 的偏差为 0;当主效应使患病风险增加或降低时,β?G×E? 会低估真实交互效应,导致负偏差,且疾病患病率越高偏差越大。在备择假设下,即使没有主效应,β?G×E? 也会低估交互效应。偏差与仅病例设计的 I 型和 II 型错误率密切相关,偏差越大,I 型错误率越高7。
研究结论与讨论
通过理论和模拟分析,研究人员发现疾病患病率、主效应、变异和环境暴露频率以及样本量等多种因素,会影响仅病例设计中交互项的偏差以及 I 型和 II 型错误率。一般来说,在 G 和 E 独立的假设下,当疾病患病率 <4% 时,仅病例设计的 I 型错误率不会膨胀;但患病率较高时,I 型错误率会升高,交互效应的估计也会出现偏差。当疾病患病率> 20% 时,仅病例设计的效能可能低于病例 - 对照设计。
研究人员建议,仅病例设计适用于检测低患病率复杂性状(如卵巢癌和乳糜泻)中的交互作用,且应限制对不存在强主效应的变异和环境暴露进行交互作用检测。此外,研究人员还提供了 CaseOnly R 代码,可用于模拟和分析数据,评估仅病例设计的 I 型错误率和统计效能,为研究人员提供了有力的工具。