
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于人群生物样本库数据的累积发病率函数估计新方法:整合现患病例提升研究效能
【字体: 大 中 小 】 时间:2025年08月05日 来源:Biometrics 1.7
编辑推荐:
本研究针对人群生物样本库数据中现患病例利用不足的问题,提出了一种创新的累积发病率函数(CIF)估计方法。通过建立疾病-死亡模型(illness-death model),研究人员开发出能整合现患病例的非参数估计量,相比传统Aalen-Johansen(AJ)估计量具有双重优势:(1)显著提高估计效率;(2)突破最小招募年龄cL限制实现更早年龄段的CIF估计。该方法在UK Biobank(UKB)白血病和脑癌数据分析中展现出优越性能,为大规模流行病学研究提供了新工具。
在当今精准医学时代,各国建立的百万级人群生物样本库(如英国UK Biobank)正成为流行病学研究的重要资源。然而这些"数据富矿"的开发利用面临特殊挑战:研究对象在40-69岁区间陆续入组,形成复杂的左截断数据;同时包含入组时已患病的"现患病例"和随访期间发病的"新发病例"。传统生存分析方法要么完全忽略现患病例造成信息损失,要么依赖强假设导致估计偏差——这就像拥有珍贵矿石却缺乏合适的冶炼技术。
针对这一方法论瓶颈,以色列特拉维夫大学(Tel Aviv University)和希伯来大学(The Hebrew University of Jerusalem)的统计学家团队在《Biometrics》发表创新研究。他们聚焦疾病-死亡模型(illness-death model)这一半竞争风险框架,突破性地将现患病例纳入估计过程,开发出更精确的累积发病率函数(CIF)估计方法。这项工作不仅解决了生物样本库数据分析的关键技术难题,更将研究视野扩展到传统方法无法触及的早发疾病领域。
研究团队采用三大关键技术:(1)基于条件生存函数S1|2(t1|t2)构建估计量,巧妙规避左截断偏差;(2)利用Kaplan-Meier估计量处理死亡时间的右删失数据;(3)通过经验过程理论建立估计量的渐近正态性,为统计推断提供理论基础。所有分析均基于UKB真实数据特征设计模拟研究验证。
【CIF估计量构建】
研究创新性地将CIF分解为条件生存函数与边缘分布函数的乘积积分形式:G1(t)=∫F1|2(t∧t2|t2)dF2(t2)。通过证明在给定死亡年龄条件下,入组年龄不再提供额外信息,成功建立了适应左截断数据的估计方程。模拟显示该估计量在n=5000时即表现出良好性质。
【与AJ估计量比较】
在16种模拟场景中,新方法展现出显著优势:当疾病风险始于最小入组年龄前(场景3xxx),传统AJ估计量完全无法识别早期风险,而新方法成功重建完整发病轨迹;即使在风险始于入组年龄后(场景1xxx/2xxx),新方法的估计标准差平均降低15-20%。如图2所示,在典型配置下新估计量(虚线)紧密贴合真实曲线(实线),而Chang-Tzeng方法(未展示)存在严重偏差。

【实际数据分析】
应用UKB的502,420例数据(含383例AML白血病)验证方法实用性。如表3所示,现患病例占比达13-26%,最小发病年龄比新发病例早8-17年。图4展示AML分析结果:新方法不仅将估计起点前移至40岁前,其95%置信带宽度更比AJ方法缩减27%,极大提升了研究精度。

这项研究为生物样本库数据分析树立了新标杆。方法学突破体现在三个维度:理论层面,首次建立了整合现患病例的CIF估计理论框架;应用层面,解决了AJ估计量必须排除现患病例的局限;实践层面,R包illdthCIF的实现推动方法落地。值得关注的是,虽然当前版本对乳腺癌等极低死亡率疾病适用性有限,但随着随访期延长,该方法将释放更大潜力。正如作者指出,这种"条件生存函数"的建模思路可拓展至其他多状态模型,为复杂随访数据分析开辟了新途径。
生物通微信公众号
知名企业招聘