
-
生物通官微
陪你抓住生命科技
跳动的脉搏
长时程诊断预测中二元分类的局限性及离散时间事件史分析的优势:基于电子健康记录的实证研究
【字体: 大 中 小 】 时间:2025年06月06日 来源:JMIR AI
编辑推荐:
针对电子健康记录(EHR)中患者随访不一致导致的右删失问题,研究人员比较了二元分类(BC)与时间-事件(TTE)方法在自闭症、ADHD等长时程诊断预测中的表现。研究发现离散时间神经网络(DTNN)能有效消除删失分布偏差,其AUCt 和APt 指标显著优于BC模型,为临床预测模型开发提供了更优方法学选择。
在医疗大数据时代,电子健康记录(EHR)已成为临床预测研究的重要数据源。然而患者随访的不一致性导致大量右删失数据,这对长时程疾病预测(如自闭症、注意力缺陷多动障碍(ADHD)等)带来巨大挑战。传统二元分类(BC)方法因无法区分真实发病概率与充分随访概率,导致预测结果存在系统性偏差。虽然通过出生年份(YOB)或随访时长(t)等筛选策略可部分缓解此问题,但会显著减少样本量并引入新的偏倚。
为解决这一关键方法学问题,杜克大学健康系统的研究人员开展了一项开创性研究,系统比较了BC与时间-事件(TTE)方法在四种临床条件(自闭症、ADHD、复发性中耳炎(ROM)和食物过敏(FA))预测中的表现。研究创新性地采用离散时间神经网络(DTNN)框架,通过Duke大学健康系统2014-2023年的EHR数据,对57,701例患者进行分析。论文发表在《JMIR AI》杂志,为临床预测模型开发提供了重要方法学参考。
研究采用三项关键技术:1)基于Word2Vec的医学概念嵌入预训练,将ICD-10诊断代码、药物(RxNorm)、操作(CPT)和实验室(LOINC)数据转化为256维向量;2)共享编码器架构设计,包含嵌入层、全连接层和全局平均池化层;3)差异化预测头设计,DTNN采用带Softmax的全连接层输出时间区间概率,BC和深度Cox比例风险(DCPH)模型分别预测对数几率和对数风险比。研究采用时间依赖性AUCt
和APt
作为主要评估指标,通过100次bootstrap计算95%置信区间。
研究结果部分,"患者特征"显示数据集包含43,536例合格患者,自闭症和ADHD诊断年龄中位数分别为3.75岁和6.22岁,显著晚于ROM(1.57岁)和FA(2.01岁)。"性能指标分析"显示DTNNYOB≤2020
在自闭症(t=5年)和ADHD(t=7年)预测中的AUCt
分别达0.70和0.72,显著优于BC模型(0.60和0.47)。"半合成删失实验"证实BC模型在人工删失ROM数据上表现显著恶化,而DTNN保持稳定性能。
"亚组分析"揭示重要发现:BC模型预测概率与随访时长呈正相关,而DTNN能准确反映临床流行病学趋势。例如DTNN预测自闭症概率逐年上升(2.24%-2.79%),与全国趋势一致;ROM预测概率2014-2017年下降(与肺炎球菌疫苗推广相关),2018-2020年回升(与COVID-19大流行相关)。人口学分析显示DTNN准确捕捉到自闭症在男性、黑人中的高发率,以及ADHD在白人中的高发率等已知流行病学特征。
讨论部分强调,该研究首次系统揭示了BC模型在长时程预测中的固有局限:1)无法区分真实发病与充分随访概率;2)预测概率与随访时长呈虚假正相关;3)随时间推移预测概率不合理下降。相比之下,DTNN具有三大优势:1)不假设特定参数形式,允许协变量效应随时间变化;2)直接预测时间区间内无事件概率;3)能准确反映真实临床流行趋势。虽然DCPH表现优于BC,但其比例风险假设在长时程预测中常被违背,导致亚组分析结果不一致。
该研究的临床意义在于:1)为处理EHR右删失数据提供了方法学指导;2)证明DTNN可实现早期准确预测(AUCt
≥0.7);3)模型预测能反映真实流行病学趋势,支持精准公共卫生决策。未来研究可扩展至更多医疗系统,纳入更丰富临床数据,并探索更精细的亚组分析。这项研究为改进临床预测模型树立了新标杆,将推动医疗人工智能向更精准、更可靠的方向发展。
生物通微信公众号
知名企业招聘