基于机器学习的预测方法,用于识别早产新生儿中具有血流动力学意义的动脉导管未闭:一项开创性的研究

《Frontiers in Pediatrics》:Machine learning-based prediction of hemodynamically significant patent ductus arteriosus in preterm neonates: a pioneering insight

【字体: 时间:2025年12月04日 来源:Frontiers in Pediatrics 2.0

编辑推荐:

  本研究通过回顾性分析2014-2019年657例早产儿数据,构建随机森林模型预测hPDA,结果显示模型准确率达91.7%,AUC为0.95,能早期识别高风险病例,为临床提供非侵入性诊断工具。

  
动脉导管未闭(PDA)是早产儿常见的先天性心脏异常,其及时诊断和治疗对降低并发症及死亡率至关重要。传统诊断方法如超声心动图存在依赖专业经验、设备普及率低等局限性,而机器学习模型因其处理多变量和非线性关系的能力,可能成为替代性解决方案。一项基于657例早产儿的研究系统评估了随机森林(Random Forest)模型在预测hPDA(具有血流动力学意义的PDA)中的效能,为临床提供非侵入性、客观的辅助工具。

研究通过回顾性分析2014-2019年某医院NICU患者的临床数据,将患者分为hPDA组(170例)和aPDA组(487例)。数据涵盖孕周、出生体重、出生时是否需要心肺复苏(CPR)、5分钟Apgar评分、羊水过少、绒毛膜羊膜炎、多胎妊娠、吸烟史及支气管肺发育不良(BPD)等变量。传统统计方法显示,孕周、出生体重、CPR需求、1分钟Apgar评分及BPD与hPDA存在显著关联,但性别、5分钟Apgar评分、羊水过少等变量未达传统显著性阈值。

随机森林模型通过JASP软件分析,采用65%数据训练、21%验证、14.8%测试的三折划分策略。结果显示模型表现优异:测试集准确率达91.7%,AUC(0.95)和F1分数(0.923)等关键指标均超过传统统计方法。值得注意的是,模型对hPDA的召回率达到100%,即所有hPDA病例均被正确识别,仅aPDA组存在3例误判。这一特性对临床至关重要,因为漏诊hPDA可能延误治疗,导致严重并发症。

特征重要性分析揭示了模型的核心预测因子。孕周和出生体重对模型的影响最为显著,这与传统研究一致,即极低出生体重(<1500g)和早产(<32周)是hPDA的高危因素。CPR需求作为独立预测指标,提示出生时循环支持不足可能加剧心脏负担。值得注意的是,传统统计忽略的性别、5分钟Apgar评分、羊水过少等变量在随机森林中表现出统计学意义,尤其是5分钟Apgar评分的Mean Dropout Loss值较高,表明其潜在影响可能被常规统计方法低估。

模型性能优势体现在多维度评估:AUC值0.95表明其区分能力接近完美,F1分数0.923平衡了敏感性和特异性。与类似研究相比,该模型在敏感性和特异性上均表现更优(例如另一研究显示76.3%准确率),可能源于更全面的数据整合(如纳入多胎妊娠、吸烟史等混杂因素)。然而,模型对aPDA的预测精度(76.9%)低于hPDA(100%),提示需优化阴性案例的预测能力,尤其在降低假阳性率方面仍有提升空间。

临床意义方面,该模型可辅助实现早期风险分层。例如,孕周<27周、出生体重<900g及出生时需CPR的婴儿,其hPDA风险显著升高。这些指标可帮助临床决策者优先监测高危患者,从而优化超声心动图的资源分配,避免非必要检查。此外,模型捕捉到传统方法遗漏的变量关联,如女性早产儿因激素水平或免疫状态差异,hPDA风险可能更高;5分钟Apgar评分低提示自主循环恢复困难,间接影响PDA闭合进程。

研究局限性包括单中心回顾性设计可能存在的偏倚,以及样本中hPDA仅占26%(170/657),可能影响模型在罕见病中的泛化能力。未来需通过多中心前瞻性研究验证其普适性,并探索与基因组学、代谢组学数据的融合应用。值得注意的是,模型未纳入产后48小时内的动态指标(如呼吸机依赖时长、液体复苏量等),这些参数可能进一步优化预测效能。

在方法论上,随机森林通过自助采样和特征随机选择构建多棵决策树,有效避免过拟合。JASP软件的应用简化了模型构建流程,支持可视化特征重要性分析。与传统逻辑回归或Cox回归相比,随机森林能更精准地捕捉变量间的交互作用,例如低孕周与吸烟史共同作用时,hPDA风险可能呈指数级上升。

该研究为机器学习在儿科心血管领域的应用提供了重要参考。其价值不仅在于预测效能,更在于揭示临床隐性关联。例如,羊水过少虽未达传统统计显著性,但通过随机森林的复杂交互建模,可能反映胎儿宫内环境恶化对 ductus arteriosus 形成的影响。这些发现可指导临床完善高危因素评估体系,推动个性化干预策略。

未来发展方向包括:1)开发实时监测模型,整合连续生命体征数据;2)纳入生物标志物(如降钙素原、CRP等炎症指标)提升预测精度;3)构建动态预警系统,根据患者治疗进展调整风险分层。此外,需建立模型的可解释性框架,例如通过SHAP值分析明确各变量的贡献路径,帮助临床医生理解预测逻辑。

总之,本研究证实随机森林模型在hPDA预测中具有高敏感性、特异性和可解释性,为早产儿心脏监测提供了创新工具。其成功关键在于:1)整合多维度临床数据,包括围产期、产后动态指标;2)采用非参数特征重要性分析,避免传统统计的局限性;3)通过高召回率设计确保罕见但严重病例的早期识别。这些经验为其他罕见病或复杂病理机制的机器学习建模提供了范式参考,尤其在儿科等小样本场景中具有借鉴价值。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号