基于机器学习的儿童ADHD检测及亚型识别:临床评估数据的可解释性方法及在线应用部署

【字体: 时间:2025年02月19日 来源:BMC Psychiatry 3.4

编辑推荐:

  本研究针对儿童注意缺陷多动障碍(ADHD)诊断耗时长、专业人员短缺的问题,开展基于机器学习的ADHD检测及亚型识别研究,开发出精准且可解释的模型,为临床诊断提供高效解决方案,成果发表于《BMC Psychiatry》

  儿童注意缺陷多动障碍(ADHD)是一种以多动、冲动和注意力不集中为特征的常见神经发育障碍,严重影响儿童的认知、学习和社交能力。目前,ADHD的诊断主要依赖于临床评估,耗时且依赖于专业人员的经验,导致诊断延迟。为了提高诊断效率和准确性,研究人员开发了一种基于机器学习的模型,利用临床评估量表数据识别ADHD及其亚型,并通过SHAP方法解释模型决策过程,最终将模型部署为在线应用,为临床实践提供实时预测工具。

研究背景

ADHD是儿童期最常见的神经发育障碍之一,全球患病率为5%~12%。其症状表现为注意力不集中、冲动和多动,严重影响儿童的学习和社交能力。目前,ADHD的诊断主要依赖于临床评估,通常需要耗费大量时间,且因专业人员短缺导致诊断延迟。机器学习技术的发展为解决这一问题提供了新的思路。机器学习能够自动处理大量数据,并通过已有经验不断优化分类性能。然而,以往的研究多依赖于神经影像学数据,这些方法在临床实践中并不常用。相比之下,行为评估量表和智力测验在临床中更为常见且易于获取,因此,本研究旨在开发一种基于这些临床评估数据的机器学习模型,用于识别ADHD及其亚型,并确保模型的可解释性和实用性。

研究方法

研究人员使用了ADHD-200数据集,该数据集包含973名参与者的临床评估数据,涵盖人口统计学信息、行为量表评分和韦氏智力测验结果。研究中排除了缺失数据较多的特征,最终保留了11个特征用于模型训练。研究团队随机选取了30%的样本作为外部验证集,剩余70%用于内部验证。为了平衡数据集中的类别不平衡问题,研究中采用了SMOTE技术对少数类样本进行过采样。研究评估了七种机器学习模型,包括支持向量机(SVM)、逻辑回归(LR)、AdaBoost、随机森林(RF)、决策树(DT)、XGBoost和K近邻(KNN)。模型性能通过10折交叉验证和外部验证进行评估,主要指标为AUC值。

研究结果

模型性能

在二分类任务中,随机森林(RF)模型表现最佳,10折交叉验证的AUC值为0.99,外部验证的AUC值为0.99,准确率为0.95。在多分类任务中,SVM模型在识别ADHD亚型方面表现最佳,内部验证的微平均AUC值为0.96,准确率为0.83;外部验证的微平均AUC值为0.96,准确率为0.85。

模型解释

研究中使用了SHAP方法对模型进行解释。结果显示,ADHD指数和注意力不集中评分对模型输出的影响最大,较低的智力测验分数(如操作智商和全量表智商)与ADHD的高风险相关。此外,模型还能够区分不同的行为评估量表,并根据不同的评分方法调整分类策略。

研究结论与讨论

本研究开发的机器学习模型能够高效、准确地识别ADHD及其亚型,且具有良好的可解释性。该模型基于易于获取的临床评估数据,为ADHD的早期筛查和诊断提供了一种实用的工具。通过SHAP方法的解释,研究人员能够深入了解模型的决策过程,这对于临床医生结合临床知识和算法结果做出诊断决策具有重要意义。此外,该研究还将模型部署为在线应用,用户可以通过输入相关特征值获得ADHD的预测概率,并查看模型的决策依据。这一成果不仅提高了ADHD诊断的效率和准确性,还为临床实践提供了实时支持,具有重要的应用价值。未来的研究可以进一步优化模型性能,探索更多机器学习算法的应用,并扩大数据集以提高模型的泛lass="">研究的局限性与未来展望
尽管本研究取得了显著成果,但仍存在一些局限性。首先,研究数据来源于公开的ADHD-200数据集,样本的多样性和代表性可能受到限制。未来的研究需要纳入更多真实世界的数据,以验证模型的稳定性和泛化能力。其次,由于ADHD-200数据集中ADHD-H亚型(多动/冲动型)样本数量较少,本研究未能充分探索该亚型的识别能力。ADHD-H亚型在学龄前儿童中较为常见,且具有较高的不稳定性,未来的研究可以进一步探索针对该亚型的诊断模型。此外,研究中虽然评估了多种机器学习算法,但仍有进一步优化的空间,例如探索深度学习方法或结合多种算法的集成学习方法,以进一步提高模型的预测准确性。

关键技术方法

本研究主要采用了以下关键技术方法:
  1. 机器学习模型训练与验证:研究评估了七种机器学习模型(包括SVM、LR、AdaBoost、RF、DT、XGBoost和KNN),通过10折交叉验证和外部验证评估模型性能。
  2. 数据预处理:对数据进行了清洗、标准化和平衡处理,排除了缺失数据较多的特征,并采用SMOTE技术对少数类样本进行过采样。
  3. 模型解释:使用SHAP(SHapley Additive exPlanations)方法对模型进行全局解释,分析各特征对模型输出的影响。
  4. 在线应用部署:将最终模型部署为在线应用,用户可以通过输入相关特征值获得ADHD的预测概率,并查看模型决策依据。

研究的重要意义

本研究的成果不仅在技术上展示了机器学习在ADHD诊断中的潜力,还为临床实践提供了一种高效、准确且可解释的工具。通过将模型部署为在线应用,研究团队成功地将研究成果转化为实际应用,为临床医生提供了实时支持,有助于提高ADHD诊断的效率和准确性。此外,该研究还强调了行为评估量表和智力测验在ADHD诊断中的重要性,为未来的研究和临床实践提供了新的思路和方向。随着技术的不断发展和数据的积累,基于机器学习的ADHD诊断工具有望进一步优化,为改善儿童心理健康和生活质量做出更大贡献。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号