从传统的代谢标志物到集成学习:机器学习模型在预测青少年非酒精性脂肪肝病(NAFLD)风险方面的比较应用
《Frontiers in Endocrinology》:From traditional metabolic markers to ensemble learning: comparative application of machine learning models for predicting NAFLD risk in adolescents
【字体:
大
中
小
】
时间:2025年10月30日
来源:Frontiers in Endocrinology 4.6
编辑推荐:
青少年非酒精性脂肪肝风险预测中,基于NHANES 2011-2020数据的机器学习模型研究显示,Extra Trees(ET)模型通过体脂数据和实验室指标(如腰围、甘油三酯、胰岛素等)实现最优预测性能(AUC=0.784),其SHAP分析揭示了腰围、甘油三酯、胰岛素等关键特征的非线性阈值效应,并开发了交互式在线预测工具。
非酒精性脂肪肝病(NAFLD)在青少年群体中的发病率正逐年上升,已成为全球公共卫生领域的重要挑战之一。由于目前依赖影像学检查和侵入性诊断手段如肝活检,这些方法在大规模筛查中存在成本高、操作复杂以及潜在风险等问题。因此,开发一种准确、经济且非侵入性的风险预测工具显得尤为迫切。本研究旨在利用美国国家健康与营养调查(NHANES)2011至2020年的数据,结合多种机器学习(ML)模型,探索适用于青少年NAFLD风险预测的有效方法。
研究团队收集了2,132名美国青少年的数据,并通过Light Gradient Boosting Machine(LightGBM)算法对变量进行重要性排序,选取了前10个预测变量用于后续模型构建。为了确保变量选择的稳定性,研究者还采用了L1惩罚的逻辑回归、Boruta和置换重要性相结合的共识策略。结果显示,这些变量包括腰围(WC)、甘油三酯(TG)、胰岛素、血小板计数(PLT)、身高、空腹血糖(GLU)、白细胞计数(WBC)、总胆固醇(TC)、红细胞计数(RBC)和高密度脂蛋白(HDL)。这些变量不仅在成年人中已被证实为NAFLD的显著预测因子,而且在青少年群体中也显示出重要的临床意义。
为了全面评估模型的性能,研究团队构建并测试了九种监督学习算法,包括人工神经网络(ANN)、决策树(DT)、Extra Trees(ET)、梯度提升(GB)、K近邻(KNN)、LightGBM、随机森林(RF)、支持向量机(SVM)和XGBoost。研究过程中,为了应对数据集中NAFLD比例较低(13%)的问题,研究者采用了合成少数类过采样技术(SMOTE)对训练集进行处理,以缓解类别不平衡对模型训练的不利影响。此外,通过五折分层交叉验证对模型的超参数进行了优化,最终在完整训练集上重新训练模型,以确保模型的稳定性和泛化能力。
模型评估指标包括曲线下面积(AUC)、准确率(ACC)、灵敏度、特异性、精确度、F1分数和Kappa值。结果显示,在训练集中,随机森林(RF)的AUC值最高,达到1.000,但其在测试集中的表现相对不稳定,AUC值为0.760。相比之下,Extra Trees(ET)模型在训练集和测试集中均表现出良好的预测能力,AUC值分别为0.784和0.788,同时在准确率(0.773)、精确度(0.324)和Kappa值(0.320)方面也优于其他模型。这表明ET模型在识别NAFLD方面具有较高的平衡性和可靠性。此外,研究者还对ET模型与基于TyG指数的传统逻辑回归模型进行了比较。尽管TyG指数衍生模型在灵敏度方面表现较好,但其精确度和整体准确率较低,容易产生误判。因此,ET模型在实际应用中可能更具优势。
为了提高模型的可解释性,研究者使用了SHapley Additive exPlanations(SHAP)方法,对各变量的贡献进行了量化分析。SHAP分析表明,腰围、甘油三酯、胰岛素、红细胞计数和高密度脂蛋白是影响青少年NAFLD风险的关键变量,其中腰围和甘油三酯的升高与风险增加呈非线性关系,而高密度脂蛋白的升高则表现出一定的保护作用。这些结果不仅揭示了传统风险因素的相对重要性,还进一步展示了变量之间复杂的相互作用关系,有助于临床医生更好地理解NAFLD的发生机制。
基于上述分析,研究团队开发了一个交互式的在线风险预测工具,使用Streamlit平台构建,旨在为临床提供便捷的风险评估服务。该工具允许用户输入基本的人体测量和实验室检测数据,并输出个性化的NAFLD风险概率。同时,工具还提供了SHAP分析的可视化结果,使用户能够直观地了解各个变量对预测结果的具体贡献。这种结合机器学习与临床可解释性的方法,不仅提升了模型的实用性,也为青少年NAFLD的早期筛查和干预提供了有力支持。
从临床角度来看,该模型的优势在于其依赖于常规临床指标,无需复杂的设备或昂贵的检测手段,便于大规模推广和应用。此外,模型通过识别腰围、甘油三酯、胰岛素等变量的非线性阈值效应,为临床制定早期干预策略提供了参考依据。例如,研究显示,腰围和甘油三酯水平的显著升高会直接导致NAFLD风险的跃升,而高密度脂蛋白的升高则可能起到一定的保护作用。这些发现对于指导青少年的健康管理具有重要意义。
尽管本研究取得了诸多成果,但也存在一些局限性。首先,所使用的数据为横断面研究数据,无法提供因果推断的直接证据。其次,NAFLD的诊断主要依赖于生化指标,而非金标准的肝活检,这可能导致部分误诊或漏诊。此外,虽然研究者通过多种特征选择方法筛选了关键变量,但仍有可能遗漏一些重要的遗传或环境因素。最后,由于研究样本仅限于美国青少年,其结果在其他人群中的适用性仍需进一步验证。
总体而言,本研究通过机器学习方法,成功构建了一个适用于青少年NAFLD风险预测的模型,并结合SHAP分析提升了模型的可解释性。该模型不仅在预测性能上优于传统指标,还为临床提供了一种低成本、高效率的筛查工具。未来,随着更多研究数据的积累和技术的不断进步,该模型有望在更广泛的青少年群体中推广应用,为NAFLD的早期识别和干预提供科学依据。同时,研究团队还计划进一步验证该模型在不同种族、年龄和性别群体中的适用性,以提高其普适性和临床价值。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号