利用调查数据预测美国重度周期性饮酒行为的机器学习算法

《Drug and Alcohol Review》:Machine Learning Algorithms to Predict Heavy Episodic Drinking in the United States Using Survey Data

【字体: 时间:2025年11月06日 来源:Drug and Alcohol Review 2.6

编辑推荐:

  机器学习算法预测美国成人重性周期性饮酒:XGBoost最优,酒精摄入量与年龄为关键因素

  本研究聚焦于“重型间歇性饮酒”(Heavy Episodic Drinking, HED)这一重要的公共卫生问题,旨在评估多种机器学习算法(Machine Learning Algorithms, MLA)在预测HED方面的表现,并探讨影响HED的关键变量。HED指的是在短时间内大量饮酒的行为,通常定义为男性每天饮用5杯以上,女性每天饮用4杯以上,这种饮酒模式不仅在短期内增加了受伤和酒精中毒的风险,还与多种慢性疾病相关,如高血压、缺血性心脏病、肝病以及免疫功能下降等。因此,理解并干预HED对于制定有效的公共卫生政策具有重要意义。

然而,许多调查数据在HED的记录方面存在缺失或不一致的情况,这使得传统方法难以准确评估其在人群中的普遍性。为了解决这一问题,研究采用了机器学习方法,通过从大规模的全国性调查数据中提取特征,构建预测模型,从而估算个体层面的HED可能性。研究选取了1997年至2018年的美国国家健康访谈调查(National Health Interview Survey, NHIS)数据,该数据集覆盖了美国所有州及哥伦比亚特区的非机构化民用人口,具有代表性强、样本量大、数据采集方式相对客观等优势。研究者从中提取了11个变量作为预测因子,包括每日平均酒精摄入量、年龄、性别、教育水平、家庭收入、种族与民族、吸烟状态、婚姻状况、心理压力、健康状况以及居住地区。

在模型选择方面,研究者对六种MLA进行了训练和比较:逻辑回归、朴素贝叶斯、k近邻(kNN)、支持向量机(SVM)、随机森林和极端梯度提升(XGBoost)。这些模型的选择基于已有文献的推荐,同时考虑到其各自的特点与局限性。例如,逻辑回归作为一种传统的统计方法,虽然在可解释性方面表现优异,但其在捕捉复杂、非线性关系方面不如其他MLA。而MLA则能够自动识别数据中的交互效应,从而在预测HED时提供更细致的分析。

为了确保模型的稳定性与准确性,研究者采用了交叉验证和网格搜索(Grid Search)进行超参数调优。在模型评估阶段,研究者使用了多个指标,包括准确率、灵敏度、特异度、正预测值(PPV)、负预测值(NPV)、F1分数和Kappa值,同时计算了接收者操作特征曲线下的面积(AUC)。评估结果显示,XGBoost在所有模型中表现最佳,其AUC值达到0.97,灵敏度为0.80,特异度为0.958,准确率为0.92,表明该模型在识别HED个体方面具有显著优势。此外,SHAP(SHapley Additive exPlanations)方法被用于分析模型的可解释性,结果显示每日平均酒精摄入量和年龄是影响HED预测的最关键变量。

值得注意的是,研究数据中存在类别不平衡问题,即大多数个体未报告HED行为,而少数个体有HED经历。为应对这一挑战,研究者尝试了两种方法:一种是通过随机抽样平衡训练数据,另一种是引入类别权重以增强模型对少数类的识别能力。结果显示,这两种方法在提升模型对少数类的灵敏度方面均有效,同时保持了总体准确率,但对特异度和正预测值产生了一定影响。这一发现表明,在处理类别不平衡数据时,采用适当的策略对于提高模型的实用性至关重要。

在模型的可解释性方面,SHAP分析提供了清晰的变量贡献度排名,帮助研究者理解哪些特征在HED预测中发挥着核心作用。例如,每日平均酒精摄入量和年龄被确定为最重要的两个变量,这一结果与已有研究一致,即较高的酒精摄入量和较年轻的年龄是HED风险的显著预测因素。通过SHAP值的可视化,研究者能够更直观地展示模型如何基于这些特征做出预测,从而增强模型在公共卫生干预中的应用价值。

此外,研究者还进行了次级分析,评估了XGBoost模型在预测不同酒精摄入水平人群中的表现。结果显示,XGBoost在预测低酒精摄入量(1–5克/天)和高酒精摄入量(40–60克/天)人群中的表现均良好,尤其是在低摄入量群体中,模型的准确率较高。然而,在低摄入量群体中,正预测值较低,这可能是由于HED在该群体中较为罕见,导致模型容易产生误报。因此,研究者强调,在评估模型性能时,除了关注整体准确率,还需结合具体的预测指标,以全面理解模型在不同子群体中的表现。

本研究的优势在于其大规模数据集和对类别不平衡问题的系统处理,同时结合了传统方法与现代MLA,为研究者提供了比较分析的视角。此外,SHAP分析的应用使得模型的解释更加透明,有助于政策制定者和公共卫生专家更好地理解HED的预测机制。然而,研究也指出了其局限性,例如数据依赖于自我报告,可能受到社会期望或认知偏差的影响,从而导致结果不准确。此外,研究中未考虑更详细的地理变量,仅使用了居住地区作为地理因素的代表,未来的研究可以探索更精细化的地理信息以提升模型的预测能力。

在实际应用方面,本研究的模型可以为公共卫生部门提供重要的工具。例如,世界卫生组织(WHO)经常使用统计模型来估算全球的酒精消费模式,而引入机器学习驱动的预测方法可以提高这些估算的准确性,尤其是在缺乏直接测量数据的情况下。此外,复杂的政策模拟框架也可以借助MLA来动态估计个体层面的HED发生率,从而支持数据驱动的决策过程。尽管XGBoost在本研究中表现最佳,但研究者指出,不同数据集可能需要不同的模型,因此建议未来研究在不同人群和数据背景下进行模型选择的比较分析,以确保预测结果的适用性和可靠性。

研究还指出,机器学习模型在识别HED方面具有独特优势,尤其是在处理复杂的、非线性的变量关系时。然而,模型的准确性和适用性在很大程度上依赖于数据质量,因此提高数据的客观性和完整性是未来研究的重要方向。例如,通过引入生物标志物数据或与行政记录相结合,可以增强模型的外部验证能力,从而提升其在实际公共卫生工作中的价值。

综上所述,本研究通过比较多种机器学习算法,揭示了XGBoost在预测HED方面的优越性,并强调了在公共卫生研究中引入机器学习方法的必要性。研究不仅为HED的预测提供了新的视角,也为未来的研究指明了方向,即通过更全面的数据收集、更精细的模型优化和更深入的可解释性分析,进一步提升机器学习在健康行为研究中的应用潜力。同时,研究者也提醒,尽管机器学习模型在预测能力上表现出色,但在实际应用中仍需谨慎处理数据偏差和模型可解释性的问题,以确保其在公共卫生干预中的有效性和可靠性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号