编辑推荐:
在撒哈拉以南非洲,孕妇烟草使用情况数据有限。研究人员运用随机森林算法,分析 26 个国家 33,705 名孕妇数据。结果显示模型性能良好,确定了关键影响因素。这为制定针对性政策、改善母婴结局提供依据。
在全球范围内,烟草使用都是一个严峻的健康问题。据世界卫生组织(WHO)统计,全球约有 13 亿吸烟者,超过 80% 分布在低收入和中等收入国家(LMICs) ,每年因烟草使用导致 800 万人死亡,其中成年女性占比超过 5%。在撒哈拉以南非洲地区,吸烟率更是呈快速上升趋势,预计到 2030 年吸烟者将达 2.08 亿人。对于女性而言,尤其是处于孕期这一特殊阶段,吸烟的危害不容小觑。孕期吸烟不仅会影响自身健康,还会对胎儿发育造成诸多不良影响,如生长受限、低出生体重、肥胖、慢性疾病,甚至增加死产、先天性异常以及婴儿猝死综合征的风险 。尽管吸烟对孕期的危害已被广泛认知,但全球孕期吸烟的女性数量依然可观,在不同收入水平的国家,孕期吸烟的流行率差异较大。在高收入国家,2018 年美国孕期吸烟流行率达 8.2%,澳大利亚为 11.4%;而在 LMICs,这一比例为 2.6%,在非洲约为 0.8% 。
然而,目前关于撒哈拉以南非洲地区孕妇烟草使用的全面数据却十分有限,此前也缺乏运用机器学习方法进行的相关研究。传统的统计方法在分析此类复杂问题时存在一定的局限性,难以准确揭示隐藏的模式和复杂的关系。为了填补这一研究空白,来自埃塞俄比亚等多所大学的研究人员开展了一项极具意义的研究。该研究成果发表在《BMC Public Health》杂志上,为深入了解撒哈拉以南非洲地区孕妇烟草使用情况提供了新的视角。
研究人员为开展此项研究,采用了多种关键技术方法。数据来源为 2016 - 2023 年在 26 个撒哈拉以南非洲国家进行的人口与健康调查(Demographic and Health Surveys,DHS) ,从中选取了 33,705 名孕妇的记录作为研究样本。在数据处理阶段,运用 K 近邻算法(K-nearest neighbor)对缺失值进行插补,利用合成少数过采样技术(Synthetic Minority Oversampling Technique,SMOTE)处理类别不平衡问题,通过递归特征消除法(Recursive Feature Elimination,RFE)进行特征选择。建模时,以随机森林分类器(Random Forest classifier)为主要算法,并运用 SHAP(Shapley Additive exPlanations)值评估每个特征对模型预测的影响 。
下面来详细看看研究结果。
- 研究对象的社会人口学特征:研究共纳入 33,705 名孕妇(加权后) ,其中 2.07%(669 名)在孕期使用烟草。大部分参与者(67%,22,612 名)来自农村地区,32.91%(11,093 名)居住在城市。在教育程度方面,36.32%(12,241 名)没有接受过正规教育,31.87%(10,742 名)完成了小学教育,31.81%(10,722 名)接受过中学及以上教育 。家庭户主性别上,81.39%(27,432 名)为男性,18.61%(6,273 名)为女性。在识字能力方面,50.45%(17,003 名)完全不会读写,49.55%(16,702 名)能够读写。婚姻状况上,88.63%(29,873 名)已婚,10.27%(3,462 名)单身,0.71%(238 名)丧偶,0.39%(132 名)离婚 。此外,53.12%(17,903 名)的参与者拥有手机,2.05%(691 名)使用互联网,46.8%(15,774 名)被归类为贫困,33.2%(11,191 名)为中等收入,20%(6,740 名)为富裕 。64.58%(21,768 名)的受访者有工作,35.42%(11,937 名)没有工作。
- 机器学习分析:随机森林分类器在预测孕妇烟草使用方面表现出色。模型准确率达到 0.92,意味着能准确分类 92% 的情况。曲线下面积(Area Under the Curve,AUC)为 98% ,表明模型区分烟草使用者和非使用者的能力近乎完美。精确率为 91%,即被分类为烟草使用者的案例中 91% 是正确的,假阳性率较低。召回率为 94% ,说明模型能够准确识别 94% 的实际烟草使用者,假阴性较少。F1 分数为 0.93,体现了精确率和召回率之间的良好平衡。经过 10 折交叉验证后,模型的各项指标依然表现出色,准确率为 90%,精确率为 88%,召回率为 92%,F1 分数为 90% 。通过受试者工作特征(Receiver Operating Characteristic,ROC)曲线评估,AUC 为 98%,进一步证明了模型在不同决策阈值下有效区分孕妇是否使用烟草的强大预测能力。同时,精确率 - 召回率曲线也展示了模型在不同阈值下精确率和召回率的变化情况。
- 重要特征选择:研究运用随机森林内置的特征重要性和 SHAP 值两种方法,确定了影响孕妇烟草使用的重要预测因素。随机森林内置特征重要性分析显示,财富指数、与医疗机构的距离、母亲的教育程度在影响因素中排名较高,表明社会经济差异和医疗服务可及性对孕期烟草使用行为有显著影响。婚姻状况、手机拥有情况和银行服务获取等因素也发挥了一定作用,而互联网使用和媒体曝光的影响相对较小。通过 SHAP 值分析发现,识字能力和母亲的教育程度对模型预测的影响最大(SHAP 值均为 + 0.45),其次是财富指数( + 0.42)和手机拥有情况( + 0.34) 。与医疗机构的距离、居住地点、拥有银行账户等因素的影响程度适中(SHAP 值均为 + 0.29) ,媒体曝光( + 0.08)和互联网使用( + 0.07)的影响最小。具体而言,较低的识字水平、低教育程度、较低的财富指数、没有手机、距离医疗机构较远、居住在农村、没有银行账户、没有正式工作、单身、居住在女性户主家庭、缺乏电力供应、媒体曝光有限以及没有互联网使用的孕妇更有可能使用烟草。
综合研究结论和讨论部分,该研究利用随机森林机器学习算法,成功识别出了撒哈拉以南非洲 26 个国家孕妇烟草使用的关键预测因素,包括母亲的识字能力、教育程度、财富指数、医疗服务可及性等。这些因素揭示了导致孕期烟草依赖的系统性不平等,为制定针对性的公共卫生策略提供了重要依据。通过改善教育条件、缩小经济差距、消除医疗服务获取障碍等政策干预措施,有望减少该地区孕妇的烟草使用,进而提升母婴健康水平。不过,该研究也存在一定的局限性,如使用自我报告数据可能存在回应偏差,研究设计为横断面研究限制了因果推断,未进行国家特定分析,也未控制调查质量和文化差异等。未来研究可以进一步比较机器学习模型与传统回归模型,分析国家间的差异,验证研究结果,并提高研究的可重复性。总体而言,这项研究为深入了解撒哈拉以南非洲地区孕妇烟草使用问题提供了重要的参考,对推动该地区的公共卫生事业发展具有积极意义。