使用SMOTE对不平衡的出行方式选择数据集进行分类,并采用可解释的机器学习方法进行预测

《Sustainable Futures》:Classification of imbalanced travel mode choice dataset with SMOTE and prediction using interpretable machine learning

【字体: 时间:2025年08月06日 来源:Sustainable Futures 4.9

编辑推荐:

  随机森林和XGBoost在SMOTE平衡的交通出行方式选择预测中表现最佳,显著影响包括驾驶执照状态、收入水平、车辆拥有量和城乡分类。传统方法如逻辑回归效果较差,证实机器学习更适合处理不平衡数据。

  旅行模式选择(Travel Mode Choice, TMC)是交通规划与政策制定中的关键环节,尤其在当前城市化进程加快、新兴出行方式不断涌现的背景下,TMC的预测精度和模型可靠性对构建可持续交通系统具有重要意义。传统的统计方法,如离散选择模型(Discrete Choice Models, DCMs)和线性回归,虽然在解释性和理论基础方面表现良好,但在处理复杂、非线性以及不平衡数据时存在局限性。随着机器学习(Machine Learning, ML)技术的发展,越来越多的研究开始采用ML算法来预测TMC,并在一定程度上改善了传统方法的不足。然而,由于TMC数据中某些模式(如公共交通、非机动交通)存在明显的样本不平衡问题,导致模型预测结果偏向多数类,影响了对少数类的识别能力。因此,研究者开始探索数据平衡技术,如合成少数类过采样技术(Synthetic Minority Oversampling Technique, SMOTE),以提高模型在不平衡数据上的表现。

本研究利用2022年美国加州国家住户出行调查(National Household Travel Survey, NHTS)数据集,分析了影响TMC的关键因素,并通过应用SMOTE技术平衡数据后,采用多种ML算法进行预测。研究发现,原始数据集中,机动交通(Motorized Transport, MT)占据了主导地位,而非机动交通(Non-Motorized Transport, NMT)和公共交通(Public Transport, PT)的样本比例相对较低,分别为4.84%和4.38%。这种不平衡性在实际预测中可能影响模型的泛化能力和对少数类的识别精度。因此,研究者采用SMOTE技术生成合成样本,以提高数据集的平衡度,从而增强模型在预测非主流出行模式时的准确性。

在模型选择方面,研究者对随机森林(Random Forest, RF)、决策树(Decision Tree, DT)、极端梯度提升(Extreme Gradient Boosting, XGBoost)、K近邻(K-Nearest Neighbors, KNN)和逻辑回归(Logistic Regression, LR)进行了比较分析。结果显示,RF和XGBoost在数据平衡后表现出最优的预测性能,其中RF的准确率达到了0.937,显著优于其他模型。DT和KNN的准确率也较高,分别为0.9374和0.9154,但其交叉验证准确率和F1分数略逊于RF。相比之下,逻辑回归的准确率仅为0.7682,明显低于其他模型,表明其在处理不平衡数据时表现不佳。此外,ROC曲线分析进一步验证了RF、DT和XGBoost在区分不同出行模式上的优势,其曲线下面积(Area Under the Curve, AUC)接近1.0,显示出卓越的分类能力。而逻辑回归的AUC为0.98,虽然较高,但与理想值仍有差距,表明其在处理复杂非线性关系时存在局限性。

通过特征重要性分析,研究发现一些关键因素对TMC具有显著影响。例如,是否持有驾驶执照、车辆拥有情况、收入水平以及居住区域(城市、郊区、农村)是影响出行模式选择的重要变量。持有驾驶执照和车辆的个体更倾向于选择机动交通,而缺乏驾驶执照的群体则更可能依赖非机动交通或公共交通。此外,收入水平的高低也与出行模式选择密切相关,高收入家庭更可能拥有私家车并选择机动交通,而低收入群体则更倾向于使用公共交通或非机动交通。居住区域则影响了个体对出行方式的偏好,城市居民由于公共交通网络密集,更倾向于使用公共交通或步行,而郊区居民由于公共交通覆盖有限,更依赖机动交通。这些发现不仅揭示了TMC背后的复杂决策机制,还为交通规划和政策制定提供了有价值的参考。

研究还指出,传统方法和ML方法在TMC预测中的应用各有优劣。传统方法如DCMs在理论构建和解释性方面具有优势,但难以适应数据分布的复杂性。相比之下,ML方法能够捕捉数据中的非线性关系和特征交互,表现出更强的预测能力。然而,ML模型的“黑箱”特性限制了其在实际应用中的可解释性,使得政策制定者难以理解模型的决策依据。因此,研究强调了结合可解释性机器学习(Interpretable Machine Learning, IML)方法的重要性,如使用SHAP(SHapley Additive exPlanations)分析来增强模型的透明度。

此外,研究还探讨了不同ML模型在处理不平衡数据时的适用性。通过应用SMOTE技术,研究者发现RF和XGBoost在预测少数类出行模式时表现尤为突出,不仅提高了准确率,还减少了过拟合的风险。而逻辑回归由于其线性结构和对特征之间非线性关系的处理能力较弱,在不平衡数据集上表现不佳。这表明,在处理TMC数据时,采用具有更强非线性建模能力的ML算法是提高预测性能的关键。同时,研究者建议未来研究应结合更多的变量,如社会因素、个人偏好、态度和环境变量,以更全面地理解TMC的决策过程。

本研究的结论对于推动可持续交通系统具有重要价值。首先,高收入家庭和持有驾驶执照的个体更倾向于选择机动交通,这表明在城市规划中应关注如何提高公共交通的可达性和吸引力,以减少对私家车的依赖。其次,SMOTE技术的应用显著提升了模型在不平衡数据上的表现,为未来TMC预测提供了新的方法论支持。最后,RF在所有模型中表现出最佳的预测能力,这表明在实际应用中,RF可能是一个更为可靠的选择。然而,研究也指出,当前研究仍存在局限性,如仅基于加州的NHTS数据,未来需要更多地区性的数据验证,以提高模型的普适性。此外,未来研究可探索更复杂的模型,如深度学习方法(如卷积神经网络、长短期记忆网络)以及针对表格数据的特定架构(如TabNet、TabTransformer),以进一步提升TMC预测的准确性。同时,通过SHAP分析等技术,可以增强模型的可解释性,使政策制定者能够更好地理解出行模式选择的决策机制,从而制定更加公平和有效的交通政策。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号