基于生存分析增强型深度神经网络与协同过滤的出发时间预测新方法

《IEEE Open Journal of Intelligent Transportation Systems》:Beat the Morning Rush: Survival Analysis-Informed DNNs With Collaborative Filtering to Predict Departure Times

【字体: 时间:2025年11月18日 来源:IEEE Open Journal of Intelligent Transportation Systems 5.3

编辑推荐:

  本文针对交通拥堵带来的巨大经济损失,提出了一种结合生存分析(Survival Analysis)与深度神经网络(DNN)的创新框架,用于预测通勤者的早晨出发时间。研究通过K-means聚类进行协同过滤以识别不同行为模式的通勤群体,并利用Cox比例风险模型(Cox Proportional Hazards Model)的关键系数增强DNN的输入特征。实验结果表明,该生存分析增强型DNN(SA-informed DNN)在预测准确性上优于传统神经网络,同时通过风险系数(Hazard Coefficients)提供了更好的模型可解释性,为交通管理和规划提供了更精准的工具。

  
每天清晨,世界各地的城市都上演着同样的戏码——通勤大潮。车流缓慢蠕动,时间一分一秒流逝,带来的不仅是焦躁的情绪,还有真金白银的损失。据统计,早在2018年,美国普通驾车者每年因交通拥堵平均浪费97小时,造成的总成本接近870亿美元。这个问题在早高峰时段尤为突出,而COVID-19大流行更是改变了传统的工作模式,使得高峰时段变得更加模糊和不可预测。面对这一严峻挑战,城市交通管理部门迫切需要一种能够准确预测个体早晨出发时间的能力,这对于管理高峰需求、优化交通系统至关重要。
传统的出发时间预测方法,如四步交通分配模型,往往依赖于固定的高峰小时假设和有限的协变量(如一天中的时间和历史交通数据),难以捕捉后疫情时代通勤行为的动态变化。它们忽略了相似通勤者的行为模式、混合工作安排等重要因素。正是在这样的背景下,一篇发表在《IEEE Open Journal of Intelligent Transportation Systems》上的研究论文《Beat the Morning Rush: Survival Analysis-Informed DNNs With Collaborative Filtering to Predict Departure Times》提出了一种新颖的解决方案,将深度学习的强大能力与生存分析的统计严谨性以及协同过滤的群体智慧相结合,旨在更精准地预测通勤者的出发时间。
为了开展这项研究,研究人员使用了一家美国地理空间数据提供商提供的隐私保护GPS轨迹数据,时间跨度为2020年1月1日至8月1日,覆盖大西雅图地区。他们对数据进行了严格的预处理,筛选出工作日上午3点至下午4点之间发生的、从家(定义为晚上10点至凌晨4点最常出现的起始位置簇)到工作地点(定义为上午10点至下午6点最常出现的结束位置簇)的通勤行程,并剔除了异常值(如行程时长超过6小时、距离超过60,000米或平均速度超过100米/秒)。研究主要采用了三种深度神经网络架构进行比较:全连接网络(FC)、长短期记忆网络(LSTM)和多层感知器(MLP)。核心技术创新在于将生存分析(特别是Cox比例风险模型)得出的风险系数作为额外输入特征,通过独立的隐藏层与原始行程特征(如行程时长、距离、平均速度)进行整合,构建了生存分析增强型DNN(SA-informed DNN)。同时,利用K-means聚类对通勤者进行行为分类(协同过滤),并将这些分类标签以及星期几、月中周次、是否假日等全局时间变量的风险系数也纳入模型。
III. METHODOLOGY
研究的方法论核心是生存分析增强型深度神经网络框架。首先,在生存分析预备知识中,定义了出发时间D的生存函数S(t) = Pr(D > t),表示在时间t尚未出发的概率;以及风险函数λ(t),表示在尚未出发的条件下,在瞬间出发的瞬时速率。研究采用了Cox比例风险模型λ(t|x) = λ0(t)exp(β?x),其中λ0(t)是基线风险,exp(β?x)是偏风险。研究人员不仅为每个日期估计了基于当日行程特征(如平均速度、行程距离)的日期特定系数,还估计了基于时间维度(星期几、月中周次、假日)和通勤者聚类标签的全局系数。通过K-means聚类(K=3),将通勤者分为三类 distinct behavioral classes,例如“长距离通勤且避开早高峰者”和“早起步行或骑行者”。
随后,将这些生存分析系数与原始输入特征分别通过不同的隐藏层进行处理后再拼接,输入到FC、LSTM和MLP等DNN架构中,形成最终的预测模型。
IV. MODEL EVALUATION
模型评估部分展示了研究成果。K-means聚类成功识别出具有不同通勤行为的群体。生存分析本身也提供了有价值的见解,例如,非星期一的工作日,聚类1中的用户倾向于更晚出发;而进行长途旅行的用户倾向于更早出发。
最重要的基准测试结果表明, across all DNN architectures,生存分析增强型模型(SA-informed)的平均预测准确率均优于仅使用原始输入(Original inputs only)或仅使用生存分析系数(SA coefficients only)的模型。其中,相对简单的MLP架构表现最佳,其SA-informed版本的平均准确率达到13.0%,显著高于其他配置,这提示了复杂模型可能存在过拟合风险。敏感性分析进一步揭示了不同超参数(如学习率、批处理大小)对模型性能的影响,为模型调优提供了指导。
V. FUTURE WORK AND DISCUSSION
研究的结论与讨论部分强调了本工作的独特贡献。与通常专注于二元结果预测的传统深度学习与生存分析结合不同,本研究致力于预测连续的出发时间,更适用于交通系统中对人群出发时间分布的估计。生存分析增强型DNN框架成功地将生存分析的统计解释能力与深度学习的强大非线性拟合能力相结合,在提升预测准确性的同时,通过风险系数保持了相当程度的可解释性。这种方法为理解复杂的通勤行为提供了新的视角。未来研究的方向包括开发更适用于连续时间预测的评估指标(而非传统的C-index),探索如何将模型输出的生存概率更有效地转化为具体的出发时间窗口预测,以及整合社会经济人口学变量(如年龄、性别、收入水平)以进一步细化预测模型并揭示更深层次的行为模式差异,从而为制定更具针对性的交通政策和基础设施规划提供支持。
综上所述,这项研究通过巧妙融合生存分析、协同过滤和深度学习,为应对城市交通拥堵这一顽疾提供了一个强大而新颖的预测工具。它不仅证明了这种跨学科方法在出发时间预测上的有效性,更重要的是,它开启了一扇大门,预示着统计模型与深度学习模型的深度融合将在智能交通系统等领域展现出巨大的潜力。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号