基于深度学习与多模态大语言模型的众包视频近距碰撞检测研究

《IEEE Open Journal of the Computer Society》:Leveraging Deep Learning and Multimodal Large Language Models for Near-Miss Detection Using Crowdsourced Videos

【字体: 时间:2025年11月13日 来源:IEEE Open Journal of the Computer Society 8.2

编辑推荐:

  本研究针对交通近距碰撞事件检测的空白,提出融合深度学习与多模态大语言模型(MLLM)的创新框架。通过比较CNN、ViT和CNN+LSTM三种模型在众包行车记录仪视频中的表现,结合GPT-4o进行事件特征提取与叙事生成,实现了近距碰撞事件81.2%的检测准确率,为主动式交通安全管理提供了新范式。

  
在道路交通安全的战场上,真正引起人们警觉的往往是血淋淋的交通事故。然而,在每起重大事故背后,可能隐藏着成百上千次侥幸避免的“近距碰撞”事件——这些看似微不足道的危险瞬间,恰如冰山潜藏的部分,蕴含着预防事故的关键信息。遗憾的是,传统交通安全研究过度聚焦于已成事实的碰撞事件,而对更具预警价值的近距碰撞事件缺乏有效检测手段。随着行车记录仪的普及,海量众包视频数据为这一难题提供了新的解决思路,但如何从动态、复杂的视频流中精准识别近距碰撞事件,并提取可解释的安全特征,仍是亟待突破的技术瓶颈。
发表于《IEEE Open Journal of the Computer Society》的这项研究,开创性地将深度学习与多模态大语言模型相结合,构建了一套完整的近距碰撞检测与分析框架。研究团队通过系统比较三种主流深度学习模型(CNN、ViT和CNN+LSTM)在众包行车记录仪视频中的表现,并引入GPT-4o进行事件叙事生成与特征提取,为实现主动式交通安全管理提供了新的技术路径。
研究采用的关键技术方法包括:基于余弦相似度的视频事件分割算法(阈值0.8)、三种深度学习模型(CNN用于帧级分类,ViT和CNN+LSTM用于事件级分类)的对比评估、以及GPT-4o在零样本和少样本学习下的多模态分析。数据来源于YouTube行车记录仪编译视频,包含碰撞、近距碰撞和正常驾驶三类事件,经人工验证后形成标准化数据集。
模型性能比较分析
CNN模型在帧级分类中表现最优,准确率达90%,F1分数89%,凸显其在空间特征提取方面的优势。ViT模型在事件级分类中取得77.27%的准确率,但其59.71%的精度表明全局注意力机制对数据量敏感。CNN+LSTM模型以78.1%的准确率展现了时空建模潜力,但61.22%的精度说明其对数据集规模依赖较强。
多模态大语言模型分析
GPT-4o在零样本学习环境下对近距碰撞事件的分析达到81.2%的准确率和81.9%的F1分数,显著优于少样本学习。研究表明,GPT-4o固有的多模态理解能力使其无需示例即可准确提取商业车辆参与、冲突类型、路面条件等13类安全特征,而少样本学习反而可能限制其泛化能力。
案例深度解析
以雨天交叉路口为例,零样本学习准确识别出三车参与的近距碰撞风险,精准提取了“路面湿滑”“卡车转向”等关键要素;而少样本学习则错误地将事件判定为“非碰撞”。这验证了直接利用大语言模型先验知识进行交通安全分析的有效性。
研究结论表明,CNN模型在单帧分析中保持优势,而ViT和CNN+LSTM在事件级分类中展现了处理时序依赖的潜力。特别值得注意的是,通过事件分类预处理再送入GPT-4o分析的策略,既降低了计算开销,又保证了叙事生成的上下文一致性。这种分层处理框架为大规模视频安全分析提供了实用方案。
该研究的核心意义在于将近距碰撞这一“隐性”安全指标纳入可量化分析范畴,突破了传统方法依赖结构化数据的局限。通过众包视频、深度学习与大语言模型的三角验证,不仅为交通安全研究提供了新的数据来源和分析范式,更实现了从“事后分析”到“事前预警”的范式转变。随着多模态大语言模型的持续进化,这种技术路线有望成为智能交通系统的标准配置,为降低交通事故发生率提供更有效的技术支撑。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号