基于Vision Transformer与SRU++的注意力驱动递归视频异常检测框架

【字体: 时间:2025年08月10日 来源:Array 4.5

编辑推荐:

  研究人员针对视频监控中异常事件检测(VAD)存在的长视频处理效率低、异常事件稀疏性等挑战,开发了结合Vision Transformer(ViT)空间特征提取和Simple Recurrent Unit Plus Plus(SRU++)时序建模的新型框架。通过分段标注策略和聚类加权机制,在UCF-Crime等三大数据集上实现95.14%的准确率,计算效率较传统方法提升10倍,为实时安防监控提供高效解决方案。

  

在公共安全领域,监控摄像头每天产生海量视频数据,但人工筛查效率低下且容易遗漏关键异常事件。传统视频异常检测(Video Anomaly Detection, VAD)面临三大困境:长视频中异常事件稀疏难定位、复杂场景下细微异常难捕捉、实时处理对计算资源要求苛刻。尤其对于暴力、爆炸等突发性公共安全事件,现有基于CNN-LSTM的模型存在长程依赖捕捉不足、推理延迟高等问题,而纯Transformer架构又面临计算量爆炸的挑战。

针对这些行业痛点,United International University(联合国际大学,孟加拉国)计算机科学与工程系的研究团队创新性地提出"注意力驱动递归"的混合架构。该成果发表在《Array》期刊,通过ViT-Small捕获全局空间特征,结合CUDA优化的SRU++实现高速时序建模,在保持精度的同时将计算效率提升一个数量级。研究人员特别设计了针对UCF-Crime数据集的"分段-聚类加权"机制,使多类暴力事件识别准确率突破95%大关。

关键技术路线包含:1)基于统计分析的视频分段预处理(10秒/段);2)ViT-small_patch16_224模型提取2048维空间特征;3)双SRU++单元构建的时序模型(含8头注意力);4)余弦相似度驱动的聚类加权分类。实验采用三阶段验证:先在3500段UCF-Crime数据上对比ResNet-50与ViT特征提取效果,再通过AUC-PRC曲线评估多分类性能,最终用滑动窗口测试全视频检测能力。

主要研究发现包括:

  1. 特征提取模块比较显示,ViT较ResNet-50在测试集准确率提升1.49%(95.14% vs 93.65%),证明自注意力机制更擅长捕捉暴力场景中的全局异常特征。

  2. SRU++在NVIDIA P100 GPU上实现1.38ms/批次的推理速度,较LSTM提速近10倍,验证了其元素级递归(elementwise recurrence)设计的优越性。

  3. 聚类加权机制使多分类AUC达0.96,其中"爆炸"类PRC曲线下面积最高达0.98,表明特征相似性度量能有效增强类间区分度。

  4. 可视化分析显示,模型对持续2秒以上的异常事件检测成功率达92%,但对<1秒的瞬时异常(如枪击闪光)存在23%的漏检率。

研究团队在讨论中坦承两大局限:ViT在边缘设备上的高延迟(CPU环境13.7秒/视频),以及预训练模型对火焰等特殊异常的特征提取不足。建议的未来方向包括C++重写推理引擎、在线增量学习等。这项工作的核心价值在于:首次将ViT的全局感知能力与SRU++的实时性相结合,为机场、地铁等场景的智能监控提供了可落地的技术方案,其提出的"分段-聚类"协同框架也为长视频时序分析树立了新范式。特别值得注意的是,该方法在保持state-of-the-art性能的同时,模型体积经int8量化后仅26.01MB,具备较强的边缘部署潜力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号