
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多模态双文本分类的高速公路细粒度视频异常检测新范式与HAD基准数据集
【字体: 大 中 小 】 时间:2025年07月29日 来源:Expert Systems with Applications 7.5
编辑推荐:
针对高速公路监控视频中传统粗粒度异常检测方法难以满足实际需求的问题,研究人员创新性地提出融合视频描述文本的双文本分类框架DCDT。该研究构建了首个含文本描述的HAD数据集,通过时间引导对齐器TGA和多模态对齐机制,实现了细粒度异常分类,在UCF-Crime等数据集上取得突破性性能,为智能交通监控提供了新范式。
在智能交通监控领域,视频异常检测(Video Anomaly Detection, VAD)技术犹如"电子交警",时刻守护着高速公路的安全。然而现有系统大多只能粗犷地喊出"有异常",却说不清究竟是"行人横穿"还是"车辆碰撞"——这种"知其然不知其所以然"的检测方式,让监控中心常常陷入"警报疲劳"的窘境。更棘手的是,不同异常事件间的细微差异如同孪生兄弟,仅凭视频画面难以区分;而监控视频特有的时序特性,又给算法理解"前因后果"带来巨大挑战。
针对这些行业痛点,研究人员开展了开创性研究。他们发现视频描述文本中蕴含的语义信息就像"解说词",能为算法理解异常场景提供关键线索。为此,团队首先构建了高速公路异常数据集HAD(Highway Anomaly Dataset),这是首个包含详细文本描述的多模态基准数据集。基于此,提出的双文本分类框架DCDT(Dual-Classification with Dual-Text)创新性地将粗粒度二分类与细粒度多分类任务耦合,通过时间引导对齐器TGA(Time Guided Aligner)解决时序建模难题,利用描述文本与标签文本的双重引导,使模型既能把握全局异常概率,又能辨别具体异常类型。该成果发表在《Expert Systems with Applications》上,在UCF-Crime等主流数据集上刷新了性能纪录。
关键技术方面,研究主要采用:1)基于CLIP的视觉-文本预训练框架;2)包含时序优化模块TRM和预测模块TPM的TGA架构;3)通过正常/异常矩阵进行对比学习的DGA模块;4)融合视觉先验的VGA对齐机制。所有实验均在弱监督条件下进行,仅需视频级标签。
【方法创新】
研究提出的DCDT框架包含三大核心组件:TGA通过多尺度卷积和Transformer解码器捕捉长短时序依赖,实验显示其可使时序误差降低37.6%;DGA创新性地构建正常矩阵和异常矩阵,前者增强正常事件类内相似性,后者扩大异常事件类间差异,消融实验证实该设计使细粒度分类准确率提升15.3%;VGA则通过视觉特征增强文本表征,在HAD数据集上实现89.2%的帧级分类准确率。
【数据集贡献】
HAD数据集包含2000小时高速公路监控视频,涵盖8类典型异常(如违规变道、抛洒物等),每段视频均配有人工撰写的描述文本。相比UCF-Crime等现有数据集,HAD在异常类型多样性和文本标注完整性方面具有显著优势,为多模态VAD研究提供了全新平台。
【性能突破】
在UCF-Crime、XD-Violence和HAD三个数据集上的对比实验表明,DCDT的帧级AUC分别达到87.4%、89.1%和91.3%,较现有最优方法平均提升6.2%。特别在"车辆异常停靠"与"故障车警示"等易混淆场景中,分类准确率提高达22.7%。
这项研究的意义不仅在于技术突破,更开创了"文本增强型"视频分析的新范式。HAD数据集的发布填补了多模态交通监控研究的空白,而DCDT框架展现的"描述文本指导视觉理解"机制,为后续视频理解研究提供了重要启示。正如研究者指出,当算法学会"看图说话",就能更精准地"见微知著"——这正是智能监控系统从"看得见"迈向"看得懂"的关键一跃。
生物通微信公众号
知名企业招聘