
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于缓存适配器与记忆优化的高效视频行为识别方法研究
【字体: 大 中 小 】 时间:2025年07月31日 来源:Journal of Volcanology and Geothermal Research 2.3
编辑推荐:
针对视频行为识别任务中计算资源消耗大的问题,Tongwei Lu团队提出Cache-Adapter模型,通过冻结预训练网络并设计缓存适配器模块融合时空信息,结合GRU更新缓存机制,仅训练1.4%参数量即在Kinetics400和SSv2数据集上实现超越全参数微调7%的Top-1准确率,为轻量化视频理解提供新范式。
在视频理解领域,行为识别技术正面临算力需求爆炸式增长的严峻挑战。传统3D卷积网络处理高分辨率长视频时,往往需要数十块GPU的算力支撑;而基于Transformer的TimeSformer等模型虽性能优异,其动辄数亿参数的规模让普通实验室望而却步。这种"算力鸿沟"严重阻碍了视频AI技术的落地应用。
湖北省智能机器人重点实验室的Tongwei Lu团队在《Journal of Volcanology and Geothermal Research》发表的研究中,创新性地将自然语言处理领域的参数高效迁移学习(PETL)理念引入计算机视觉。研究人员设计出Cache-Adapter模型,其核心是在冻结的ViT(Vision Transformer)预训练模型中插入两类轻量化模块:采用GRU(Gated Recurrent Unit)的缓存适配器负责时空特征融合,零参数的CLS token移位多头自注意力(MHSA)则增强帧间关联。这种"外科手术式"的模块化改造,使得模型仅需训练1.4%的参数即可达到全参数微调效果。
关键技术包括:1)在Kinetics400和Something-Something-v2数据集上验证;2)构建包含GRU的缓存记忆模块;3)设计CLS token移位机制;4)采用3D深度可分离卷积(3D DwConv)处理时空特征。
【方法论】
研究团队在ViT的每个Transformer块中插入两个缓存适配器:位于MHSA后的空间适配器采用3×1×1卷积核提取时序特征,MLP后的时序适配器则通过GRU实现跨帧信息整合。特别设计的CLS token移位操作无需额外参数,仅通过调整注意力区域就能增强关键帧特征提取。
【实验设置】
在Kinetics400测试中,仅用40%训练参数的Cache-Adapter达到82.1%的Top-1准确率,超越全参数微调的TimeSformer 7个百分点。对于强调时序逻辑的SSv2数据集,其68.3%的准确率也显著优于ST-Adapter等对比模型。消融实验证实GRU的缓存更新机制可使推理速度提升1.8倍。
【结论】
该研究开创性地将记忆机制引入视频适配器设计,证明通过精心设计的轻量化模块,能够以"四两拨千斤"的方式释放大模型的视频理解潜力。这种高性价比的迁移学习方案,为边缘设备部署视频AI提供了切实可行的技术路径,尤其对智能监控、医疗影像分析等需要长视频处理的场景具有重要应用价值。
生物通微信公众号
知名企业招聘