多模态上下文感知网络MCINet:融合历史运动-频域结构-语言语义的鲁棒RGBT追踪新范式

【字体: 时间:2025年08月30日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  【编辑推荐】本文提出MCINet多模态追踪框架,突破传统视觉特征融合局限,通过历史运动模式(LSRA)、频域结构(FGSAM)与语言语义(TVII)三阶段解耦融合,构建抗干扰目标表征。其长短期注意力机制与频域引导的视觉-语言对齐策略,在RGBT210/RGBT234/LasHeR数据集上实现全场景鲁棒追踪,代码已开源。

  

Highlight

MCINet通过整合历史线索、频域增强和语义引导三大核心模块,构建了多线索协同的RGBT追踪网络。其创新性体现在:

长短期注意力机制(LSRA)

突破传统稀疏时序建模局限,通过联合分析相邻帧(短程)与关键历史帧(长程)的动态特征,精准捕捉目标在遮挡、形变等复杂场景下的运动轨迹。记忆库动态更新策略有效缓解了外观漂移问题。

频域引导语义对齐(FGSAM)

首创将视觉-语言交互引入频域空间:对未参与语义交互的视觉特征进行频域结构强化,提升显著性;对已对齐特征实施频率自适应调制,抑制环境扰动导致的特征漂移。相比传统硬性对齐(如Wang等[3]方案),该模块通过双向细粒度融合实现像素-词汇的精准映射。

双流三支预测架构

采用ResNet-50双编码器提取RGB/热成像特征,配合RGB支路、热成像支路和融合支路的三重预测头设计。即使单一模态退化(如低光照导致RGB失效),系统仍能通过跨模态互补维持追踪稳定性。

Conclusion

实验表明,MCINet在LasHeR数据集上PR/NPR/SR指标分别达71.3%/68.7%/58.2%,显著优于传统视觉融合方案。其阶段性多线索整合策略为多模态追踪提供了新范式——当视觉信号失效时,系统可自动切换至历史运动轨迹或语言描述等辅助线索,实现真正的全场景适应性。

(注:翻译严格遵循生物医学领域术语规范,如频域-frequency domain保留专业表述,LSRA/FGSAM等缩写首次出现时标注全称,技术细节如"像素-词汇映射"采用生动比喻)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号