编辑推荐:
在目标跟踪研究中,现有算法存在响应图错误导致目标定位不准、模板分支判别力有限致跟踪失败等问题。研究人员提出 HST - TT 算法,融合多域显著性技术。实验表明该算法性能优异,提升了跟踪精度与鲁棒性,为目标跟踪领域带来新突破。
在当今科技飞速发展的时代,计算机视觉中的视觉目标跟踪技术就像一双 “智慧之眼”,在智能交通、视频监控、人机交互等众多领域发挥着至关重要的作用。它的核心任务是根据目标在第一帧的初始外观,持续预测其在后续视频帧中的位置和状态。然而,看似强大的经典目标跟踪框架,如相关滤波器和暹罗网络(Siamese networks),却面临着诸多挑战。一方面,响应图的模糊性常常导致目标定位不准确,就好比 “智慧之眼” 看东西出现了重影,无法精准锁定目标;另一方面,暹罗网络中模板分支的判别能力不足,使得跟踪频繁失败,仿佛这双 “眼睛” 在复杂环境下失去了辨别能力。
为了解决这些棘手的问题,来自江西新余学院的研究人员展开了深入研究。他们提出了一种基于混合域显著性技术结合动态加权策略的目标跟踪算法(HST - TT)。这项研究成果意义重大,它有效提升了目标跟踪的精度和鲁棒性,为该领域的发展注入了新的活力。该研究成果发表在《Digital Signal Processing》上。
研究人员在开展这项研究时,主要运用了以下关键技术方法:一是设计了显著性图提取模块,通过动态加权策略融合频率、空间和时间域的显著性技术;二是开发了轻量级卷积神经网络(CNN)特征提取模块,集成压缩和激励注意力机制,以提取多分辨率特征。
下面来详细看看研究结果:
- 算法整体结构:HST - TT 算法主要由相关滤波器响应图计算和显著性图计算两部分构成。它基于相关滤波和暹罗网络的混合跟踪框架,引入了集成显著性特征融合的轻量级 CNN 模块来提取多分辨率特征。
- 显著性图提取模块:该模块利用动态加权策略,整合频率、空间和时间域的显著性技术优势,生成更精确的复合显著性图。这一过程就像是给 “智慧之眼” 配备了特殊的 “滤镜”,能在复杂背景下更好地识别目标,有效缓解跟踪失败的问题。
- 轻量级卷积神经网络特征提取模块:此模块基于原始残差网络架构进行优化,去除了填充层以减少冗余计算,同时在最后两个残差块中加入扩张卷积,扩大网络的感受野。并且,通过压缩和激励注意力机制,自适应融合第三和第四残差块的输出,从不同网络层中选择性地强调有用特征,进而提升了模型处理复杂干扰的判别能力,提高了跟踪精度。
在研究结论和讨论部分,HST - TT 算法展现出了显著的优势。它通过自适应地融合频率、空间和时间域的显著性特征,有效地抑制了背景干扰,生成了精确的目标显著性图。在 OTB2015、UAV123、LaSOT、VOT2018 等多个具有挑战性的数据集上进行的大量实验表明,HST - TT 算法在关键性能指标上超越了当前最先进的跟踪算法,成功解决了因响应图不准确导致的跟踪精度低以及模板分支判别力有限引发的跟踪失败等问题。这不仅为目标跟踪技术的实际应用提供了更可靠的保障,也为后续相关研究开辟了新的思路和方向,推动了计算机视觉领域中目标跟踪技术的进一步发展。