DJIST:一种用于序列视觉位置识别的解耦联合图像与序列训练框架

《Neurocomputing》:DJIST: Decoupled joint image and sequence training framework for sequential visual place recognition

【字体: 时间:2025年10月02日 来源:Neurocomputing 6.5

编辑推荐:

  跨模态视觉地方识别、seq2seq与im2im联合训练、DINOv2 backbone、注意力分离损失、特征解耦、SF-XL数据集、seq2seq泛化能力、Recall@1优化、多分支架构、维度自适应压缩

  本文探讨了一种新的视觉地点识别(VPR)方法,特别针对序列到序列(seq2seq)任务的挑战。传统的VPR主要关注于将单张查询图像与已存储的地理标记图像进行匹配,这种图像到图像(im2im)的方法在实际应用中虽然有效,但在实时机器人和自主系统中,由于连续的帧流自然地形成一个更简单的序列到序列问题,但可用的标签化序列数据却远比单张图像的标签数据少。因此,研究者们尝试通过联合训练策略来改善这一状况,如JIST方法,它结合了im2im和seq2seq任务,利用大尺度的im2im数据集提升序列数据的识别性能。然而,这种方法仍然存在一定的局限性,因为序列描述符在很大程度上依赖于im2im任务中训练的个体描述符。

为了解决这一问题,本文提出了一种新的解耦联合图像和序列训练(DJIST)框架。该框架采用了一个固定的DINOv2主干网络,并引入了两个独立的序列分支。其中一个分支由im2im和seq2seq两种损失函数共同监督,而另一个分支则仅由seq2seq损失函数监督。此外,该框架还通过将特征降维过程与个体描述符的生成过程分开,进一步提升了序列描述符的独立性和多样性。为了确保两个分支能够专注于不同的图像区域,从而产生更具区分性的序列描述符,本文引入了一种注意力分离损失函数。

DJIST框架的设计灵感来源于之前的多层特征融合模块,该模块结合了固定的DINOv2主干网络与可学习的特征融合模块。通过这种方式,DJIST能够有效地处理序列数据和单张图像,生成更丰富的描述符。在实验中,本文重新训练了多种现有的seq2seq方法,并采用两种不同的联合训练策略进行对比。其中一种策略遵循原始的JIST方法,而另一种则包含一个独特的特征降维模块,以提升序列流的特征提取能力。实验结果表明,大多数方法在采用后者策略后表现更佳,并且在不同损失权重下具有更好的稳定性。

DJIST方法在多个基准测试中取得了显著的提升,例如在四个测试案例中,其性能比原始的JIST提高了3.9%至18.8%。此外,在三个关键基准测试中,DJIST的Recall@1分数达到了最先进(SOTA)的水平,分别比重新训练的基线方法提高了1.3%、0.8%和1.2%。这些结果表明,DJIST不仅在跨数据集泛化方面表现出色,而且在降低维度时几乎没有性能下降,同时对不同测试时间序列长度的鲁棒性也得到了显著提升。

本文的主要贡献可以归纳为以下几点。首先,提出了一种新的DJIST框架,该框架通过引入两个独立的序列分支,实现了对序列VPR任务的结构优化和功能解耦。其中一个分支由im2im和seq2seq两种损失函数共同监督,另一个分支则仅由seq2seq损失函数监督。其次,引入了一种注意力分离损失函数,以提升两个分支之间的特征多样性,使其能够专注于不同的图像区域,从而增强最终序列描述符的区分能力。第三,重新训练了多种现有的seq2seq方法,并采用两种不同的联合训练策略进行公平比较。最后,DJIST在多个基准测试中取得了优异的性能,展示了其在实际应用中的广泛适用性。

在实验部分,本文使用了五个公开的数据集进行训练和评估。其中,SF-XL是一个大规模的im2im数据集,涵盖了整个旧金山市,包含超过4100万张图像。该数据集的处理版本被用作im2im训练的训练集和验证集。MSLS数据集则由全球多个城市构建而成,分为非重叠的训练、验证和测试集,包含大量的查询图像。此外,本文还使用了其他数据集,如KITTI、Cityscapes和EuRoC,这些数据集在不同的应用场景中提供了丰富的数据支持。

在实际应用中,VPR技术对于自主移动机器人、增强现实和自动驾驶系统至关重要。特别是在GPS信号不可用的情况下,机器人需要依赖视觉信息来定位自身。因此,如何有效地提取和利用视觉信息成为研究的重点。传统的im2im方法虽然在单张图像的识别上表现良好,但在处理序列数据时存在一定的局限性。而seq2seq方法则能够更好地捕捉时间变化,但受限于可用的标签化序列数据,其性能提升受到一定影响。

为了克服这一问题,JIST方法通过联合训练策略,利用大尺度的im2im数据集来改善seq2seq任务的性能。然而,这种方法仍然存在一定的问题,即序列描述符的生成严重依赖于im2im任务中训练的个体描述符。这不仅限制了序列描述符的独立性,还可能影响其在实际应用中的鲁棒性。因此,本文提出DJIST方法,通过解耦训练策略,使序列描述符能够独立于im2im任务的个体描述符进行生成。

DJIST方法的核心在于其结构设计。通过引入两个独立的序列分支,该方法能够更有效地处理序列数据。其中一个分支由im2im和seq2seq两种损失函数共同监督,而另一个分支则仅由seq2seq损失函数监督。这种设计不仅提高了模型的训练效率,还增强了序列描述符的独立性和多样性。此外,本文还通过特征降维过程的分离,进一步优化了模型的性能。在特征降维过程中,共享分支能够独立地提取序列特征,而不受im2im任务的影响。

为了确保两个分支能够专注于不同的图像区域,本文引入了一种注意力分离损失函数。这种损失函数通过增加注意力向量之间的余弦距离,鼓励两个分支关注不同的显著区域,从而增强最终序列描述符的区分能力。这种设计使得DJIST方法在处理不同场景时具有更高的灵活性和适应性。此外,本文还通过实验验证了两种解耦策略的有效性,即共享分支和专用分支的独立训练。

在实际应用中,DJIST方法的性能得到了显著提升。在多个基准测试中,其Recall@1分数达到了最先进水平,表明其在识别准确率方面具有优势。此外,DJIST方法在跨数据集泛化方面表现出色,能够在不同的数据集上保持稳定的性能。在维度降低的情况下,DJIST方法几乎没有性能下降,表明其在特征压缩方面具有良好的鲁棒性。同时,DJIST方法对不同测试时间序列长度的适应能力也得到了显著提升,表明其在实际应用中的灵活性。

总的来说,DJIST方法通过结构优化和功能解耦,解决了传统JIST方法中存在的问题。它不仅提高了序列描述符的独立性和多样性,还增强了模型在不同场景下的适应能力。通过引入注意力分离损失函数,DJIST方法能够更有效地提取特征,提高识别准确率。在实验中,DJIST方法在多个基准测试中取得了优异的性能,表明其在实际应用中的广泛适用性。本文的研究成果为未来的VPR技术提供了新的思路和方法,具有重要的理论和应用价值。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号