编辑推荐:
为解决全球导航卫星系统(GNSS)易失效问题,研究人员开展了将跨视图地理定位估计与土地覆盖语义分割图相结合的研究。结果显示该方法性能与现有先进方法相当且更稳定,为室外定位提供新方案,推动相关领域发展。
在如今数字化高度发展的时代,定位技术无处不在,从日常出行的导航到自动驾驶、机器人探索等前沿领域,精准的地理定位都是至关重要的一环。全球导航卫星系统(GNSS),像大家熟知的 GPS(美国)、GLONASS(俄罗斯)、Galileo(欧盟)、北斗(中国) 等,是目前主要的实时地理空间定位手段。然而,GNSS 存在着令人头疼的问题,信号干扰、阻断等情况时常发生,导致定位失败,在高楼林立的城市峡谷、茂密的森林等环境中,其定位精度和可靠性大打折扣 。这就促使科研人员寻找新的定位解决方案,跨视图地理定位技术应运而生。
跨视图地理定位利用从不同视角拍摄的图像,如卫星图像和地面图像,来确定地理位置,为解决 GNSS 的困境带来了希望。在此背景下,来自国外的研究人员 Nathan A.Z. Xavier、Elcio H. Shiguemori、Marcos R.O.A. Maximo、Mubarak Shah 开展了一项关于 “Cross - view Geolocalization Estimation with Land Cover Semantic Segmentation” 的研究,该研究成果发表在《Biomimetic Intelligence and Robotics》上。
研究人员采用了多种关键技术方法。在模型构建方面,运用了 Transformer 架构,包括多尺度 Transformer(MST)和 FeatUp 模型。MST 基于 Crossformer 进行改进,能从不同尺度提取特征;FeatUp 则通过联合双边上采样(JBU)提升图像特征。同时,利用卷积神经网络(CNN)相关技术进行特征提取和处理。研究使用了布鲁克林和皇后区(Brooklyn and Queens)数据集以及 VIGOR 数据集,其中布鲁克林和皇后区数据集用于训练和验证,VIGOR 数据集用于测试模型的泛化能力。
研究结果
- 定位性能评估:通过对比不同模型在皇后区数据集和 VIGOR 数据集上的表现,发现使用 FeatUp 骨干网络的模型在端到端定位估计中与 CCVPE 模型性能相当,在正区域和半正区域有一定提升。利用地面真实语义分割图作为指导,能显著降低定位误差。而无土地覆盖指导的 MST 模型性能较差,凸显了土地覆盖信息对提高定位精度的重要性。
- MST 交叉点分析:分析 MST 模型结果发现,有指导的方法在正区域表现更好,无指导的方法在包含半正区域时表现更优。正区域长度与定位误差存在一定关系,使用土地覆盖指导对定位中心区域总是有益的,且语义分割图越接近地面真实情况,性能提升越明显。
- 半径定位精度:以固定半径计算地面真实位置的精度,CCVPE 模型在皇后区图像上表现出一定优势,但整体精度较低。使用 FeatUp 骨干网络的模型在验证数据上与 CCVPE 模型精度相近,在 VIGOR 数据集上表现更准确。
- ** top - ranked 区域比较 **:在分析 heatmap 解决方案的 top - ranked 区域时,发现 CCVPE 模型在布鲁克林和皇后区数据集上,top - ranked 概率估计区域的准确率较高,但在 VIGOR 数据集上因无法估计正区域位置,性能受到影响。而研究提出的方法在不同数据集上表现较为一致。
- 定性比较:定性分析不同方法的性能差异发现,在皇后区数据集上,各方法都能利用跨视图方法预测地面视图图像位置,但预测的离散概率分布(DPD)有所不同。在 VIGOR 数据集上,提出的方法性能有所下降,但 FeatUp 骨干网络的方法受影响较小。
- 语义分割比较:评估模型的语义分割性能,发现 MST 模型在分类道路和建筑物时表现较好,整体的平均交并比(mIoU)性能高于 FeatUp 骨干网络。但在 VIGOR 数据集上,两种模型的语义分割性能均有所下降。
研究表明,该方法在跨视图地理定位估计方面性能与当前最先进的方法相当,在不同区域和数据集上表现稳定,能够有效过滤掉不相关信息,提高定位的可靠性。同时,研究也指出了未来的研究方向,如与更多数据源(如光探测和测距(LiDAR)、惯性传感器)集成、纳入航拍倾斜图像、探索不同季节和多样环境下的性能、分析实时性能以及开展训练超参数的消融研究等。这项研究为跨视图地理定位技术的发展提供了新的思路和方法,推动了相关领域如机器人导航、自动驾驶等的进步,在实际应用中具有重要意义。