CRFFNet:一种基于交叉视图重投影的特征融合网络,用于利用卫星视图和街景数据进行精细的建筑分割

《Information Fusion》:CRFFNet: A Cross-View Reprojection based Feature Fusion Network for Fine-Grained Building Segmentation Using Satellite-View and Street-View Data

【字体: 时间:2025年10月02日 来源:Information Fusion 15.5

编辑推荐:

  跨视角建筑属性分割网络CRFFNet通过融合卫星图像、街景数据与地图信息,提出显式几何投影模块解决视角差异问题,并构建华盛顿与西雅图新数据集验证其有效性,在四大数据集上mIoU提升最高达8.12%。

  城市中的建筑物是构成城市的基本要素,同时也是城市基础设施的关键组成部分。为了实现对城市环境的全面理解,精细化的建筑物属性分割变得尤为重要。这项任务不仅有助于快速获取城市地理信息,还能深入分析城市的发展动态。然而,现有的方法在处理跨视角数据融合时,仍然面临诸多挑战,尤其是在如何有效减少不同视角下特征差异的问题上。为此,我们提出了一种基于跨视角重投影的特征融合网络——CRFFNet,专门用于精细化建筑物属性分割。该网络能够消除卫星视角(卫星图像和地图数据)与街景视角(全景街景图像)之间的视角差异,从而实现高精度的建筑物属性识别。

卫星图像以其广泛的覆盖范围和易于获取的特点,在宏观城市任务中被广泛使用,例如土地利用分类、道路分割和功能区分析。然而,卫星图像主要捕捉的是建筑物的表面形态,如屋顶和轮廓,这使得它们在识别建筑物详细属性方面存在局限。相比之下,街景图像能够捕捉建筑物的详细立面特征,并提供丰富的街道层面信息,因此在精细化城市分析中具有极高的价值。然而,街景图像分割结果与卫星视角难以对齐,限制了生成连续且完整的建筑物级输出的能力。此外,全景街景图像通常存在一定程度的失真,这种失真会引入噪声,进而影响模型的性能。

为了解决上述问题,CRFFNet引入了两个关键模块:可变形模块和显式几何重投影(EGR)模块。可变形模块能够有效减少全景街景图像中的目标失真,提升特征提取的质量。而EGR模块则利用显式的BEV几何先验知识,将街景视角的特征重新投影到卫星视角平面上,无需依赖复杂的参数输入或深度信息。这一设计使得CRFFNet能够在不依赖深度信息或相机参数的情况下,实现街景与卫星视角特征的对齐与融合,从而提升建筑物属性分割的准确性和鲁棒性。

为了验证CRFFNet的性能,我们构建了两个新的数据集——华盛顿和西雅图,这两个数据集包含卫星图像、地图数据和全景街景图像的地理对齐三元组,分别为15,476和22,561组。我们还在两个公开的基准数据集——OmniCity和Brooklyn上进行了广泛的实验。实验结果表明,CRFFNet在这些数据集上的mIoU(平均交并比)相较于次优方法分别提升了1.02%、8.12%、2.29%和2.87%。这些显著的性能提升不仅证明了CRFFNet在跨视角、精细化建筑物属性分割任务中的有效性,也展示了其在处理大规模多源数据方面的潜力,为更全面的城市分析和规划提供了坚实的技术支持。

在城市研究中,多源数据的融合已成为提升城市场景理解能力的重要手段。与单一数据源的方法相比,多源数据能够从不同角度观察建筑物,从而提供更加丰富的特征信息。例如,街景图像与地理大数据(如建筑物轮廓数据、兴趣点数据和开放街图数据)的融合,可以通过空间关系(如角度和距离)进行特征匹配,从而实现互补信息的整合。然而,由于多源数据之间的地理位置误差,以及对街景数据标注的依赖,这些方法的应用场景受到一定限制,尤其是在需要高精度和鲁棒性的实际应用中。

为了克服这些限制,CRFFNet在设计上充分考虑了跨视角数据融合的挑战。在街景编码器中,我们引入了可变形模块,以优化特征提取过程,减少因全景图像失真带来的影响。同时,通过EGR模块,我们将街景特征以一种几何上一致的方式重新投影到卫星视角平面上,从而实现特征的对齐和融合。这种设计不仅降低了对深度信息和相机参数的依赖,还提高了模型在实际应用中的灵活性和适应性。

此外,为了确保模型在不同数据集上的泛化能力,我们对多个基准方法进行了超参数调优实验。这些实验不仅验证了CRFFNet在不同数据集上的稳定性,还为后续的模型优化和应用提供了重要的参考依据。在实验过程中,我们发现,对于像SegNeXt这样的通用语义分割方法,调整“drop path rate”参数能够显著提升其在精细化建筑物属性分割任务中的表现。这一发现进一步证明了模型调优在提升性能方面的重要性。

在实验结果分析中,我们观察到CRFFNet在多个数据集上的表现均优于现有方法。尤其是在华盛顿和西雅图这两个新构建的数据集上,其性能提升幅度尤为显著。这表明,CRFFNet不仅能够有效处理跨视角数据融合的问题,还能够适应不同城市环境下的建筑物属性分割需求。对于OmniCity和Brooklyn这两个公开数据集,CRFFNet同样展现出强大的竞争力,进一步验证了其在城市场景理解中的广泛应用前景。

总体而言,CRFFNet的提出为跨视角、精细化建筑物属性分割提供了一种新的解决方案。通过引入可变形模块和EGR模块,该网络有效解决了因视角差异导致的特征不一致问题,提升了模型在复杂城市环境中的表现。同时,构建的华盛顿和西雅图数据集也为未来的研究提供了宝贵的资源,有助于推动城市场景理解技术的发展。在实际应用中,CRFFNet能够支持城市规划、交通管理、灾害响应和环境评估等多种决策任务,为智慧城市建设提供了强有力的技术支撑。

为了更好地理解CRFFNet的工作原理,我们可以从其整体架构入手。该网络主要基于ViT(Vision Transformer)架构,但对其进行了针对性的改进,以适应跨视角数据融合的需求。具体来说,CRFFNet包含三个并行的编码器,分别处理卫星图像、地图数据和街景图像。每个编码器都由四个阶段组成,用于逐步提取特征。在这些阶段中,可变形模块被集成到街景编码器中,以优化其对全景图像的处理能力。同时,EGR模块则负责将街景特征重新投影到卫星视角平面上,实现不同视角特征的对齐与融合。

在处理卫星图像时,由于其具有广泛的覆盖范围,通常用于获取城市整体结构信息。然而,卫星图像在细节识别方面存在不足,无法准确捕捉建筑物的立面特征。为此,CRFFNet通过引入EGR模块,将街景特征与卫星图像进行几何对齐,从而弥补这一缺陷。这种对齐方式不仅提高了模型对建筑物属性的识别能力,还使得不同视角的数据能够更好地互补,提升整体分割效果。

在街景图像的处理过程中,由于全景图像通常存在一定的失真,这可能会影响特征提取的准确性。为了解决这一问题,CRFFNet引入了可变形模块,该模块能够根据图像内容动态调整特征提取的方式,从而减少因图像失真带来的误差。此外,可变形模块还能够增强模型对建筑物细节特征的捕捉能力,使其在复杂街景环境下也能保持较高的分割精度。

在地图数据的处理方面,CRFFNet同样采用了有效的特征提取策略。地图数据通常以矢量形式存在,能够提供建筑物的语义信息,如建筑物类型和位置。然而,地图数据缺乏视觉纹理,这限制了其在属性识别任务中的应用。为此,CRFFNet通过与街景和卫星图像的融合,弥补了地图数据在视觉信息上的不足,使其能够更好地支持建筑物属性的识别。

为了进一步验证CRFFNet的性能,我们还进行了大量的对比实验。这些实验不仅涵盖了CRFFNet与其他先进方法的性能比较,还包括不同数据集上的测试结果。实验结果表明,CRFFNet在所有测试数据集上均表现出色,尤其是在华盛顿和西雅图这两个新构建的数据集上,其性能提升尤为显著。这一结果表明,CRFFNet不仅能够处理跨视角数据融合的问题,还能够在不同城市环境中保持较高的适应性和稳定性。

在实际应用中,CRFFNet能够为城市规划和管理提供重要的支持。通过高精度的建筑物属性分割,城市管理者可以更准确地了解城市结构,优化资源配置,提高决策效率。此外,CRFFNet还能够用于交通管理,通过识别建筑物的详细属性,辅助交通流量预测和道路规划。在灾害响应和管理方面,CRFFNet能够帮助快速识别受损建筑物,为应急救援提供关键信息。在环境评估中,该网络能够分析建筑物的分布和属性,为城市环境治理提供科学依据。

综上所述,CRFFNet的提出为跨视角、精细化建筑物属性分割提供了一种创新性的解决方案。通过结合可变形模块和EGR模块,该网络有效解决了因视角差异导致的特征不一致问题,提升了模型在复杂城市环境中的表现。同时,构建的华盛顿和西雅图数据集也为未来的研究提供了宝贵的资源,有助于推动城市场景理解技术的发展。在实际应用中,CRFFNet能够支持多种城市决策任务,为智慧城市建设提供了强有力的技术支撑。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号