通过物理散焦建模和多视图几何监督实现深度一致的三维高斯散布

《Neural Networks》:Depth-Consistent 3D Gaussian Splatting via Physical Defocus Modeling and Multi-View Geometric Supervision

【字体: 时间:2025年11月16日 来源:Neural Networks 6.3

编辑推荐:

  景深监督与多视图一致性联合优化三维重建框架,解决极端深度变化场景下的深度估计失准与近场结构退化问题。通过物理光学驱动的自适应卷积建模和混合深度对齐机制,实现远场几何精度与近场细节保真协同提升,Waymo数据集PSNR达35.17dB,较SOTA方法提升0.8dB。

  
邓宇|赵宝珠|苏俊彦|张晓涵|刘琦
华南理工大学未来技术系,广州,511400,中国

摘要

在深度变化极大的场景中进行三维重建仍然具有挑战性,因为近场和远场区域之间的监督信号不一致。现有方法无法同时解决远场区域的深度估计不准确和近场区域的图像质量下降问题。本文提出了一种新的计算框架,该框架结合了景深监督和多视图一致性监督,以改进3D高斯散射算法。我们的方法包括两个核心组成部分:(1)景深监督使用尺度恢复的单目深度估计器(例如Metric3D)生成深度先验,利用散焦卷积合成物理上准确的散焦图像,并通过一种新的景深损失函数来强制几何一致性,从而提高远场和近场区域的深度保真度;(2)多视图一致性监督使用基于LoFTR的半密集特征匹配来最小化跨视图几何误差,并通过最小二乘优化可靠匹配点来强制深度一致性。通过将散焦物理原理与多视图几何约束相结合,我们的方法实现了更高的深度保真度,在Waymo开放数据集上的PSNR提高了0.8 dB。该框架将物理成像原理与基于学习的深度正则化相结合,为城市环境中的复杂深度分层问题提供了可扩展的解决方案。

引言

从多视图图像中进行三维场景重建是自动驾驶到沉浸式虚拟现实等应用的基石能力。虽然神经辐射场(NeRF)(Mildenhall等人,2021年)彻底改变了真实感新视图合成技术,但3D高斯散射(3DGS)(Kerbl等人,2023年)的后续进展通过可微分的高斯原语实现了前所未有的实时渲染速度。然而,这些方法在重建深度变化较大的场景时面临关键限制,因为远处的结构由于监督信号不足而经常出现位置不准确的问题,并且容易过拟合训练视图。
当前的大规模场景重建方法主要依赖于多视图立体(MVS)技术(Furukawa等人,2015年)或体积神经表示(Barron等人,2022年)。前者通过手工制作的特征来建立几何一致性(Xu和Tao,2019年),而后者通过光度损失来优化隐式场(Wang等人,2023年)。最近的扩展如GaussianPro(Cheng等人,2024a)试图通过天空分割掩码来减轻极端远距离干扰,但引入了由于不完美的抠图和稀疏深度监督而产生的新伪影。这一限制源于一个根本性问题:当物体在不同帧中的距离不同时,传统的监督方法难以解决尺度歧义,尤其是对于接收不到足够像素级梯度的远距离区域。
我们的工作通过两项协同创新解决了这些限制。首先,我们利用景深效应作为隐式的几何监督。通过自适应核卷积建模散焦模糊与场景深度之间的物理相关性,我们得到引导高斯分布到其几何一致位置的梯度信号。其次,我们引入了一种混合深度估计框架,将多视图特征匹配(LoFTR)(Wang等人,2024c)与单目深度完成(Metric3D)(Hu等人,2024a)相结合,在保留结构细节的同时解决尺度歧义。这种双重策略有效地约束了不同深度层中的高斯分布,特别是在传统方法无法成功的远距离区域重建中效果显著。
本项工作的技术贡献有三点:
  • 一种考虑物理特性的散焦卷积模型,将光学原理转化为几何约束,使用自适应核设计(高斯、多边形或SmoothStep)来适应不同类型的相机,并通过动态焦点优化来提高深度一致性。
  • 一种多尺度深度对齐框架,结合全局单目深度恢复和局部基于网格的校正,实现无需手动掩膜的视图一致深度估计。
  • 一种基于梯度感知的密度控制机制,通过深度梯度统计来优先处理结构关键区域。
  • 在城市(Waymo)和无边界(Mip-NeRF 360)场景中的广泛验证证明了我们方法的有效性。定量结果显示,我们的模型在Waymo数据集上的PSNR达到了35.17,优于现有最佳方法。定性分析显示,在近区域结构恢复方面有显著改进,特别是对于车辆和建筑物。这些进展为深度感知场景重建建立了新的最佳性能标准,同时保持了3DGS框架的核心计算效率。

    部分摘录

    多视图立体

    MVS是一种基本的计算机视觉任务,旨在从一组校准图像中重建高保真的3D模型。现有的MVS方法大致可以分为传统的基于几何的方法和现代的基于学习的方法。
    传统的MVS方法通常主要从运动结构(SfM)方法(Schonberger, Frahm, 2016; Snavely, Seitz, Szeliski, 2006)或同时定位与映射方法中获取相机参数。

    方法

    我们的计算框架结合了两种监督范式,以实现几何一致的三维高斯散射,如图2所示。该架构通过对多视图输入进行双分支处理,建立度量尺度深度先验,并强制跨视图一致性约束。在此计算范式的指导下,我们首先引入了考虑深度的散焦建模,将物理光学原理表述为可微分的几何约束。

    数据集

    我们的实验在四个数据集上进行:Waymo(Sun等人,2020年)、Mip-NeRF360(Barron等人,2022年)、SS3DM(Hu等人,2024b年)和YouTube(Cheng等人,2024b年)数据集。Waymo数据集是一个大规模的城市数据集。Mip-NeRF360是一个常见的NeRF基准测试数据集。SS3DM和YouTube数据集的详细描述和实验结果将在第4.3.3节提供。

    实现细节

    我们的实现扩展了原始的3DGS框架(Kerbl等人,2023年),加入了增强功能

    结论

    我们提出了一个基于物理原理的框架,通过景深诱导的几何监督来改进3D高斯散射,解决了神经场景重建中的三个基本挑战。首先,我们的可微分散焦卷积模型通过参数化核设计物理模拟相机光学特性,实现光学上真实的散景效果,同时通过可分离的卷积运算符保持计算效率。其次,我们的基于梯度感知的密度控制机制

    未引用的参考文献

    缺少参考文献表4。

    CRediT作者贡献声明

    邓宇:撰写 – 审稿与编辑,撰写 – 原稿,可视化,验证,软件,资源,方法论,调查,形式分析,数据整理。赵宝珠:撰写 – 审稿与编辑,撰写 – 原稿,资源,方法论,调查,概念化。苏俊彦:撰写 – 审稿与编辑,验证,形式分析。张晓涵:撰写 – 审稿与编辑。刘琦:撰写 – 审稿与编辑,监督,资金获取。

    利益冲突声明

    作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普
    • 急聘职位
    • 高薪职位

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号