高斯加符号距离场SLAM:150+帧率的高保真3D重建新突破

《Computational Visual Media》:Gaussian-plus-SDF SLAM: High-fidelity 3D reconstruction at 150+ fps

【字体: 时间:2025年12月02日 来源:Computational Visual Media 18.3

编辑推荐:

  本刊推荐:针对基于高斯分布的SLAM方法计算性能瓶颈(<20 fps)问题,研究人员开展了高斯-SDF混合表示方法研究。通过结合彩色符号距离场(SDF)的平滑几何与外观建模能力与3D高斯细节捕捉优势,开发出GPS-SLAM系统。实验表明该系统在真实场景中达到150+ fps重建速度,较现有技术提升一个数量级,同时保持高保真重建质量,为实时高精度3D重建提供了新范式。

  
在计算机视觉领域,实时高保真3D重建一直是研究者们追逐的圣杯。近年来,基于高斯分布的SLAM方法虽然能够从RGB-D数据中实现照片级真实感重建,但其计算性能却成为制约发展的关键瓶颈。最新技术如RTG-SLAM仅能达到17帧/秒的运行速度,远落后于基于几何的传统方法如KinectFusion(数百帧/秒)。这种局限性源于沉重的计算负担:场景建模需要大量高斯元和复杂的迭代优化来拟合RGB-D数据;而高斯元数量或优化迭代次数不足又会导致严重的质量下降。
面对这一挑战,浙江大学的研究团队在《Computational Visual Media》上发表了创新性研究成果,提出了名为高斯加符号距离场(Gaussian-plus-SDF)的混合表示方法。该方法巧妙结合了彩色符号距离场(SDF)的平滑几何外观建模能力与3D高斯元的细节捕捉优势,开发出GPS-SLAM系统,在真实世界Azure Kinect序列上实现超过150帧/秒的重建速度,比现有技术快一个数量级,同时保持相当的重建质量。
研究团队的核心创新在于重新定义了高斯元在场景表示中的角色。传统方法中,高斯元需要从头开始建模整个场景的几何和外观,而在新方法中,SDF已经提供了几何一致性的场景初始化,高斯元的任务被简化为高效的外观校正和增强。这一转变带来两个显著优势:所需高斯元数量大幅减少,优化复杂度显著降低,从而实现快速收敛。
关键技术方法包括:基于哈希表的SDF体积融合(0.5厘米体素大小)、深度测试下的无排序高斯渲染、针对颜色误差区域的自适应高斯插入策略(25%采样率)、结合全局关键帧和局部帧的优化视图选择(nglobal全局帧和nlocal局部帧),以及基于尺度与透明度阈值的高斯元动态管理机制(δsmax=0.1,δsmin=0.003,δσ=0.005)。实验使用Replica、TUM-RGBD、ScanNet++和自采集室内数据集进行评估。
混合表示与渲染机制
高斯加SDF表示由SDF体积S和3D高斯集合G={pii,ri,si,SHi}i=1M组成。渲染过程采用双通道设计:首先对SDF体积进行标准光线投射,获得颜色图Ct和深度图Dt;然后基于SDF渲染的深度图进行高斯溅射,通过顺序无关的混合方式累积颜色。
这种无排序的高斯渲染不仅在前向渲染中避免了3DGS(3D Gaussian Splatting)的高斯排序计算瓶颈,更在反向传播中通过基于高斯级别的并行化,避免了低效的原子操作,显著提升了优化速度。实验表明,该方法使前向传递加速10%,后向传递加速19%,整体系统速度提升17%。
在线重建流程
GPS-SLAM系统构建于InfiniTAM框架之上,处理每个输入帧包含三个阶段:基于SDF的相机姿态估计、深度和RGB数据融合到SDF体积、通过光度损失最小化优化3D高斯元。
在SDF重建部分,系统采用标准ICP(Iterative Closest Point)方法进行相机跟踪,最小化点对面距离。SDF融合过程直接更新全局哈希表中的SDF和颜色值,平均每帧仅需约0.1毫秒。
在高斯重建部分,系统设计了高效的高斯管理策略。高斯插入针对SDF表示不佳的外观细节区域,通过颜色误差阈值(δc=0.05)和高斯权重阈值(δW=4)确定需要添加高斯元的像素。高斯优化采用结合历史关键帧和近期帧的视图选择策略,防止过拟合和灾难性遗忘。高斯移除则基于尺度和平透明度阈值,剔除对重建贡献较小的冗余高斯元。
性能优势验证
在时间/内存性能方面,GPS-SLAM在Replica数据集上达到252.64帧/秒,在真实室内场景中达到151.00帧/秒,显著优于现有方法。即使在分辨率较高的ScanNet++数据集上(1752×1168,标准RGB-D图像的2.2倍),仍能保持79.18帧/秒的速度。
详细的时间成本分析显示,在Replica office0序列(2000帧)上,GPS-SLAM的映射时间仅需2.6毫秒/帧,优化时间2.2毫秒/帧,每迭代优化时间1.1毫秒,总迭代次数4000次,高斯元数量137,200个,PSNR(Peak Signal-to-Noise Ratio)达到41.15,整体系统帧率380.72,全面优于对比方法。
重建质量评估
在跟踪精度方面,GPS-SLAM在合成数据集上表现优异,在包含不准确深度输入的真实数据集上,与其他基于ICP的方法相当。渲染质量评估表明,该方法在PSNR、SSIM(Structural Similarity)和LPIPS(Learned Perceptual Image Patch Similarity)指标上与最先进方法相当,且显著优于其他高速SLAM系统。
几何质量评估显示,使用0.5厘米体素大小的SDF融合即可重建出高质量几何,无需依赖高斯表示。在ScanNet++数据集上,GPS-SLAM的准确率达到0.60厘米,准确率比99.93%,完胜对比方法。
技术特性分析
SDF体素大小实验表明,较小体素尺寸(0.5厘米)不仅能提高跟踪精度和图像质量,特别是边缘区域,而且不会牺牲重建速度。这是因为系统的主要瓶颈是高斯优化,而更精确的SDF重建减少了所需高斯元数量,从而加速了优化过程。
无排序高斯渲染的贡献进一步通过实验验证,在室内活动室场景中,该方法使系统帧率从152.86提升至179.40,加速效果显著。
研究结论与展望
高斯加SDF混合表示成功解决了基于高斯的SLAM方法的计算性能瓶颈,实现了超高速高保真重建。通过将SDF的快速几何重建能力与高斯元的细节增强特性相结合,该系统在保持高质量的同时,将重建速度提升了一个数量级。
当前系统仅包含前端相机跟踪,在大规模场景中可能产生漂移。未来通过融入如Loopy-SLAM中的全局姿态优化可能解决这一问题。此外,高斯渲染依赖于SDF提供的深度剔除,当SDF重建存在显著几何错误时(如薄板孔洞),会影响渲染质量。
研究团队计划探索基于LiDAR传感器的大规模室外场景超快速重建,相信高斯加SDF表示有望与LiDAR数据兼容,为更广泛的应用场景提供技术支持。这项研究不仅推动了实时3D重建技术的发展,也为计算机视觉与图形学的交叉融合提供了新思路。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号