用于快速NeRF适应的超网络方法

《Knowledge-Based Systems》:Hypernetwork Approach to Rapid NeRF Adaptation

【字体: 时间:2025年11月17日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  NeRF通过少量图像生成高质量三维重建,但需独立训练每个物体且计算量大。本文提出基于超网络的 few-shot学习方法,无需梯度优化即可在单步推理中适配新物体,显著提升效率(达 vanilla NeRF 的380倍),适用于机器人远程操作等场景。

  
Pawe? Batorski|Dawid Malarz|Marcin Przewi??likowski|Marcin Mazur|S?awomir Tadeja|Przemys?aw Spurek
波兰克拉科夫雅盖隆大学数学与计算机科学学院

摘要

神经辐射场(NeRF)是一种广泛采用的标准技术,可以从几张基础图像合成新的3D物体视图。然而,NeRF的泛化能力有限,这意味着我们需要为每个想要表示的物体单独训练相应的模型,这需要大量的计算资源。为了解决这个问题,我们提出了一种基于超网络范式的少样本学习方法,该方法在推理过程中不需要梯度优化。相反,超网络从训练数据中收集信息并更新通用权重。因此,我们开发了一种高效的方法,能够通过少量图像一步生成高质量的3D物体表示,适用于多种应用场景,例如机器人远程操作。我们通过将我们的方法与现有最先进的技术进行直接比较来验证了这一点。

引言

神经辐射场(NeRF)是一种全连接、非卷积的神经网络架构,可以从少量图像生成复杂3D物体的新且生动的渲染效果[1]。这些独特特性使NeRF成为解决其他新兴技术所面临问题的理想选择,因为传统计算机图形学无法完全解决这些问题[2]。例如,NeRF可以作为机器人远程操作中传统图形场景重建方法的新替代方案,从而生成具有真实感的高适应性场景[2],以及许多其他应用场景,如路径规划或场景理解[3]。 同时,NeRF也存在显著的限制。需要注意的是,它必须针对每个物体单独进行训练,因为该架构无法泛化到新的、之前未遇到的数据[4]。此外,训练时间通常较长,因为神经网络的权重必须编码物体的形状特征[4]。 为了克服这些限制,我们可以使用经典的生成模型来迫使NeRF泛化到未见过的物体[5]。这样的模型可以生成新的3D物体,但使用它们从现有图像生成NeRF表示却很复杂,通常需要耗时、资源密集且成本高昂的训练过程[5]。为了使其在现实场景中实用,我们希望只需用智能手机或其他大众市场的视频捕捉设备拍摄几张照片,就能无需额外训练将其转换为NeRF表示[6]。 为了解决上述问题,我们可以使用元学习技术,如MAML[7]。其主要思想是找到能够在几次甚至一次梯度更新中轻松适应新任务的模型参数。因此,MAML算法旨在找到对任务变化敏感的模型权重。当权重沿其梯度方向调整时,可以显著改善任何任务的损失函数。不幸的是,使用这些方法需要几百次梯度更新才能更新通用权重,在推理过程中则需要几千次更新[8]。 与所有提出的方法及其固有的局限性相比,我们建议采用超网络范式[9]进行少样本训练。这种方法在推理过程中不需要梯度优化。相反,在训练阶段,超网络从训练数据中收集信息并更新通用权重。因此,通过结合超网络和NeRF以及TriPlane或(部分不可训练的)MultiPlaneNeRF[10]表示,我们开发了一种从2D图像生成3D表示的高效方法。为此,我们在本文中提出了一种名为HyperPlanes1的新方法,该方法在NeRF训练中使用了超网络(见图1)。最终模型可以在单步推理阶段从少量现有图像生成NeRF表示(见图2)。因此,它可以即时生成新的、未见过的视图,这一点通过我们论文中展示的广泛实验研究得到了证实。因此,我们的模型可以进一步推动NeRF在机器人远程操作和其他应用场景中的采用[2]。

相关研究

与传统的离散3D物体表示(例如点云或网格)相比,NeRF[1]依赖于全连接、非卷积的神经网络来存储关于场景的信息。因此,它可以生成给定3D物体的新的、之前未见过的视图。

HyperPlanes:少样本NeRF适应

在这里,我们介绍了我们的新型HyperPlanes模型。首先,我们介绍了NeRF架构、训练和适应的背景和符号表示。接下来,我们描述了一种使用超网络范式从2D图像构建NeRF表示的方法,该方法在推理过程中不需要梯度优化。

实验

在本节中,我们对HyperPlanes模型进行了广泛的实验分析。我们在一系列基准测试和实验设置中评估了其性能,以了解其定量准确性和定性表现。 在第4.1节中,我们在NeRF Realistic Synthetic数据集上评估了HyperPlanes在受控条件下的新视图合成能力。第4.2节展示了在DTU数据集上的实验,该数据集具有真实的几何形状和光照变化。

结论

本文提出了一种使用超网络范式的NeRF 3D物体表示的少样本学习方法。我们的解决方案在推理过程中不需要梯度优化,从而实现了计算效率高的单步推理方法,仅需要少量输入图像。这使得物体重建速度显著加快(甚至比训练了36000个时代的原始NeRF快380倍)

CRediT作者贡献声明

Pawe? Batorski:撰写 – 审稿与编辑、撰写 – 原始草稿、可视化、验证、监督、软件、资源、方法论、研究、资金获取、形式分析、数据管理、概念化。 Dawid Malarz:可视化、验证、软件、方法论、研究、资金获取、形式分析、数据管理、概念化。 Marcin Przewi??likowski:可视化、验证、监督、软件、资源、资金获取、形式分析

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

致谢

我们感谢Maksym Petrenko在实验阶段提供的支持。P. Spurek的工作得到了波兰国家科学中心(Grant No. 2023/50/E/ST6/00068)的支持。M. Mazur的工作得到了波兰国家科学中心(Grant No. 2021/43/B/ST6/01456)的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号