CustomNeRF：仅需文本或图像提示，精准编辑3D场景

想象一下，只需简单的文本描述或一张图像提示，就能精准编辑3D场景，这听起来是不是有些不可思议？但是，美图影像研究院（MT Lab）与中国科学院信息工程研究所、北京航空航天大学、中山大学的研究团队却做到了！他们提出了一种全新的框架——CustomNeRF，让我们一起来看看这项令人惊叹的研究成果。

自从2020年神经辐射场（Neural Radiance Field, NeRF）问世以来，隐式表达技术迎来了新的突破。作为目前最前沿的技术之一，NeRF在各个领域都有着广泛的应用，引起了人们的广泛关注。然而，要实现仅凭文本或图像提示就能精准编辑3D场景的目标并不容易。

CustomNeRF解决了这一难题，它克服了两大挑战。首先，通过引入额外的mask field来估计编辑概率，CustomNeRF能够准确识别图像前景区域，实现仅对前景进行编辑，保持背景的一致性。其次，通过局部 - 全局迭代编辑（LGIE）的训练方案，CustomNeRF能够在编辑过程中灵活控制前景和背景的渲染，确保编辑结果的几何一致性。

CustomNeRF的整体流程分为三个步骤。首先，通过Grouded SAM从文本描述中提取图像编辑区域的掩码，训练foreground-aware NeRF来重建3D场景。其次，采用Custom Diffusion的方法微调参考图像，学习特定主体的关键特征。最后，在编辑阶段，通过局部 - 全局迭代编辑的训练方案，实现前景编辑和背景保持一致。

实验结果显示，CustomNeRF在图像和文本驱动下均取得了优异的编辑效果，超越了基线方法。这项研究的创新性在于支持文本或图像提示的3D场景编辑，解决了前景编辑和多视图一致性的关键挑战，为实现精准的3D场景编辑提供了新的思路和方法。

CustomNeRF的出现，让我们看到了科技的无限可能性。未来，随着这项技术的不断发展和完善，我们或许能够用更简单、更直观的方式来创造和编辑3D场景，让科技真正成为我们生活的助力和乐趣。让我们拭目以待，期待CustomNeRF带来的更多惊喜和创新！

视图 cvpr 视频文件