网站开发的流程,网站建设电话多少,北京网页设计学校,做视频网站需要多大带宽本文提出一种3D-to-3D转换方法#xff1a;Instruct 3D-to-3D#xff1b;借助预训练的Image-to-Image扩散模型#xff0c;本文方法可以使各个视角图片的似然最大#xff1b;本文方法显式地将source 3D场景作为condition#xff0c;可以有效提升3D连续性和可控性。同时…
本文提出一种3D-to-3D转换方法Instruct 3D-to-3D借助预训练的Image-to-Image扩散模型本文方法可以使各个视角图片的似然最大本文方法显式地将source 3D场景作为condition可以有效提升3D连续性和可控性。同时本文还提出dynamic scaling使得几何变换的强度是可调整的。
目录
Related Works
Text-to-3D models
Proposed Method
Pipeline of Instruct 3D-to-3D
Dynamic Scaling
Experiments
Qualitative Evaluations
Quantitative Evaluations
User Study
Sensitivity to the Scaling Strategy
Limitations Related Works
Text-to-3D models
DreamFields是第一个实现Text-to-3D的工作。DreamFields用CLIP引导生成但是生成效果不佳。
DreamFusion是第一个将diffusion应用在Text-to-3D任务上的方法。对于任意输入图片根据采样得到噪声和时间生成噪声图像。噪声图像可用于计算损失的梯度 其中y是文本描述。但是现有方法有两个问题1直接fine-tune 3D场景可能到导致失去原3D场景的特征2需要对转换后的场景有详细的文本描述。 Proposed Method
Pipeline of Instruct 3D-to-3D 1. target model基于source model初始化
2. 随机相机位姿c用target model渲染目标图像I_tgt将I_tgt送入StableDiffusion的encoder获得对应的隐码特征L_tgt。
3. 添加噪声
4. 用source model和相机位姿c渲染source image I_src
5. 将x_t送入InstructPix2Pix其中source image I_src和text instruction y是控制条件。
6. 由于有两个控制条件最后的噪声由下式求得其中s_I和s_T是用于控制图片和文本控制强度的超参数。 7. 梯度可求得 Dynamic Scaling
本文使用DVGO该方法是一中voxel grid-based implicit 3D representations以3D vocel grid的形式保留密度和颜色信息。
voxel grid是3D空间的离散部分每个vertex描述颜色和密度信息。体渲染是基于射线周围vertices的插值信息求得。
3D场景的分辨率由voxels数量决定。DVGO中使用progressive scaling策略在训练过程中逐步增加voxels数量 本文中vocels的数量初始化为N但这会导致形状较难改变因此本文提出dynamic scaling。该方法从N到N/2^l逐渐减少voxels的数量随后再逐渐恢复至N。图3-b展示了该过程。 Experiments
Qualitative Evaluations Quantitative Evaluations
计算CLIP score和BRISQUE score User Study Sensitivity to the Scaling Strategy Limitations