当前位置: 首页 > news >正文

做昆虫类论文网站贵阳公司网站建设

做昆虫类论文网站,贵阳公司网站建设,上位机软件开发培训,如何编辑 wordpress 主题1 Overall GAGAvatar#xff08;Generalizable and Animatable Gaussian Avatar#xff09;#xff0c;一种面向单张图片驱动的可动画化头部头像重建的方法#xff0c;解决了现有方法在渲染效率和泛化能力上的局限。 旋转参数 现有方法的局限性#xff1a; 基于NeRF的方…1 Overall GAGAvatarGeneralizable and Animatable Gaussian Avatar一种面向单张图片驱动的可动画化头部头像重建的方法解决了现有方法在渲染效率和泛化能力上的局限。 旋转参数 现有方法的局限性 基于NeRF的方法 优点在头像合成和细节如头发、饰品上效果优秀。局限NeRF老毛病渲染慢实时性较差。 基于 3DGS 的方法 优点实现实时渲染局限针对每个 identity 需要进行特定的训练无法推广泛化。 Contributions 引入 Dual-lifting 方法及结合 3DMM 先验解决了从单张图片构建 3D 高斯模型的难题。 通过预测图像平面中每个像素的 lifting 距离即从 2D 到 3D 的深度信息。利用 forward and backward lifting 生成几乎闭合的 3D 高斯点分布最大程度还原头部形状。结合 3DMM 的先验约束 lifting 过程确保生成细节。 通过结合 3DMM 和高斯分布既能准确传递表情信息又避免了冗余计算。 2 Method 本文方法分为两个主要分支重建分支Reconstruction Branch和表情控制分支Expression Branch 重建分支生成静态高斯点而表达分支生成动态高斯点。 主要步骤 从源图像中提取全局和局部特征用 DINOv2 进行多尺度视觉特征提取。基于局部特征提出了双 lifting Dual-lifting方法预测 3D 高斯点的位置和参数。同时结合全局特征和 3DMM 顶点特征生成另一个表情高斯点集合。将所有 3D 高斯点通过 splatting 生成粗图像 I c I_c Ic​。使用神经渲染器对 I c I_c Ic​ 进行细化生成最终结果 I f I_f If​。 2.1 重建分支 Dual-lifting 策略 在单次 lifting 方法中模型可能无法确定将像素 lifting 到可见表面还是物体背面导致学习过程中的歧义。双重 lifting 通过分别预测前向和后向偏移解决了这一问题消除歧义稳定优化过程。最终两组 lifting 点几乎形成封闭的高斯点分布。 过程 提取特征 使用冻结的 DINOv2 模型提取 296 × 296 296 \times 296 296×296 的局部特征平面 F local F_{\text{local}} Flocal​ 预测参数不是直接预测 3D 高斯 利用两个卷积网络 E C o n v 0 E_{Conv0} EConv0​ 和 E C o n v 1 E_{Conv1} EConv1​分别预测每个像素相对于特征平面的前向和后向偏移量即 lifting 距离。 参数预测预测每个点的颜色、透明度、缩放和旋转参数 G c , o , s , r G_{c,o,s,r} Gc,o,s,r​ G c , o , s , r [ E Conv 0 ( F local ) , E Conv 1 ( F local ) ] G_{c,o,s,r} [E_{\text{Conv}0}(F_{\text{local}}), \; E_{\text{Conv}1}(F_{\text{local}})] Gc,o,s,r​[EConv0​(Flocal​),EConv1​(Flocal​)] 从平面到3D的映射 根据相机位姿将特征平面映射回3D空间使其经过原点获得平面上像素的3D位置 p s p_s ps​ 和法向量 n s n_s ns​ 其实应该就是指向 camera垂直于这个平面根据预测的偏移量将平面上的点沿法向量 n s n_s ns​ 提升到三维空间 G pos [ p s E Conv 0 ( F local ) ⋅ n s , p s − E Conv 1 ( F local ) ⋅ n s ] G_{\text{pos}} [p_s E_{\text{Conv}0}(F_{\text{local}}) \cdot n_s, \; p_s - E_{\text{Conv}1}(F_{\text{local}}) \cdot n_s] Gpos​[ps​EConv0​(Flocal​)⋅ns​,ps​−EConv1​(Flocal​)⋅ns​] 2.2 表情分支 组成 3DMM 表情解耦3DMM 可以将面部表情和身份特征解耦。这种解耦使得即使是不同身份的图像之间也可以有效地传递表情顶点语义稳定性3DMM 的每个顶点在模型中对应固定的面部区域如眼睛、嘴巴等有助于精确定位和修改特定部位的表情。 3D Gaussians 通过 3DMM 的顶点位置生成 3D Gaussians。顶点的学习权重与表情特征绑定用于调整生成的图像中的表情。 过程 输入特征融合 通过 DINOv2 从驱动图像 I d I_d Id​ 提取全局特征 F i d F_{id} Fid​ 将身份信息注入表情分支确保生成结果在表情变化的同时保持身份一致性从 Driving img 和 Source img 通过使用 GPAvatar 提供的 3DMM 估计方法基于 EMOCA 和 MICA提取FLAME 将可学习的权重绑定到 3DMM 中的每个顶点表示顶点与表情相关的特定属性如嘴唇张开程度或眉毛上扬得到顶点特征将全局特征 F i d F_{id} Fid​ 和顶点特征拼接 高斯参数预测使用 MLP 从拼接的特征中预测每个点除了位置外的所有高斯参数如颜色、透明度、大小、旋转等。 使用 3DMM 顶点的固定位置作为高斯点的位置输入保持空间一致性。 高效表情驱动 只需在初始阶段一次性的计算出重建分支和表情分支的高斯点。通过修改表情分支中高斯的位置和相机姿态实现快速的表情重演无需重复计算。那表情高斯点的其他属性为什么不需要调整 3.3 神经渲染器 dual-lifting 之后仅仅获得175,232个高斯点比较少所以仅凭这些点的 RGB 信息不足以捕获人类头像的丰富细节。所以所有的高斯点的预测信息是包含RGB信息的32维特征首先进行 splatting 以获得粗略图像。神经渲染器细化使用类似EG3D的超分辨率模块只不过不提升分辨率而是将粗略图像32维特征细化为高质量的最终图像。 神经渲染器有效地将 dual-lifting 和表情高斯特征解码为RGB值生成高质量的结果并解决两组高斯之间的潜在冲突。在训练过程中从零开始训练神经渲染器不使用任何预训练初始化。 3.4 训练策略与损失函数 使用预训练的 DINOv2 不参与训练其余部分从零开始训练。 数据随机从同一视频中抽取两帧图像一张作为 Source img一张作为 Driving img 和 Target img目标 确保生成的粗略图像 I c I_c Ic​ 和精细图像 I f I_f If​ 与目标图像 I t I_t It​ 对齐。 Loss L ∣ ∣ I c − I t ∣ ∣ ∣ ∣ I f − I t ∣ ∣ λ p ( ∣ ∣ ϕ ( I c ) − ϕ ( I t ) ∣ ∣ ∣ ∣ ϕ ( I f ) − ϕ ( I t ) ∣ ∣ ) λ l L lifting L ||I_c - I_t|| ||I_f - I_t|| \lambda_p(||\phi(I_c) - \phi(I_t)|| ||\phi(I_f) - \phi(I_t)||) \lambda_l L_{\text{lifting}} L∣∣Ic​−It​∣∣∣∣If​−It​∣∣λp​(∣∣ϕ(Ic​)−ϕ(It​)∣∣∣∣ϕ(If​)−ϕ(It​)∣∣)λl​Llifting​ 图像重现损失 L 1 L1 L1 和感知损失约束生成图像 ( I c I_c Ic​, I f I_f If​) 与目标图像 ( I t I_t It​) 的像素和语义特征对齐。 L1 损失直接计算像素级差异 ∣ ∣ I c − I t ∣ ∣ ∣ ∣ I f − I t ∣ ∣ ||I_c - I_t|| ||I_f - I_t|| ∣∣Ic​−It​∣∣∣∣If​−It​∣∣ 感知损失通过预训练的感知模型如 VGG提取高层次语义特征用于比较生成图像和目标图像的感知相似性 ∣ ∣ ϕ ( I c ) − ϕ ( I t ) ∣ ∣ ∣ ∣ ϕ ( I f ) − ϕ ( I t ) ∣ ∣ ||\phi(I_c) - \phi(I_t)|| ||\phi(I_f) - \phi(I_t)|| ∣∣ϕ(Ic​)−ϕ(It​)∣∣∣∣ϕ(If​)−ϕ(It​)∣∣ 其中 ϕ \phi ϕ 表示感知模型提取的特征。 Lifting 距离损失 L lifting L_{\text{lifting}} Llifting​ 帮助模型更准确地学习 Dual-lifting 的 3D 点位置从而增强重建的3D结构和视角变化能力。 方法使用 3DMM 提供的先验信息顶点位置 P 3DMM P_{\text{3DMM}} P3DMM​约束双重提升生成的高斯点 ( G pos G_{\text{pos}} Gpos​) 中最近的点与 3DMM 顶点的距离尽可能小。即通过 L2 损失计算顶点和最近点的距离。 L lifting ∣ ∣ P 3DMM − argmin q ∈ G pos ∥ p − q ∥ ∣ p ∈ P 3DMM ∣ ∣ L_{\text{lifting}} ||P_{\text{3DMM}} - \text{argmin}_{q \in G_{\text{pos}}} \|p - q\| \ | \ p \in P_{\text{3DMM}} || Llifting​∣∣P3DMM​−argminq∈Gpos​​∥p−q∥ ∣ p∈P3DMM​∣∣ P 3DMM P_{\text{3DMM}} P3DMM​3DMM 的顶点集合 G pos G_{\text{pos}} Gpos​双重提升生成的高斯点集合 argmin q ∈ G pos ∥ p − q ∥ \text{argmin}_{q \in G_{\text{pos}}} \|p - q\| argminq∈Gpos​​∥p−q∥找到距离每个 3DMM 顶点最近的高斯点 特点只对部分高斯点施加约束与 3DMM 顶点对应的部分允许模型学习未被 3DMM 覆盖的区域如头发、饰品等增强生成图像的细节表现力。 3 Limitations 新视角未见区域的细节不足 生成结果可能是基于统计学上的“平均期望”而非真实的细节例如 从侧脸视角生成另一半脸部时缺乏真实的细节。从闭嘴图像生成张嘴状态时生成结果可能不够逼真。 原因合成过程中缺乏对未见区域的具体信息导致生成效果趋于平均化。 解决方向引入随机生成模型如 diffusion通过增加生成的随机性提高未见区域的细节表现。 表情分支的限制 依赖 3DMM表情分支基于 3DMM 模型进行训练而 3DMM 具有一定的局限性无法完全覆盖所有面部细节。极端表情难以处理如一只眼睛闭合而另一只眼睛睁开、舌头的动态或头发细节。数据集限制表情分支从 VFHQ 视频数据中学习可能不足以捕获极端的面部运动或未被 3DMM 模型覆盖的区域。 解决方向不依赖 3DMM从图像中直接提取表情嵌入。—— 需要一个好的 E m o t E_{mot} Emot​
http://www.w-s-a.com/news/933257/

相关文章:

  • windows2008做网站网站首页打开速度
  • 做外贸要做什么网站服装设计图
  • 中山市路桥建设有限公司网站网站开发角色分配权限
  • 加强档案网站建设网站搭建好了不用会不会被攻击
  • 维护网站信息网络建设服务
  • 网站建设策划书模板下载用自己电脑配置服务器做网站
  • 360免费建站空间淘宝数据网站开发
  • 做分销的网站本地dede网站怎么上线
  • 中学网站模板北京管理咨询公司
  • 网站开发用哪个软件方便二级网站建设 管理思路
  • 个人怎么创建网站中国建设银行网站口
  • 跟知乎一样的网站做展示网站步骤
  • 邯郸网站建设效果好wordpress app 加载慢
  • 做app的网站有哪些功能广州自适应网站建设
  • 兰州建设网站的网站开源网站建设
  • 深圳网站建设南山指数基金是什么意思
  • 备案中又需要建设网站网站信息组织优化
  • 做网站推广需要什么asp响应式h5网站源码下载
  • 柳州建设网官方网站免费自助建站哪个平台好
  • 论坛网站模板源码下载网站建设与网页设计是什么
  • 跑流量的网站淘宝网站的建设目标是
  • 网站计费系统怎么做九一制作网站
  • 网红营销推广温州seo博客
  • 临沂网站制作定制现在比较流行的软件开发模型
  • 南宁企业建站系统做问卷调查哪个网站好
  • 能打开各种网站的浏览器推荐建设部的网站首页
  • 苏州高端网站建设开发wordpress 删除图片
  • saas网站开发外贸网站设计风格
  • c 手机网站开发湘阴网页定制
  • 阿里云虚拟主机搭建wordpressWordPress优化手机端