当前位置: 首页 > news >正文

网站上的图片带店面是怎么做的珠宝首饰网站模板

网站上的图片带店面是怎么做的,珠宝首饰网站模板,wordpress自动跳转,保健品网站可以做网站简介 随着数字人物概念的兴起和生成技术的不断发展#xff0c;将照片中的人物与音频输入进行同步变得越来越容易。然而#xff0c;目前仍存在一些问题#xff0c;比如头部运动不自然、面部表情扭曲以及图片和视频中人物面部的差异等。为了解决这些问题#xff0c;来自西安…简介 随着数字人物概念的兴起和生成技术的不断发展将照片中的人物与音频输入进行同步变得越来越容易。然而目前仍存在一些问题比如头部运动不自然、面部表情扭曲以及图片和视频中人物面部的差异等。为了解决这些问题来自西安交通大学等机构的研究人员提出了 SadTalker 模型。 SadTalker 模型在三维运动场中学习如何从音频中生成3DMM的3D运动系数包括头部姿势和表情并利用全新的3D面部渲染器来生成自然的头部运动。 为了学习真实的运动系数研究人员将音频和不同类型的运动系数之间的联系进行了显式建模。他们设计了蒸馏系数和3D渲染的脸部从音频中学习准确的面部表情。同时他们还设计了条件VAE即 PoseVAE用于合成不同风格的头部运动。最后他们将生成的三维运动系数映射到人脸渲染的无监督三维关键点空间并合成最终的视频。 在实验中研究人员证明了 SadTalker 模型在运动同步和视频质量方面实现了最先进的性能为通过人脸图像和语音音频生成会说话的人物头像视频提供了一种有效的方法。 SadTalker语音驱动图像生成视频 企鹅交流群787501969整合包下载地址可以加交流群 获者从csdn下载https://download.csdn.net/download/matt45m/88984818 算法架构 在数字人创作、视频会议等多个领域中将静态照片动态化即通过语音音频让照片中的人物动起来是一项具有挑战性的任务。过去的研究主要集中在生成唇部运动因为唇部动作与语音之间的关联最为紧密。虽然一些工作也尝试生成其他相关的人脸运动比如头部姿势但生成视频的质量仍然存在着许多不自然的问题例如偏好的姿势、模糊、身份修改和面部扭曲等限制。 另一种流行的方法是基于潜在空间的人脸动画该方法主要关注于在对话式人脸动画中特定类别的运动。然而生成高质量的视频仍然是一项具有挑战性的任务。尽管三维面部模型中包含高度解耦的表征可以用于单独学习面部不同位置的运动轨迹但仍然会产生不准确的表情和不自然的运动序列。 基于以上观察结果研究人员提出了SadTalkerStylized Audio-Driven Talking-head系统。该系统通过隐式三维系数调制来实现风格化音频驱动的视频生成。 3面部 现实中的视频通常是在三维环境中拍摄的因此三维信息对于生成逼真的视频至关重要。然而以往的研究很少考虑到三维空间因为仅仅通过一张平面图像很难获取原始的三维稀疏信息而且设计高质量的面部渲染器也非常困难。 受到最近单图像深度三维重建方法的启发研究人员开始将预测的三维形变模型3DMMs作为中间表征。在3DMM中三维脸部形状S可以被解耦为 S S ‾ α U i d β U e x p , ( 1 ) {\bf S}{\overline S}\alpha{\bf U}_{i d}\beta{\bf U}_{e x p},\qquad(1) SSαUid​βUexp​,(1) 在这个算法中通过LSFM morphable模型三维形变模型3DMMs的各个参数有以下含义和作用 S代表三维人脸的平均形状。Uid 和 UexpLSFM morphable模型的参数分别用于描述人物的身份和表情的正则。α 和 β分别是身份和表情的系数分别具有80维和64维用于描述人物的身份和表情。r 和 t分别表示头部旋转和平移用于保持头部姿势的差异性。{β, r, t}仅将运动的参数建模为表情系数β、头部旋转r和平移t。 在该算法中从驱动的音频中单独学习头部姿势ρ[r, t]和表情系数β。然后利用这些学习到的运动系数来隐式地调制面部渲染用于最终的视频合成。这种方法可以保持生成的面部动画与音频的相关性从而使合成的视频更加真实和生动。 通过音频生成运动稀疏 SadTalker使用了两个模型PoseVAE和ExpNet来分别生成头部姿势和表情的运动。这是因为三维运动系数包含了头部姿势和表情而这两者具有不同的特性。头部姿势是全局运动对应整个面部区域的变化而表情通常是相对局部的局限于特定的面部区域。由于头部姿势与音频的关系相对较弱而表情与音频高度相关如果尝试在一个模型中完全学习所有的系数会导致网络面临巨大的不确定性。因此通过分别使用PoseVAE和ExpNet来生成头部姿势和表情的运动网络可以更有效地处理头部姿势和表情之间的关系从而提高生成的面部动画的真实性和准确性。 ExpNet 学习一个能够从音频中准确生成表情系数的通用模型是非常困难的原因主要有两点 音频到表情不是对不同人物的一对一的映射任务不同个体对相同的语音输入可能会产生不同的面部表情反应。这是由于个体之间的生理特征、情感状态、习惯性表现等因素的差异导致了相同音频信号引发不同表情的情况。 表情系数中存在与音频相关的动作这会影响到预测的准确性音频信号中的语调、情感内容以及说话速度等因素都可能影响到面部表情的生成。因此从音频中预测表情时需要考虑如何有效地捕捉和建模这些与音频相关的动作以提高预测的准确性和鲁棒性。 为了应对这些挑战ExpNet 的设计目标是减少这些不确定性。针对个体身份问题研究人员通过使用第一帧的表情系数将表情运动与特定的人物联系起来。 为了减少自然对话中其他面部成分的运动权重研究人员通过预训练网络如 Wav2Lip 和深度三维重建只使用嘴唇运动系数作为系数目标。这种方法有助于减少由于音频中其他动作导致的表情系数的不确定性。 对于其他细微的面部运动比如眼睛眨动等可以在渲染图像上的额外landmark损失中引入以进一步提高模型的准确性和鲁棒性。 PoseVAE 研究人员设计了一个基于变分自动编码器VAE的模型旨在学习谈话视频中真实的、身份相关的风格化头部运动。在训练中他们采用了基于编码器-解码器结构的方法对固定的n个帧进行姿势VAE训练。编码器和解码器都是由两层多层感知器MLP组成输入是一个连续的t帧头部姿势将其嵌入到高斯分布中。在解码器中网络从采样分布中学习生成t帧姿势。 需要注意的是PoseVAE并不直接生成姿势而是学习第一帧的条件姿势的残差。这使得该方法在测试中能够在第一帧的条件下生成更长、更稳定、更连续的头部运动。根据条件变分自动编码器CVAEPoseVAE还增加了相应的音频特征和风格标识作为节奏感知rhythm awareness和身份风格的条件。 模型使用KL散度来衡量生成运动的分布并使用均方损失和对抗性损失来确保生成的质量。这样的设计使得模型能够从谈话视频中学习到真实且与身份相关的头部运动并能够在测试阶段生成更长、更连续的运动序列。 3D-aware面部渲染 在生成真实的三维运动系数后研究人员使用了一个精心设计的三维图像动画器来渲染最终的视频。最近提出的图像动画方法称为 face-vid2vid可以隐含地从单一图像中学习3D信息。然而该方法需要一个真实的视频作为动作驱动信号。与此不同的是这篇论文中提出的脸部渲染可以通过3DMM系数来驱动。 为了建立显式3DMM运动系数头部姿势和表情与隐式无监督3D关键点之间的关系研究人员提出了 mappingNet。mappingNet 使用了几个一维卷积层类似于 PIRenderer使用时间窗口的时间系数进行平滑处理。不同之处在于研究人员发现 PIRenderer 中的人脸对齐运动系数会极大地影响音频驱动的视频生成的运动自然度因此 mappingNet 只使用表情和头部姿势的系数。 训练阶段包含两个步骤首先按照原论文的方法使用自监督方式训练 face-vid2vid。然后在冻结外观编码器、canonical关键点估计器和图像生成器的所有参数后通过在ground truth视频的3DMM系数上进行重建对 mappingNet 进行微调。 在无监督关键点的域中使用 L1 损失进行监督训练并按照其原始实现方式生成最终的视频。这种方法允许通过3DMM系数来驱动脸部渲染从而生成具有更高真实度和自然度的视频。 实验对比 在实验结果中研究人员使用了多个指标来评估他们提出的方法相对于其他方法的性能 图像质量评估使用 Frechet Inception DistanceFID和 Cumulative Probability Blur DetectionCPBD来评估生成图像的真实性和清晰度。 身份保留程度评估使用 ArcFace 提取图像的身份嵌入并计算源图像与生成帧之间身份嵌入的余弦相似度CSIM来评估身份的保留程度。 唇部同步和口型评估评估了来自 Wav2Lip 的口型的感知差异包括距离评分LSE-D和置信评分LSE-C。 头部运动评估使用 Hopenet 提取的头部运动特征嵌入的标准偏差来评估生成头部运动的多样性并计算 Beat Align Score 来评估音频和生成头部运动的一致性。 通过与其他最先进的谈话头像生成方法进行对比包括 MakeItTalk、Audio2Head 和音频转表情生成方法Wav2Lip、PC-AVS研究人员使用公开的 checkpoint 权重进行评估。 实验结果显示提出的方法在整体视频质量和头部姿势的多样性方面表现出更好的性能。同时在唇部同步方面也与其他完全说话的头部生成方法相当。虽然研究人员发现唇语同步指标对音频过于敏感可能导致不自然的唇部运动获得更好的分数但该方法取得了与真实视频相似的分数表明了其优势。 与其他方法相比实验结果显示了提出的方法与原始目标视频的视觉质量非常相似并且能够生成与预期的不同头部姿势非常相似的视频。相比之下其他方法如 Wav2Lip 生成了模糊的半脸PC-AVS 和 Audio2Head 难以保留源图像的身份Audio2Head 只能生成正面说话的脸而 MakeItTalk 和 Audio2Head 则由于二维扭曲而生成了扭曲的人脸视频。 项目安装 项目安装分三种方式有从源码安装的这个可以参考官方给的安装文档在SD-webui里面当插件安装还有一键整合包这三种模式 1.源码安装方式 源码安装最好依赖在conda虚拟环境 安装环境 git clone https://github.com/OpenTalker/SadTalker.git cd SadTalker conda create -n sadtalker python3.8 conda activate sadtalker pip install torch1.12.1cu113 torchvision0.13.1cu113 torchaudio0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113 conda install ffmpeg pip install -r requirements.txt下载模型 bash scripts/download_models.sh头像合成 python inference.py --driven_audio audio.wav \--source_image video.mp4 or picture.png \--enhancer gfpgan 全身合成 python inference.py --driven_audio audio.wav \--source_image video.mp4 or picture.png \--result_dir a file to store results \--still \--preprocess full \--enhancer gfpgan 2.插件安装方式 启动SD-webui,这里使用的是秋叶大佬的一键整合包找到插件点安装等待安装完成之后重启webui: 安装完成了之后在ui界面就有SadTalker这个插件菜单 在sd插件路径下创建模型两个目录 将下面4个模型文件下载到checkpoints文件夹下再将下载的gfpgan 文件夹里面的文件放到SadTalker的gfpgan目录下 3.一键整合包安装 下载整合包点击启动 之后在浏览器打开http://127.0.0.1:7860/ 错误解决 Windows系统下报错: LLVM ERROR: Symbol not found: __svml_sqrtf8_ha vml_dispmd.dll引起的错误是由于numba库在windows系统下会根据系统变量路径自动调用svml_dispmd.dll可执行程序。解决方案是把系统路径下的该文件删除或重新命名并添加一个新的系统变量NUMBA_DISABLE_INTEL_SVML1
http://www.w-s-a.com/news/484328/

相关文章:

  • 手机免费在线搭建网站短网址生成防红
  • 天津网站设计网站制作如何新建wordpress
  • 山东省建设备案网站审批国际新闻最新消息10条简短
  • 成都市建设网扬尘监控网站短域名转换
  • 怎么做手机网站潍坊建设银行网站
  • 做网站分什么软件品牌设计培训
  • 太原网站设计排名设计本装修效果图
  • 网站个人中心模板石家庄网站系统开发
  • 优秀的电子商务网站教育公司网站建设文案
  • 网站开发市场成本网站链接推广工具
  • 猪八戒做网站排名常州seo博客
  • wordpress 网站遭篡改如何优化公司的网站
  • 汉中公司做网站网站建设的风格设置
  • 网站建议怎么写怎么做网页连接
  • 站长工具seo综合查询下载安装软件平台搭建包括哪几个方面
  • 做网站怎么存放视频支付功能网站建设
  • 庆阳手机网站设计兰州网站的优化
  • 企业网站托管有必要吗项目管理资格证书
  • 检索类的网站建设个人博客网页模板图片
  • 贵阳网站建设搜q479185700做网站有什么语言好
  • 制作公司主页网站贵阳网站建设技术托管
  • 广西建设网站网址多少钱南京江北新区地图
  • 网站建设及优化 赣icp外包服务美剧
  • wordpress添加菜单深圳优化网站排名
  • 免费下载建设银行官方网站重点专业建设验收网站
  • 建行官方网站登录怎样制作悬浮的WordPress
  • 建设一个网站需要几个角色广告设计与制作就业前景
  • 侵入别人的网站怎么做怎么修改网站排版
  • 网站如何提交百度收录什么最便宜网站建设
  • 商丘网站建设想象力网络做公司网站需要准备什么