卖东西的网站有哪些,河北城乡和住房建设厅官方网站,html编辑器汉化版apk,西安优化网站公司之前的文章中已经给大家介绍过许多关于音频驱动的肖像图像生成动画方法#xff0c;感兴趣的小伙伴可以点击下面链接阅读~
复旦开源Hallo#xff1a;只需输入一段音频和一张照片就可以让人物说话。
开源EMO再升级#xff01;复旦|百度|南大推出Hallo2#xff1a;可以生成4…之前的文章中已经给大家介绍过许多关于音频驱动的肖像图像生成动画方法感兴趣的小伙伴可以点击下面链接阅读~
复旦开源Hallo只需输入一段音频和一张照片就可以让人物说话。
开源EMO再升级复旦|百度|南大推出Hallo2可以生成4K一小时的音频驱动的视频。
继阿里EMO后腾讯也提出了AniPortrait用于生成由音频和参考肖像图像驱动的高质量动画
阿里最新EMO只需要提供一张照片和一段音频即可生成会说话唱歌的AI视频
告别大头娃娃东京大学开源数字人TANGO能根据目标语音音频生成同步全身手势的视频。
LetsTalk是一种基于扩散的转换器用于音频驱动的肖像图像动画。给定单个参考图像和音频LetsTalks 可以生成与输入音频一致的逼真的视频。LetsTalk 可以为输入音频驱动一致且合理的嘴部运动。与目前主流的基于扩散的方法如 Hallo 和 AniPortrait相比LetsTalk 在实现最佳质量的同时还具有很高的推理效率。此外基础版本LetsTalk-B仅使用少 8 倍的参数就实现了与 Hallo 相似的性能。 相关链接 论文http://arxiv.org/abs/2411.16748v1 代码https://github.com/zhang-haojie/letstalk 主页https://zhang-haojie.github.io/project-pages/letstalk.html
论文阅读 摘要
使用音频的肖像图像动画发展迅速使得创建越来越逼真和富有表现力的动画面部成为可能。这种多模态引导的视频生成任务的挑战在于融合各种模态同时确保时间和肖像的一致性。
为了应对这些挑战论文提出了用于说话视频合成方法LetsTalk这是一种扩散变换器它结合了模块化的时间和空间注意机制来合并多模态并增强时空一致性。为了处理多模态条件论文首先总结了三种融合方案从浅融合到深度融合紧凑性并彻底探索它们的影响和适用性。然后根据图像、音频和视频生成的模态差异提出合适的解决方案。 对于肖像利用深度融合方案Symbiotic Fusion来确保肖像的一致性。 对于音频论文实现了浅融合方案Direct Fusion来实现音频动画对齐同时保持多样性。
实验表明该方法可以生成时间连贯、逼真的视频并且具有增强的多样性和生动性。
方法 方法概述(a)和设计的 Transformer 块的说明(b)。 为了更好地说明在(b)中省略了时间步编码器和 Layer Norm。LetsTalk 集成了配备时间和空间注意模块的 Transformer 块旨在捕捉帧内空间细节并建立跨时间步骤的时间对应关系。获得肖像和音频嵌入后使用 Symbiotic Fusion 融合肖像嵌入使用 Direct Fusion 融合音频嵌入。值得注意的是论文沿帧轴重复肖像嵌入使其具有与噪声嵌入相同的形状。 三种多模态融合方案的说明提出的 Transformer 主干由左侧的块组成。 直接融合。将条件直接输入到每个块的交叉注意模块中 孪生融合。维护类似的 Transformer 并将条件输入其中提取相应的特征来指导主干中的特征 共生融合。在开始时将模态与输入连接起来然后将其输入到主干中通过固有的自注意机制实现融合。
结果 在HDTF数据集上与其他前沿方法的定性比较。论文的方法实现了更好的音频动画对齐例如嘴唇运动并产生了富有表现力的结果。 与CelebV-HQ数据集上现有的肖像图像动画方法进行定性比较。论文的方法实现了更好的肖像一致性。
结论
LetsTalk是一种新颖的多模态引导扩散变换器可使用音频输入实现卓越的音频驱动肖像动画效果。LetsTalk将模块化时空注意机制引入到变换器主干中以增强时间一致性。论文中总结了三种处理多模态的融合方案并深入分析了它们的影响。然后分别采用输入参考肖像和音频的最佳融合方案。大量实验证明了 LetsTalk 在实现最先进的肖像动画效果方面的有效性并在性能和有效载荷之间取得了良好的平衡。