当前位置：首页 > news >正文

潼南集团网站建设物流网络平台

news 2026/4/8 14:02:48

潼南集团网站建设,物流网络平台,四川销售应用app,旅游网站建设的总结大家好#xff0c;这里是好评笔记#xff0c;公主号#xff1a;Goodnote#xff0c;专栏文章私信限时Free。本文详细介绍慕尼黑大学携手 NVIDIA 等共同推出视频生成模型 Video LDMs。NVIDIA 在 AI 领域的卓越成就家喻户晓#xff0c;而慕尼黑大学同样不容小觑#xff0c;… 大家好这里是好评笔记公主号Goodnote专栏文章私信限时Free。本文详细介绍慕尼黑大学携手 NVIDIA 等共同推出视频生成模型 Video LDMs。NVIDIA 在 AI 领域的卓越成就家喻户晓而慕尼黑大学同样不容小觑他们深度参与了最初 SD 系列图像生成模型的研发在扩散模型领域展现出了强劲实力。优质专栏回顾机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录论文摘要1. 引言贡献 2. 背景扩散模型DMs潜在扩散模型LDMs 3. 潜在视频扩散模型3.1 将潜在图像转变为视频生成器3.1.1 时间自动编码器微调3.2 长视频生成的预测模型3.3 高帧率的时间插值3.4 超分辨率模型的时间微调总结 4. 实验数据集评估指标模型架构和采样4.1 高分辨率驾驶视频合成4.1.1 消融研究4.1.2 驾驶场景模拟 4.2 使用稳定扩散的文本到视频4.2.1 使用DreamBooth的个性化文本到视频 5. 结论论文论文地址https://arxiv.org/pdf/2304.08818 项目地址https://research.nvidia.com/labs/toronto-ai/VideoLDM/ 摘要在图像生成领域潜在扩散模型LDMs取得了重大成功通过在低维潜在空间中训练扩散模型避免了过高的计算需求的同时能够实现高质量的图像合成本文中作者将LDM范式应用于高分辨率视频生成领域。过程如下首先仅在图像上预训练一个LDM然后通过在潜在空间扩散模型中引入时间维度在编码后的图像序列即视频上进行微调将图像生成器转变为视频生成器。对扩散模型的上采样器进行时间对齐将它们转变为时间一致的视频超分辨率模型。本文中作者专注于两个实际相关的应用野外驾驶数据的模拟和基于文本到视频建模的创意内容创作。这种情况下可以通过训练一个时间对齐模型结合预训练图像LDM如SD系列模型转变为一个高效且表现力强的文本到视频模型。 1. 引言 1.图像生成模型发展因基础建模方法突破图像生成模型备受关注强大模型基于生成对抗网络、自回归变换器和扩散模型构建其中扩散模型优势明显训练目标稳健可扩展且并且通常比基于变换器的模型参数更少。 2. 视频建模现状图像领域进展巨大但视频建模滞后。原因是视频数据训练成本高且缺乏合适数据集多数视频合成工作只能生成低分辨率短视频包括之前的视频扩散模型。 3. 研究内容本文将视频模型应用于实际生成高分辨率长视频聚焦两个实际相关问题一是高分辨率真实世界驾驶数据的视频合成可用于自动驾驶模拟二是用于创意内容生成的文本引导视频合成。 4. 研究基础与模型提出本文基于潜在扩散模型LDMs展开研究提出Video LDMs将其应用于高分辨率视频生成任务LDMs可减轻高分辨率图像训练的计算负担。 5. 模型构建方法先在大规模图像数据集在图像上预训练Video LDMs或用现有预训练图像LDMs。通过在潜在空间DM引入时间维度固定预训练空间层的同时仅在编码后的图像序列即视频上训练这些时间层将LDM图像生成器转变为视频生成器图2 图2. 时间视频微调。我们将预训练的图像扩散模型转变为时间一致的视频生成器。最初模型合成的一批不同样本是相互独立的。在时间视频微调后样本在时间上对齐形成连贯的视频。图中可视化了一个一维玩具分布的扩散模型在微调前后的随机生成过程。为清晰起见该图对应于像素空间中的对齐。在实践中我们在LDM的潜在空间中进行对齐并在应用LDM的解码器后获得视频见图3。我们还在像素或潜在空间中对扩散模型上采样器进行视频微调第3.4节。微调LDM解码器在像素空间中实现时间一致性图3 图3. 上在时间解码器微调期间我们使用固定的编码器处理视频序列该编码器独立处理帧并强制跨帧进行时间连贯的重建。我们还使用了一个视频感知判别器。下在LDMs中一个扩散模型在潜在空间中进行训练。它合成潜在特征然后通过解码器将其转换为图像。请注意下图是针对单个帧的可视化关于生成时间一致的帧序列的视频微调框架请见图2。为了进一步提高空间分辨率我们还对像素空间和潜在DM上采样器进行时间对齐这些上采样器广泛用于图像超分辨率将它们转变为时间一致的视频超分辨率模型。模型优势与实验成果Video LDMs 能够以计算和内存高效的方式生成全局连贯且长的视频。作者对方法进行了消融实验实现了最先进的视频质量并合成了长达几分钟的视频。研究意义通过对稳定扩散Stable Diffusion进行视频微调将其转变为一个高效且强大的文本到视频生成器分辨率高达1280×2048。由于在这种情况下我们只需要训练时间对齐层因此可以使用相对较小的带字幕视频训练集。贡献提出高效视频生成方法基于LDMs设计出训练高分辨率、长期一致视频生成模型的高效方式。核心在于借助预训练的图像扩散模型DMs插入能让图像在时间上保持一致的时间层进而将其转化为视频生成器相关原理参考图2和图3。优化超分辨率DMs对常见的超分辨率DMs进行时间微调提升其在视频处理中的性能表现。驾驶场景视频合成突破在真实驾驶场景视频的高分辨率合成领域达到当前最优水平能够生成长达数分钟的视频满足实际应用中对长时间、高质量驾驶场景模拟等的需求。拓展文本到视频应用成功将公开的稳定扩散文本到图像LDM改造为功能强大、表现力丰富的文本到视频LDM极大拓展了模型的应用范围为文本驱动的视频创作提供有力工具。时间层的通用性验证验证了学习到的时间层具有通用性可以和不同的图像模型检查点如DreamBooth结合为个性化视频生成等更多创新应用提供了可能。 2. 背景扩散模型DMs 扩散模型DMs的核心原理建模与训练方法是DMs通过迭代去噪学习对数据分布 p d a t a ( x ) p_{data}(x) pdata(x)建模使用去噪分数匹配法训练。过程如下扩散过程给定样本 x ∼ p d a t a x \sim p_{data} x∼pdata构建扩散后的输入 x τ α τ x σ τ ϵ x_{\tau}\alpha_{\tau}x\sigma_{\tau}\epsilon xτατxστϵ其中 ϵ ∼ N ( 0 , I ) \epsilon \sim N(0, I) ϵ∼N(0,I) α τ \alpha_{\tau} ατ和 σ τ \sigma_{\tau} στ定义了一个噪声调度通过扩散时间 T T T进行参数化使得对数信噪比 λ τ log ⁡ ( α τ 2 / σ τ 2 ) \lambda_{\tau}\log(\alpha_{\tau}^{2}/\sigma_{\tau}^{2}) λτlog(ατ2/στ2)单调递减。去噪器优化去噪器模型 f θ f_{\theta} fθ以扩散后的 x τ x_{\tau} xτ为输入通过最小化 E x ∼ p d a t a , τ ∼ p τ , ϵ ∼ N ( 0 , I ) [ ∥ y − f θ ( x τ ; c , τ ) ∥ 2 2 ] \mathbb{E}_{x \sim p_{data}, \tau \sim p_{\tau}, \epsilon \sim \mathcal{N}(0, I)}[\left\| y - f_{\theta}(x_{\tau}; c, \tau) \right\|_{2}^{2}] Ex∼pdata,τ∼pτ,ϵ∼N(0,I)[∥y−fθ(xτ;c,τ)∥22]进行优化其中 c c c是可选的条件信息例如文本提示目标向量 y y y要么是随机噪声 ϵ \epsilon ϵ要么是 v α τ ϵ − σ τ x v \alpha_{\tau}\epsilon - \sigma_{\tau}x vατϵ−στx。后一种目标通常称为 v v v预测是在渐进蒸馏的背景下引入的[73]在经验上通常能使模型更快收敛在此我们同时使用这两种目标。此外 p τ p_{\tau} pτ是扩散时间 τ \tau τ上的均匀分布。 v α τ ϵ − σ τ x v\alpha_{\tau}\epsilon - \sigma_{\tau}x vατϵ−στx研究中同时使用这两种目标 p τ p_{\tau} pτ是扩散时间 τ \tau τ上的均匀分布。扩散模型的核心其实是前向扩散加入噪声以及反向扩散学习/预测前向扩散加入的噪声并且去除噪声进而生成的过程扩散过程可以在连续时间框架中通过随机微分方程来描述【论文Score-based generative modeling through stochastic differential equations】也可参考图 2 和图 3 中的框架但在实践中可以使用固定的离散化方法DDPM。 DDPM参考Diffusion Model 原理 TODOScore-based generative modeling through stochastic differential equations 最大扩散时间通常选择为使得输入数据完全被扰动为高斯随机噪声并且可以从这种高斯噪声初始化一个迭代生成去噪过程该过程使用学习到的去噪器 f θ f_{\theta} fθ来合成新的数据。在此作者使用 p τ ∼ U { 0 , 1000 } p_{\tau} \sim U\{0, 1000\} pτ∼U{0,1000}并依赖于方差保持噪声调度对于该调度 σ τ 2 1 − α τ 2 \sigma_{\tau}^{2}1-\alpha_{\tau}^{2} στ21−ατ2。在本文的研究中作者设定 p τ ∼ U { 0 , 1000 } p_{\tau} \sim U\{0, 1000\} pτ∼U{0,1000}这意味着扩散时间 τ \tau τ是在0到1000这个区间内均匀分布的随机变量。这种均匀分布决定了在扩散过程中不同扩散时间被选取的概率是相等的。同时作者采用了方差保持噪声调度策略。在这种策略下有一个重要的公式 σ τ 2 1 − α τ 2 \sigma_{\tau}^{2}1-\alpha_{\tau}^{2} στ21−ατ2。这个公式定义了噪声强度随时间的变化关系 σ τ \sigma_{\tau} στ代表在扩散时间为 τ \tau τ时添加的噪声标准差它决定了噪声的强度而 α τ \alpha_{\tau} ατ则与扩散过程的其他特性相关。随着 τ \tau τ在0到1000之间取值变化 α τ \alpha_{\tau} ατ和 σ τ \sigma_{\tau} στ也会相应改变从而调整噪声强度。例如在扩散初期 τ \tau τ可能取较大值 σ τ \sigma_{\tau} στ较大添加的噪声较多数据被扰动得更剧烈随着扩散进行 τ \tau τ逐渐减小 σ τ \sigma_{\tau} στ变小噪声强度降低去噪器 f θ f_{\theta} fθ逐步将数据恢复成有意义的内容详细信息见附录F和H。潜在扩散模型LDMs 上节介绍的扩散模型实际上是在像素空间进行的。而潜在扩散模型LDMs在计算和内存效率上优于像素空间扩散模型DMs简要介绍如下提升效率的原理先训练压缩模型把输入图像转换到复杂度较低的空间低维潜在空间在此空间可高保真重建原始数据以此提升计算和内存效率。实现方式实际通过正则化自动编码器在传统自动编码器基础上引入正则化项抑制模型过拟合提升泛化能力实现该编码器包含编码器模块 ϵ \epsilon ϵ 和解码器 D D D 通过 x ^ D ( ϵ ( x ) ) ≈ x \hat{x}D(\epsilon(x)) \approx x x^D(ϵ(x))≈x重建输入图像见图3。确保重建质量的方法在自动编码器训练时添加对抗目标利用基于补丁的判别器来确保逼真的重建效果。潜在空间DM的优势在压缩的潜在空间训练DM公式1中的 x x x用潜在表示 z ϵ ( x ) z \epsilon(x) zϵ(x)替代。相比于像素空间DMs潜在空间DM的参数数量和内存消耗通常更少。为了确保逼真的重建可以在自动编码器训练中添加对抗目标[65]这可以使用基于补丁的判别器来实现[35]。然后可以在压缩的潜在空间中训练一个DM并且公式1中的 x x x被其潜在表示 z ϵ ( x ) z \epsilon(x) zϵ(x)所取代。与具有相似性能的相应像素空间DMs相比这种潜在空间DM在参数数量和内存消耗方面通常较小。 SD系列模型就是在潜在空间进行扩散的详情可以参考历史文章SD系列专栏 3. 潜在视频扩散模型本部分介绍对预训练的图像LDMs以及DM上采样器进行视频微调以实现高分辨率视频合成。作者假设获取到一个视频数据集 p d a t a p_{data} pdata使得 x ∈ R T × 3 × H ˉ × W ˉ x \in \mathbb{R}^{T×3×\bar{H}×\bar{W}} x∈RT×3×Hˉ×Wˉ x ∼ p d a t a x \sim p_{data} x∼pdata是一个包含 T T T个RGB帧的序列帧的高度和宽度分别为 H ~ \tilde{H} H~和 W ˉ \bar{W} Wˉ。 3.1 将潜在图像转变为视频生成器转变思路如下高效训练思路高效训练视频生成模型的关键在于重用预训练且固定的图像生成模型由参数 θ \theta θ参数化的LDM。模型现有结构构成图像LDM并处理像素维度输入的神经网络层为空间层 l θ i l_{\theta}^{i} lθi i i i是层索引。现有模型局限虽能高质量合成单帧但直接用于渲染 T T T个连续帧视频会失败原因是模型无时间感知能力。改进措施引入额外时间神经网络层 l ϕ i l_{\phi}^{i} lϕi与空间层 l θ i l_{\theta}^{i} lθi交错排列学习以时间一致的方式对齐单个帧。最终模型构成额外时间层 { l ϕ i } i 1 L \{l_{\phi}^{i}\}_{i 1}^{L} {lϕi}i1L定义了视频感知时间骨干网络完整模型 f θ , ϕ f_{\theta, \phi} fθ,ϕ由空间层和时间层组合而成如图4。图4. 左我们通过插入时间层将预训练的潜在扩散模型LDM转变为视频生成器这些时间层能够学习将帧对齐为在时间上连贯一致的序列。在优化过程中图像骨干网络 θ \theta θ保持固定仅训练时间层 l ϕ x l_{\phi}^{x} lϕx的参数 ϕ \phi ϕ参见公式2。右在训练期间基础模型 θ \theta θ将长度为 T T T的输入序列解释为一批图像。对于时间层 l ϕ i l_{\phi}^{i} lϕi这些批次的图像被重新整形为视频格式。它们的输出 z ′ z z′会与空间层的输出 z z z相结合结合时使用一个可学习的融合参数 α \alpha α。在推理过程中跳过时间层即 α ϕ i 1 \alpha_{\phi}^{i}1 αϕi1可得到原始的图像模型。为便于说明图中仅展示了一个U型网络模块。 B B B表示批量大小 T T T表示序列长度 c c c表示输入通道数 H H H和 W W W表示输入的空间维度。当训练预测模型时第3.2节 c s cs cs是可选的上下文帧条件。我们从按帧编码的输入视频 ϵ ( x ) z ∈ R T × C × H × W \epsilon(x)z \in \mathbb{R}^{T×C×H×W} ϵ(x)z∈RT×C×H×W开始其中 C C C是潜在通道的数量 H H H和 W W W是潜在空间的空间维度。空间层将视频视为一批独立的图像通过将时间轴转换为批量维度来实现对于每个时间混合层 l ϕ i l_{\phi}^{i} lϕi我们按如下方式将其重新调整为视频维度使用 einops [64] 表示法 z ′ ← rearrange ( z , ( b t ) c h w → b c t h w ) z \leftarrow \text{rearrange}(z, (b \ t) \ c \ h \ w \to b \ c \ t \ h \ w) z′←rearrange(z,(b t) c h w→b c t h w) z ′ ← l ϕ i ( z ′ , c ) z \leftarrow l_{\phi}^{i}(z, c) z′←lϕi(z′,c) z ′ ← rearrange ( z ′ , b c t h w → ( b t ) c h w ) z \leftarrow \text{rearrange}(z, b \ c \ t \ h \ w \to (b \ t) \ c \ h \ w) z′←rearrange(z′,b c t h w→(b t) c h w) 这里为了表述清晰引入了批量维度 b b b。空间层在批量维度 b b b中独立处理所有 B ⋅ T B \cdot T B⋅T个已编码的视频帧时间层 l ϕ i ( z ′ , c ) l_{\phi}^{i}(z, c) lϕi(z′,c)则在新的时间维度 t t t中处理整个视频。 c c c是可选的条件信息比如文本提示。在每个时间层之后输出 z ′ z z′会与 z z z按照 α ϕ i z ( 1 − α ϕ i ) z ′ \alpha_{\phi}^{i}z (1 - \alpha_{\phi}^{i})z αϕiz(1−αϕi)z′的方式进行组合 α ϕ i ∈ [ 0 , 1 ] \alpha_{\phi}^{i} \in [0, 1] αϕi∈[0,1] 表示一个可学习的参数另见附录D。在实际应用中作者实现了两种不同类型的时间混合层见图4 时间注意力机制基于三维卷积的残差块。我们使用正弦嵌入[28, 89] 为模型提供时间位置编码。使用与基础图像模型相同的噪声调度来训练视频感知时间主干网络。重要的是固定空间层 l θ i l_{\theta}^{i} lθi仅通过以下公式优化时间层 l ϕ i l_{\phi}^{i} lϕi a r g m i n ϕ E x ∼ p d a t a , τ ∼ p τ , ϵ ∼ N ( 0 , I ) [ ∥ y − f θ , ϕ ( z τ ; c , τ ) ∥ 2 2 ] (2) \underset{\phi}{arg min } \mathbb{E}_{x \sim p_{data}, \tau \sim p_{\tau}, \epsilon \sim \mathcal{N}(0, I)}[\left\| y - f_{\theta, \phi}(z_{\tau}; c, \tau) \right\|_{2}^{2}] \tag{2} ϕargminEx∼pdata,τ∼pτ,ϵ∼N(0,I)[∥y−fθ,ϕ(zτ;c,τ)∥22](2) 其中 z T z_{T} zT表示扩散后的编码 z ϵ ( x ) z \epsilon(x) zϵ(x)。通过这种方式只需跳过时间块例如为每一层设置 α ϕ i 1 \alpha_{\phi}^{i}1 αϕi1就可以保留原生的图像生成能力。这种策略的一个关键优势是可以使用巨大的图像数据集来预训练空间层而通常不太容易获得的视频数据则可以用于专注训练时间层。 3.1.1 时间自动编码器微调基于预训练图像LDMs构建的视频模型虽然提高了效率但LDM的自动编码器仅在图像上进行了训练在对时间连贯的图像序列进行编码和解码时会导致闪烁伪影。为了解决这个问题作者为自动编码器的解码器引入了额外的时间层并且使用由三维卷积构建的基于图像块的时间判别器在视频数据上对这些时间层进行微调见图3。需要注意的是编码器与在图像训练时保持不变这样一来在潜在空间中对已编码视频帧进行操作的图像扩散模型就可以重复使用。这一步对于取得良好结果至关重要。 3.2 长视频生成的预测模型局限性尽管第3.1节中描述的方法在生成短视频序列方面效率很高但在合成非常长的视频时却存在局限性。解决方案因此作者还会在给定一定数量最初的 S S S个上下文帧的情况下将模型训练为预测模型通过引入一个时间二进制掩码 m S m_{S} mS来实现这个目标该掩码会遮蔽模型需要预测的 T − S T - S T−S帧其中 T T T是如第3.1节中所述的总序列长度。我们将这个掩码和掩码后的编码视频帧输入模型进行条件设定。具体实现这些帧通过潜在扩散模型LDM的图像编码器 ϵ \epsilon ϵ进行编码然后与掩码相乘接着在经过一个可学习的下采样操作处理后按通道与掩码进行连接被输入到时间层 l ϕ i l_{\phi}^{i} lϕi中见图4。设 c S ( m S ∘ z , m S ) c_{S}(m_{S} \circ z, m_{S}) cS(mS∘z,mS)表示掩码和经过掩码处理编码后的图像在空间上连接后的条件信息。那么公式2中的目标函数可表示为 E x ∼ p d a t a , m S ∼ p S , τ ∼ p τ , ϵ [ ∥ y − f θ , ϕ ( z τ ; c S , c , τ ) ∥ 2 2 ] , ( 3 ) \mathbb{E}_{x \sim p_{data }, m_{S} \sim p_{S}, \tau \sim p_{\tau}, \epsilon}\left[\left\| y-f_{\theta, \phi}\left(z_{\tau} ; c_{S}, c, \tau\right)\right\| _{2}^{2}\right], (3) Ex∼pdata,mS∼pS,τ∼pτ,ϵ[∥y−fθ,ϕ(zτ;cS,c,τ)∥22],(3) 其中 p S p_{S} pS表示分类的掩码采样分布。在实际应用中我们训练的预测模型会基于0个、1个或2个上下文帧来设置条件这样就可以实现如下所述的无分类器引导。推理过程在推理时为了生成长视频我们可以迭代地应用采样过程将最新的预测结果作为新的上下文。过程如下最初的第一个序列是通过基础图像模型合成单个上下文帧然后基于该帧生成下一个序列。之后以两个上下文帧作为条件来对运动进行编码附录中有详细信息。为了稳定这个过程作者发现使用无分类器扩散引导Classifier-free guidance是有益的在采样过程中通过下式引导模型 f θ , ϕ ′ ( z τ ; c S ) f θ , ϕ ( z τ ) s ⋅ ( f θ , ϕ ( z τ ; c S ) − f θ , ϕ ( z τ ) ) f_{\theta, \phi}(z_{\tau}; c_{S}) f_{\theta, \phi}(z_{\tau}) s \cdot (f_{\theta, \phi}(z_{\tau}; c_{S}) - f_{\theta, \phi}(z_{\tau})) fθ,ϕ′(zτ;cS)fθ,ϕ(zτ)s⋅(fθ,ϕ(zτ;cS)−fθ,ϕ(zτ)) 其中 s ≥ 1 s \geq 1 s≥1表示引导尺度为了可读性这里省略了对 τ \tau τ和其他信息 c c c的显式条件设定。作者将这种引导方式称为上下文引导。最终的结果 f θ , ϕ ′ ( z τ ; c S ) f_{\theta, \phi}(z_{\tau}; c_{S}) fθ,ϕ′(zτ;cS) 将原始的无条件预测结果 f θ , ϕ ( z τ ) f_{\theta, \phi}(z_{\tau}) fθ,ϕ(zτ) 与经过条件调整的部分 s ⋅ ( f θ , ϕ ( z τ ; c S ) − f θ , ϕ ( z τ ) ) s \cdot (f_{\theta, \phi}(z_{\tau}; c_{S}) - f_{\theta, \phi}(z_{\tau})) s⋅(fθ,ϕ(zτ;cS)−fθ,ϕ(zτ)) 相加。这意味着最终的结果是在原始预测结果的基础上根据条件信息 c S c_{S} cS 的影响进行调整调整的程度由引导尺度 s s s 控制。这里其实和Transformer的自回归生成相似。上文中帧和序列不一样序列是指一系列按时间顺序排列的帧的集合在第二步中的两个上下文帧的来源于前面已经得到的序列。 3.3 高帧率的时间插值高分辨率视频需兼具高空间分辨率和高时间分辨率高帧率。为此将其合成过程分为两部分第3.1和3.2节的过程可生成语义变化大的关键帧但受内存限制帧率较低。引入一个额外的模型其任务是在给定的关键帧之间进行插值。为了实现这第二点作者使用第 3.2 节中介绍的掩码 - 条件机制。然而与预测任务不同的是需要对插值的帧进行掩码处理 —— 除此之外该机制保持不变即图像模型被改进为视频插值模型。在作者的的实验中通过在两个给定的关键帧之间预测三帧从而训练一个将帧率从 T 提升到 4T 的插值模型。为了实现更高的帧率作者同时在 T 到 4T 和 4T 到 16T 的帧率范围内使用不同帧率的视频训练模型并通过二元条件指定。作者对预测和插值模型的训练方法受到了近期一些视频扩散模型的启发这些模型也使用了类似的掩码技术另见附录C。 3.4 超分辨率模型的时间微调为了将其分辨率提升到百万像素级别。作者从级联DMsSDXL、CogView3等都是级联DMs模型中获得灵感使用一个DM将Video LDM的输出再放大4倍。主要做法如下在驾驶视频合成实验中使用像素空间DM并将分辨率提升到512×1024对于文本到视频模型我们使用LDM上采样器并将分辨率提升到1280×2048。作者使用噪声增强和噪声水平条件并通过下式训练超分辨率SR 模型 g θ , ϕ g_{\theta, \phi} gθ,ϕ在图像或潜在空间上 E x ∼ p d a t a , ( τ , τ γ ) ∼ p τ , ϵ ∼ N ( 0 , I ) [ ∥ y − g θ , ϕ ( x τ ; c τ γ , τ γ , τ ) ∥ 2 2 ] (5) \mathbb{E}_{x \sim p_{data}, (\tau, \tau_{\gamma}) \sim p_{\tau}, \epsilon \sim \mathcal{N}(0, I)}[\left\| y - g_{\theta, \phi}(x_{\tau}; c_{\tau_{\gamma}}, \tau_{\gamma}, \tau) \right\|_{2}^{2}] \tag{5} Ex∼pdata,(τ,τγ)∼pτ,ϵ∼N(0,I)[ y−gθ,ϕ(xτ;cτγ,τγ,τ) 22](5) 其中 c τ γ α τ γ x σ τ γ ϵ c_{\tau_{\gamma}} \alpha_{\tau_{\gamma}}x \sigma_{\tau_{\gamma}}\epsilon cτγατγxστγϵ ϵ ∼ N ( 0 , I ) \epsilon \sim \mathcal{N}(0, I) ϵ∼N(0,I)表示通过连接提供给模型的噪声低分辨率图像 τ γ \tau_{\gamma} τγ是根据噪声调度 α τ \alpha_{\tau} ατ、 σ τ \sigma_{\tau} στ添加到低分辨率图像上的噪声量。噪声增强是指在训练过程中人为地向输入数据通常是低分辨率图像添加噪声的过程。噪声水平条件是指将噪声的水平强度或数量作为模型的一个输入条件。在公式中 τ \tau τ 和 τ γ \tau_{\gamma} τγ 就是噪声水平条件它们是从分布 p τ p_{\tau} pτ 中采样得到的。在上述超分辨率模型的训练公式中噪声增强和噪声水平条件是相互关联的。首先通过噪声增强将噪声添加到低分辨率图像 x x x 中得到 x τ x_{\tau} xτ同时使用噪声水平条件中的参数如 α τ γ \alpha_{\tau_{\gamma}} ατγ 和 σ τ γ \sigma_{\tau_{\gamma}} στγ计算条件变量 c τ γ c_{\tau_{\gamma}} cτγ将噪声添加到原始图像上得到一个新的条件输入。这样超分辨率模型 g θ , ϕ g_{\theta, \phi} gθ,ϕ会根据输入的噪声水平条件学习在不同噪声环境下如何将低分辨率图像转换为高分辨率图像。此外还有一个新的问题独立对视频帧进行上采样会导致时间一致性较差。解决方案使 SR 模型具有视频感知能力。遵循第3.1节机制利用空间层 l θ i l_{\theta}^{i} lθi 和时间层 l ϕ i l_{\phi}^{i} lϕi 对缩放器进行视频微调。以长度为 T T T 的低分辨率序列为条件逐帧连接低分辨率视频图像。仅在图像块上高效训练缩放器后续通过卷积应用模型。总结作者认为LDM与上采样器DM的结合对于高效的高分辨率视频合成是理想的。图5展示了第3.1节至第3.4节所有组件的模型图5. Video LDM架构。我们首先生成稀疏关键帧。然后使用相同的插值模型分两步进行时间插值以实现高帧率。这些操作都基于共享相同图像骨干网络的潜在扩散模型LDMs。最后将潜在视频解码到像素空间并可选地应用视频上采样器扩散模型。 Video LDM的LDM组件利用压缩潜在空间进行视频建模。优势可使用大批次大小能联合编码更多视频帧利于长期视频建模不会有过高的内存需求因为所有视频预测和插值都在潜在空间中进行。上采样器训练方式高效的图像块方式。效果节省计算资源降低内存消耗因低分辨率条件无需捕捉长期时间相关性无需预测和插值框架。相关工作的讨论见附录C。 4. 实验这部分请参考原文此处只做简要介绍数据集用于驾驶场景视频生成和文本到视频任务使用RDS数据集683,060个8秒、512×1024、30fps视频含昼夜标签、拥挤度注释、部分含边界框、WebVid-10M数据集1070万视频-字幕对52,000视频小时调整为320×512以及附录I.2的山地自行车数据集。评估指标采用逐帧FID、FVD因FVD不可靠作者还进行了人工评估文本到视频实验还评估CLIPSIM和IS见附录G。模型架构和采样图像LDM基于[65]使用卷积编码器/解码器潜在空间DM架构基于[10]的U-Net像素空间上采样器DM使用相同图像DM骨干网络实验用DDIM采样更多信息在附录。更多架构、训练、评估、采样和数据集的详细信息见附录。 4.1 高分辨率驾驶视频合成训练过程在RDS数据上训练Video LDM管道及4倍像素空间上采样器基于昼夜和拥挤度条件训练时随机丢弃标签实现不同合成方式。先训练图像骨干LDM的空间层再训练时间层。性能对比以LVG为基线Video LDM在128×256未使用上采样器时性能更优添加条件可降FVD。人工评估显示Video LDM样本在真实感方面更优条件模型样本好于无条件样本。上采样器比较视频微调上采样器与独立逐帧图像上采样对比时间对齐对上采样器性能重要独立上采样致FVD下降但FID稳定。实验结果展示展示结合Video LDM和上采样器的条件样本能生成长达数分钟、时间连贯的高分辨率驾驶视频已验证5分钟结果在附录和补充视频。 4.1.1 消融研究重点提炼在RDS数据集上对比较小的Video LDM与各种基线结果在表1右及附录G。不同模型设置的性能比较对预训练像素空间图像扩散模型应用时间微调策略性能不如原Video LDM。端到端LDM在RDS视频上从头学参无图像预训练FID和FVD大幅下降。引入3D卷积时间层可输入上下文帧性能优于仅用注意力机制的时间模型同空间层和可训练参数。应用上下文引导可降FVD但增FID。此外还做了如下操作分析对包含LDM框架[65]的压缩模型解码器进行视频微调的效果。在RDS数据集上应用微调策略对比重建视频/图像帧的FVD/FID分数。结果表明视频微调使FVD/FID分数有数量级的提升表3。 4.1.2 驾驶场景模拟省略参考原文 4.2 使用稳定扩散的文本到视频 Video LDM方法无需先训练自己的图像LDM骨干网络可利用现有图像LDM转变成视频生成器。将稳定扩散转变为文本到视频生成器使用WebVid-10M数据集训练时间对齐版本对稳定扩散的空间层微调插入时间对齐层和添加文本条件。对稳定扩散潜在上采样器进行视频微调支持4倍上采样生成1280×2048分辨率视频生成的视频含113帧可渲染为不同帧率和时长的片段。能生成超越训练数据的具有表现力和艺术性的视频结合了图像模型风格与视频的运动和时间一致性。评估结果在UCF-101和MSR-VTT评估零样本文本到视频生成除Make-A-Video外优势显著在UCF-101的IS指标上超Make-A-VideoMake-A-Video使用更多数据。 4.2.1 使用DreamBooth的个性化文本到视频时间层转移测试探究Video LDM中图像LDM骨干网络上训练的时间层能否转移到其他模型检查点。使用DreamBooth对稳定扩散的空间骨干网络SD 1.4在少量特定对象图像上微调绑定身份与罕见文本标记。将经过视频调整的稳定扩散中的时间层插入原始稳定扩散模型的新DreamBooth版本用绑定标记生成视频可生成个性化连贯视频并能捕捉训练图像身份验证了时间层可推广到其他图像LDM首次实现个性化文本到视频生成更多结果在附录I。 5. 结论下面是本文的核心模型提出Video Latent Diffusion ModelsVideo LDMs用于高效高分辨率视频生成。关键设计基于预训练图像扩散模型并通过时间对齐层进行时间视频微调转化为视频生成器。计算效率保证利用LDMs可与超分辨率DM结合并进行时间对齐。应用成果合成长达数分钟高分辨率且时间连贯的驾驶场景视频。将稳定扩散文本到图像LDM转变为文本到视频LDM并实现个性化文本到视频生成。时间层特性学习到的时间层可转移到不同模型检查点利用这一点进行个性化文本到视频生成。

查看全文

http://www.w-s-a.com/news/843926/