当前位置：首页 > news >正文

最专业的手机网站制作深圳做响应式网站公司

news 2026/4/8 12:26:34

最专业的手机网站制作,深圳做响应式网站公司,韩雪冬个人网站,做推广的网站名称翻译#xff1a; 摘要本文揭示了草图在扩散模型中的潜力#xff0c;解决了生成式人工智能中直接草图控制的虚假承诺。我们重要的是使这个过程更加普及#xff0c;让业余的草图也能生成精确的图像#xff0c;真正实现“你画的就是你得到的”。一项初步研究强调了这一研究的…翻译摘要本文揭示了草图在扩散模型中的潜力解决了生成式人工智能中直接草图控制的虚假承诺。我们重要的是使这个过程更加普及让业余的草图也能生成精确的图像真正实现“你画的就是你得到的”。一项初步研究强调了这一研究的必要性揭示了现有模型中的畸形问题源于空间条件化。为了修正这一问题我们提出了一个感知抽象的框架利用草图适配器、适应性时间步长采样和来自预训练细粒度基于草图的图像检索模型的判别性指导这些方法协同工作强化了精细的草图与照片的关联。我们的方法在推理过程中无需文本提示简单的、粗略的草图就足够了我们欢迎大家审视论文及其附录中呈现的结果。我们的贡献包括使草图控制民主化引入感知抽象的框架并利用判别性指导这些都通过大量实验得到了验证。解释这篇论文探讨了如何用草图来控制图像生成尤其是通过扩散模型生成式AI的一种先进方法。通常生成式AI模型会根据文本描述来生成图像但现在作者提出了一个新的方式通过草图来直接控制生成的图像。这一方式让普通人也能用简单的草图创造出非常精确的图像而不仅仅是专业艺术家才能做到的事情。在现有的草图生成图像的方法中虽然草图控制看似能够实现“你画的就是你得到的”但实际上如果你的草图画得不够精确生成的图像会出现畸形。作者发现这个问题的根源在于现有模型如何处理草图与图像之间的关系特别是它们如何利用草图的空间信息来生成图像。现有的方法直接把草图的轮廓转化成图像导致了畸形。为了解决这个问题作者提出了一种新的框架这个框架能够处理不同抽象程度的草图不管你画得有多简单或粗糙都能生成高质量的图像。这个方法结合了草图适配器、适应性时间步长采样和来自预训练模型的指导确保草图与生成图像之间的关系更紧密更精确。最重要的是这个方法在生成图像时不需要任何文字提示只需一个简单的草图就能产生预期的图像。翻译引言本文致力于充分挖掘草图在控制扩散模型中的潜力。扩散模型已经取得了显著的影响使得个人能够释放他们的视觉创造力——比如类似“宇航员骑马在火星上”的提示词或者你自己创造的其他“富有创意”的提示尽管在文本到图像的生成中占据主导地位最近的研究开始质疑文本作为一种条件化方式的表现力。这一转变促使我们开始探索草图——这种方式提供了比文本更精细的控制使得生成的内容与实际图像更为接近。其承诺是“你画的就是你得到的”。然而这一承诺是虚假的。目前的研究如 ControlNet、T2I-Adapter主要集中在类似边缘图的草图上——你最好像训练过的艺术家一样画否则“你得到的”图像将真正反映出你“差强人意”草图中的畸形如图1所示。本文的主要目标是使草图控制在扩散模型中民主化使得普通业余画的草图也能生成逼真的图像确保“你得到的”与预期的草图一致无论你画得如何为了实现这一目标我们从草图社区中获得了启示并首次引入了草图抽象感知由于绘画技巧的不同进入生成过程。这种新颖的方法使得不同抽象程度的草图能够引导生成过程同时保持输出的真实度。我们进行了一项初步研究以确认我们研究的必要性见第4节。在这项研究中我们发现现有草图条件化扩散模型的畸变输出源于它们的空间条件化方法——它们直接将草图的轮廓转换为输出图像领域因此产生了畸变输出。传统的通过权重系数或采样技巧来控制空间草图条件化对最终输出的影响通常需要精细调整。通过给草图条件化分配较小的权重来减少输出畸形往往会使输出与文本描述更一致从而减少与指导草图的一致性然而赋予文本提示更高的权重则会引入词汇歧义。相反通过赋予指导草图更高的权重来避免词汇歧义几乎总是会产生畸形且不具备照片现实感的输出。最后草图实例之间条件化权重的“最佳点”是不同的如图2所示。解释这篇论文探讨了如何利用草图来控制图像生成特别是使用扩散模型这是一种先进的图像生成技术。扩散模型能够根据文字描述生成图像像是“宇航员骑马在火星上”这样的提示词已经帮助许多人实现了他们的创意。尽管这种方法非常流行但最近的研究开始质疑单纯依赖文字提示的效果转而探索草图控制生成图像的方法。草图相比文本能够提供更精细的控制使得生成的图像更接近我们的期望。然而现有的方法并没有真正实现“你画的就是你得到的”这一目标。现在的草图控制方法像ControlNet和T2I-Adapter要求你画出类似边缘线条的草图——如果你的画技不好生成的图像就会有畸形。因此论文的目标是让每个人都能用简单的草图生成精确的图像无论你的画技如何都能确保图像和草图一致。为了实现这一点作者引入了一种新的方法称为“草图抽象感知”即考虑到不同的绘画技巧和抽象程度。这样不同抽象程度的草图也能在生成图像时发挥作用同时保证图像的真实感。论文中还指出现有的模型因为直接把草图的轮廓转化为图像导致了输出图像的畸形。因此作者提出了一种新方法避免了这种直接转换能够更好地控制草图对图像生成的影响从而实现更高质量的输出。翻译因此我们的目标是打造一个有效的草图条件化策略不仅在推理过程中无需任何文本提示而且具有感知抽象的能力。我们工作的核心是一个草图适配器它将输入的草图转化为相应的文本嵌入并通过交叉注意力cross-attention引导扩散模型的去噪过程。通过使用智能的时间步长采样策略我们确保去噪过程能够适应输入草图的抽象程度。此外通过利用现成的细粒度基于草图的图像检索FG-SBIR模型的预训练知识我们将判别性指导融入到系统中以增强草图与照片的精确关联。与广泛使用的外部分类器指导不同我们提出的判别性指导机制不需要任何专门训练的分类器来对噪声数据和真实数据进行分类。最后尽管我们的推理管道在推理过程中不依赖文本提示但我们在训练过程中使用合成生成的文本提示通过有限的草图-照片配对数据来学习草图适配器。我们的贡献包括 (i) 我们使草图控制民主化允许普通业余草图生成精确的图像实现了“你画的就是你得到的”的承诺。 (ii) 我们引入了一个感知抽象的框架克服了文本提示和空间条件化的限制。 (iii) 我们通过预训练的细粒度基于草图的图像检索模型利用判别性指导增强草图的精准度。大量实验验证了我们方法在解决这一领域现有局限性方面的有效性。解释这篇论文的目标是创造一个有效的草图控制方法能够在不依赖任何文本提示的情况下生成图像并且能够根据草图的不同“抽象程度”来调整生成过程。核心的技术是草图适配器它能够将一个草图转化为与之对应的“文本描述”然后通过扩散模型的去噪过程生成图像。为了让这个过程适应不同精细程度的草图我们使用了一个聪明的时间步长策略让模型根据草图的复杂度自动调整去噪方式。此外作者还利用了一个预训练的细粒度草图图像检索模型FG-SBIR为模型提供更多的信息来帮助生成图像从而让草图与图像之间的匹配更加精确。不同于其他方法作者提出的判别性指导机制不需要额外训练一个分类器来分辨草图和图像中的噪声而是直接借助现有的预训练模型来完成这个任务。尽管在生成图像时不需要文本提示训练时却使用了合成的文本提示来帮助草图适配器更好地理解草图与图像的关系。总的来说作者的贡献是让普通人也能用草图控制图像生成真正实现“你画的就是你得到的”。提出了一种新的框架可以根据草图的抽象程度自适应调整生成过程克服了传统方法中的一些限制。通过细粒度的草图图像检索模型提供精确的指导增强草图与照片的匹配度。通过大量实验验证了这种方法能够有效解决当前草图生成领域的一些问题。翻译 2.Related Works 扩散模型在视觉任务中的应用扩散模型 [24, 25, 74] 目前已成为不同可控图像生成框架的黄金标准如 DALL-E [57]、Imagen [64]、T2I-Adapter [55]、ControlNet [90] 等。除了图像生成Dreambooth [63]、Imagic [32]、Prompt-to-Prompt [22]、SDEdit [52]、SKED [54] 等方法将其扩展到现实的图像编辑中。除了图像生成和编辑扩散模型还被用于多个下游视觉任务如图像识别 [43]、语义 [2] 和全景 [84] 分割、图像到图像的转换 [79]、医学成像 [15]、图像对应关系 [78]、图像检索 [39] 等。草图在视觉内容创作中的应用继草图基础的图像检索SBIR[3, 11, 66] 取得成功后草图现在被用于其他下游任务如显著性检测 [6]、增强现实 [50, 51]、医学图像分析 [35]、目标检测 [14]、类增量学习 [4] 等。除了大量基于草图的 2D 和 3D 图像生成与编辑框架 [21, 36, 47, 54, 55, 60, 81, 82, 90]草图还在其他视觉内容创作任务中得到广泛应用如动画生成 [73] 和过渡绘制 [72]、服装设计 [12, 46]、漫画生成 [10]、CAD 建模 [44, 88]、动漫编辑 [28] 等。草图到图像S2I生成此前基于GAN的S2I模型通常利用上下文损失 [49]、多阶段生成 [19] 等技术或在预训练的GAN基础上进行潜在映射 [36, 60]。在基于扩散的框架中PITI [82] 训练了一个专门的编码器将引导草图映射到预训练扩散模型的潜在流形上SDEdit [52] 将噪声逐步添加到引导草图上并根据文本提示进行去噪SGDM [81] 训练了一个多层感知机MLP将噪声图像的潜在特征映射到引导草图从而强迫中间的噪声图像紧密跟随引导草图。在更近期的多条件例如深度图、色彩调色板、关键姿势等框架中ControlNet [90] 通过创建可训练的 UNet 编码器副本并与冻结的模型通过零卷积 [90] 连接学习控制冻结的扩散模型而 T2I-Adapter [55] 则学习一个编码器从引导信号例如草图中提取特征并通过将引导特征与每个尺度上的中间 UNet 特征结合来条件化生成过程。虽然现有方法可以从精确的边缘图生成照片级真实图像但它们在处理抽象的手绘草图时存在困难见图1。此外值得注意的是几乎所有基于扩散的 S2I 模型 [52, 55, 81, 82, 90] 都严重依赖于高度工程化且详细的文本提示。解释扩散模型的应用扩散模型目前是图像生成的主流技术许多流行的图像生成框架如 DALL-E、Imagen、ControlNet 等都使用扩散模型。这些模型不仅可以生成图像还扩展到图像编辑和其他视觉任务比如图像识别、语义分割、医学成像等。草图在视觉内容创作中的作用草图在视觉内容创作中得到了广泛应用从图像检索到动画生成、服装设计等多个领域都有它的身影。草图被用来帮助创建和编辑图像甚至在一些复杂的任务中草图也可以作为输入进行自动生成和调整。草图到图像生成S2I 在草图到图像生成方面之前的 GAN生成对抗网络模型通过各种技术如多阶段生成、上下文损失等将草图转换为图像。最近扩散模型也被用于草图生成图像的方法如 PITI、SDEdit 和 SGDM。这些方法通过添加噪声和去噪过程将草图转化为图像但这些方法通常需要精确的草图输入才能生成好的结果。最新的框架如 ControlNet 和 T2I-Adapter进一步改进了这一过程可以控制模型生成特定图像甚至处理多种不同的条件如深度图、颜色等。尽管现有的方法在处理精确的草图时表现良好但它们仍然在处理抽象的、自由手绘的草图时遇到困难。总的来说这一段话总结了扩散模型在图像生成、编辑和其他视觉任务中的广泛应用以及草图在视觉创作中的重要性特别是在将草图转化为真实图像草图到图像生成方面的进展。翻译 3. 重新审视扩散模型 (DM) 概述扩散模型包括两个互补的随机过程即“前向”和“反向”扩散 [25]。前向扩散过程在每个时间步骤 t t t 向干净的训练图像 x 0 ∈ R h × w × 3 x_0 \in \mathbb{R}^{h \times w \times 3} x0∈Rh×w×3 迭代地添加不同幅度的高斯噪声直到生成一个噪声图像 x t ∈ R h × w × 3 x_t \in \mathbb{R}^{h \times w \times 3} xt∈Rh×w×3公式为 x t α ˉ t x 0 1 − α ˉ t ε x_t \sqrt{\bar{\alpha}_t} x_0 \sqrt{1 - \bar{\alpha}_t} \varepsilon xtαˉt x01−αˉt ε 其中 ε ∼ N ( 0 , I ) \varepsilon \sim \mathcal{N}(0, I) ε∼N(0,I) t ∼ U ( 0 , T ) t \sim U(0, T) t∼U(0,T)并且 { α t } 1 T \{\alpha_t\}_{1}^{T} {αt}1T 是一个预定义的噪声调度 α ˉ t ∏ i 1 t α i \bar{\alpha}_t \prod_{i1}^{t} \alpha_i αˉt∏i1tαi [25]。反向扩散过程训练一个修改过的去噪UNet [62]记作 F θ ( ⋅ ) F_\theta(\cdot) Fθ(⋅)该网络估计输入噪声 ε ≈ F θ ( x t , t ) \varepsilon \approx F_\theta(x_t, t) ε≈Fθ(xt,t)从每个时间步骤的噪声图像 x t x_t xt 中恢复噪声。 F θ F_\theta Fθ 使用 l 2 l_2 l2 损失进行训练 [25]可以反转前向扩散过程的效果。在推理过程中从一个来自高斯分布的随机二维噪声 x T x_T xT 开始 F θ F_\theta Fθ 被迭代应用进行 T T T 次时间步骤来去噪每个时间步骤的 x t x_t xt最终得到一个干净的图像 x 0 x_0 x0该图像来自原始目标分布 [25]。无条件的去噪扩散过程可以通过辅助条件信号 d d d例如文本描述 [58, 61, 64]来影响 F θ F_\theta Fθ从而变为“条件式”的。这样 F θ ( x t , t , d ) F_\theta(x_t, t, d) Fθ(xt,t,d) 可以在 x t x_t xt 上执行去噪并通过交叉注意力cross-attention [61] 受到 d d d 的引导。潜在扩散模型 (Latent Diffusion Model) 与标准的扩散模型 [16, 25] 不同潜在扩散模型 [61]即 Stable DiffusionSD在潜在空间中执行去噪扩散以实现更快且更稳定的训练 [61]。SD 首先训练一个自动编码器由编码器 E ( ⋅ ) E(\cdot) E(⋅) 和解码器 D ( ⋅ ) D(\cdot) D(⋅) 串联组成将输入图像 x 0 ∈ R h × w × 3 x_0 \in \mathbb{R}^{h \times w \times 3} x0∈Rh×w×3 转换为其潜在表示 z 0 E ( x 0 ) ∈ R h / 8 × w / 8 × d z_0 E(x_0) \in \mathbb{R}^{h/8 \times w/8 \times d} z0E(x0)∈Rh/8×w/8×d。随后SD 训练一个修改过的去噪UNet [62]记作 ε θ ( ⋅ ) \varepsilon_\theta(\cdot) εθ(⋅)直接在潜在空间中进行去噪。文本提示 d d d 通过一个 CLIP 文本编码器 [56] 传递生成相应的令牌序列该序列通过交叉注意力 [61] 影响 UNet 的中间特征图。SD 训练使用 l 2 l_2 l2 损失函数如下所示 L S D E z t , t , d , ε ( ∣ ∣ ε − ε θ ( z t , t , T ( d ) ) ∣ ∣ 2 2 ) L_{SD} \mathbb{E}_{z_t, t, d, \varepsilon} \left( || \varepsilon - \varepsilon_\theta(z_t, t, T(d)) ||_2^2 \right) LSDEzt,t,d,ε(∣∣ε−εθ(zt,t,T(d))∣∣22) 在推理过程中SD 丢弃编码器 E ( ⋅ ) E(\cdot) E(⋅)直接从高斯分布中采样一个噪声潜变量 z T z_T zT [61]。然后它通过迭代地对 z T z_T zT 进行去噪基于 d d d 进行条件化来估计噪声进行 T T T 次迭代最终得到一个干净的潜在表示 z ^ 0 \hat{z}_0 z^0。冻结的解码器生成最终图像 x ^ 0 D ( z ^ 0 ) \hat{x}_0 D(\hat{z}_0) x^0D(z^0) 解释扩散模型简介扩散模型包括两个阶段前向扩散和反向扩散。在前向扩散阶段我们逐步向图像添加噪声这样图像逐渐变得模糊。反向扩散则是从噪声图像开始通过去噪逐步恢复到原始清晰的图像。这个过程通常是通过一个叫做UNet的神经网络来实现的它在每一步预测图像的噪声然后逐步去除噪声直到恢复出清晰的图像。潜在扩散模型潜在扩散模型的不同之处在于它不直接在图像空间中操作而是在潜在空间中进行操作。潜在空间是图像的压缩表示使得训练和推理过程更加高效。Stable Diffusion 就是一个典型的潜在扩散模型它首先将图像转换为潜在表示然后在这个潜在表示上进行去噪最终通过解码器将潜在表示转换回清晰的图像。此外Stable Diffusion 还结合了文本输入能够根据输入的描述生成图像。总的来说扩散模型是一种非常强大的生成模型通过逐步去噪来生成或编辑图像而潜在扩散模型则通过在潜在空间中操作来提高效率和稳定性。翻译 4. Sketch-to-Image 扩散模型的问题近年来的可控图像生成方法如 ControlNet [90]、T2I-Adapter [55] 等提供了极致的照片级真实感支持不同的条件输入例如深度图、标签掩膜、边缘图等。然而从稀疏的自由手绘草图进行条件化时效果往往不理想见图 1。草图与其他条件输入的比较稀疏且二值的自由手绘草图虽然能提供精细的空间提示 [6, 14, 89]但通常会表现出显著的形状畸变 [17, 23, 65]并且相比于深度图、法线图或像素级分割掩膜等像素精确的条件信号其上下文信息要少得多 [79]。因此从自由手绘草图进行条件化并不是一件简单的事需要以不同的方式处理与其他像素精确的条件信号有所区别。草图与文本条件化一个权衡之前的 S2I 扩散模型 [55, 81, 90] 面临两个主要挑战。首先生成输出的质量高度依赖于准确的文本提示 [90]如果提示不一致或缺乏合适的提示会对结果产生负面影响见图 3 [55, 90]。其次确保草图和文本条件对最终输出的影响平衡需要人工干预这可能是一个挑战。调整这些因素的权重通常会导致输出在文本一致性和草图的保真度之间进行权衡 [55]。在某些情况下给文本较高的权重可能导致词义模糊 [71]而优先考虑草图则往往会产生失真且不具备照片级真实感的结果 [55, 81]。因此现有的 S2I 扩散模型 [55, 81] 要想实现照片级真实感输出需要对这些权重进行细致的微调而最佳平衡对于不同的草图实例可能会有所不同正如图 2 所示。草图的空间条件化问题我们发现现有的草图条件化扩散模型 [55, 81, 90] 输出中的畸形和非照片级真实感例如图 2 中的边缘溢出主要是由于它们的空间条件化方法所导致的。T2I-Adapter [55] 将条件草图的空间特征直接整合到 UNet 编码器的特征图中而 ControlNet [90] 则将这种方法应用到跳跃连接和中间块中。另一方面SGDM [81] 将噪声图像的潜在特征投影到空间边缘图上引导去噪过程按照边缘图进行处理。此外这些模型通常使用合成生成的 [7, 76, 83] 边缘图/轮廓进行训练和测试而不是使用真实的自由手绘草图。与此不同我们的目标是为真实的自由手绘草图设计一个有效的条件化策略同时确保输出真实地反映最终用户的语义意图 [36]而没有畸变。解释草图条件化扩散模型的问题一些先进的图像生成模型如 ControlNet 和 T2I-Adapter能够生成非常真实的图像支持多种不同的输入条件比如深度图、标签掩膜和边缘图。但当我们使用稀疏的自由手绘草图时这些模型的表现就不那么理想了。草图与其他输入条件的区别手绘草图通常只提供了大致的空间信息而不像深度图或分割掩膜那样提供精确的像素信息。草图虽然能描述物体的大体轮廓但往往会出现形状变形和缺乏足够的上下文信息。相比之下像深度图和分割掩膜这类像素精确的条件信号要更可靠。因此使用草图进行图像生成需要特别的处理方式。草图与文本输入的权衡早期的草图到图像S2I扩散模型有两个主要问题第一生成的图像质量依赖于非常精确的文本提示。如果提示不准确或不合适生成的结果就会很差。第二如何平衡草图和文本对生成图像的影响是一个挑战。我们需要调整草图和文本的权重这样才能在保留草图细节的同时确保文本描述的准确性。如果文本的权重过大生成的图像可能会出现词义模糊的情况而如果草图的权重大图像可能会出现失真。因此现有的 S2I 扩散模型通常需要对这些权重进行复杂的调节。草图的空间条件化问题我们发现现有的草图条件化模型会因为其空间条件化方法的问题导致生成的图像出现畸变如边缘溢出。例如T2I-Adapter 会直接将草图的空间特征加到模型的编码器特征中ControlNet 则将草图特征用于跳跃连接和中间层。SGDM 则通过将噪声图像的特征映射到边缘图来引导去噪过程。然而这些模型通常使用合成的边缘图进行训练而不是使用真实的自由手绘草图这使得它们在真实应用中效果较差。我们的目标是为自由手绘草图设计一种有效的条件化策略同时确保输出能够真实反映用户的意图避免出现畸变。翻译 5. 提出的研究方法概述我们旨在通过将输入草图转换为等效的精细文本嵌入来消除空间草图条件化从而在不进行像素级空间对齐的情况下保留用户的语义意图。因此我们的方法将缓解空间畸变例如形状畸变、边缘溢出等的问题同时保持对输入草图的精细保真度。我们提出了三项重要设计见图 4 精细判别损失用于保持草图与照片之间的精细对应关系第 5.2 节。用文本提示指导训练过程文本提示在推理过程中不使用但作为超概念的保留手段第 5.3 节。草图抽象感知的时间步采样与以往研究中采用均匀时间步采样如[81, 90]不同我们引入了草图抽象感知的时间步采样第 5.4 节。对于高度抽象的草图分配更大的时间步t的概率反之亦然。 5.1 草图适配器为了缓解现有草图条件化扩散模型如 ControlNet [90]T2I-Adapter [55]直接空间条件化方法的显著缺点见第 4 节我们采取了一种并行方法通过交叉注意力来“草图条件化”生成过程。具体来说我们不将输入草图作为空间信息处理而是将其编码为一系列特征向量 [42]即等效的精细文本嵌入。直接的空间条件化强制模型记住上下文信息而不是理解它 [85]。这导致强烈的草图特征例如笔画边界直接转化为输出的照片。为了解决这个问题我们通过草图适配器将空间草图输入压缩为瓶颈表示从而增加问题的难度。特别地给定一个草图 s s s我们使用预训练的 CLIP [56] ViT-L/14 图像编码器 V ( ⋅ ) V(\cdot) V(⋅) 生成其块状草图嵌入 s V ( s ) ∈ R 257 × 1024 s V(s) \in \mathbb{R}^{257 \times 1024} sV(s)∈R257×1024。我们的草图适配器 A ( ⋅ ) A(\cdot) A(⋅) 包括一维卷积和基础注意力模块 [80]然后是全连接层。卷积和全连接层处理文本和草图嵌入之间的维度不匹配即 R 257 × 1024 → R 77 × 768 \mathbb{R}^{257 \times 1024} \to \mathbb{R}^{77 \times 768} R257×1024→R77×768而注意力模块则解决了草图和文本域之间的巨大差距。通过草图适配器 A ( ⋅ ) A(\cdot) A(⋅) 传递后块状草图嵌入 s s s 生成等效的文本嵌入 s ^ A ( s ) ∈ R 77 × 768 \hat{s} A(s) \in \mathbb{R}^{77 \times 768} s^A(s)∈R77×768。现在将文本条件化在公式 (2) 中替换为我们提出的草图适配器条件化修改后的损失目标变为 L S D E z t , t , s , ε ( ∣ ∣ ε − ε θ ( z t , t , A ( V ( s ) ) ) ∣ ∣ 2 2 ) (3) L_{SD} \mathbb{E}_{z_t,t,s,\varepsilon} \left( || \varepsilon - \varepsilon_\theta(z_t, t, A(V(s))) ||_2^2 \right) \tag{3} LSDEzt,t,s,ε(∣∣ε−εθ(zt,t,A(V(s)))∣∣22)(3) 训练完成后草图适配器能高效地将输入草图 s s s 转换为其等效的文本嵌入 s ^ \hat{s} s^通过交叉注意力来控制 SD [61] 的去噪过程。然而仅通过我们提出的草图适配器进行条件化仍然面临多个挑战稀疏的自由手绘草图和像素精确的照片之间存在巨大的域差异。文本到图像的扩散模型的标准 l 2 l_2 l2 损失 [61] 并不足以确保草图和照片之间的精细匹配。从有限的草图-照片对中训练一个鲁棒的草图适配器是困难的。因此在训练过程中我们使用伪文本作为学习信号来指导草图适配器的训练。请注意我们的推理流程中不涉及任何文本提示。草图适配器对所有草图样本一视同仁不考虑其抽象级别。尽管这种平等对待可能足以处理密集的像素级条件化但对于稀疏的草图来说就不够充分了因为不同抽象级别的草图在语义上并不相等 [5, 86]。解释提出的方法我们提出的方案旨在通过将草图转换为精细的文本嵌入而不是依赖空间条件化从而避免了空间畸变如形状扭曲、边缘溢出等的出现同时保持草图的精细细节。这种方法不需要像传统方法那样对草图进行像素级对齐而是通过文本嵌入来保留用户的语义意图。我们设计了三项关键创新精细判别损失用于保证草图和照片之间的精确对应关系。用文本提示指导训练在训练过程中使用文本提示来帮助模型理解超概念推理时不再使用文本提示。草图抽象感知的时间步采样对于抽象的草图我们会给更高的时间步采样概率反之则给低时间步采样更高的概率。草图适配器为了克服现有草图条件化扩散模型的缺陷我们提出了草图适配器这种方法不直接处理草图的空间信息而是将草图编码成一个特征向量序列类似于文本嵌入。直接的空间条件化往往只能“记住”草图的边界特征但无法理解其语义内容。我们通过草图适配器将草图压缩成更简洁的表示从而帮助模型更好地理解和生成图像。在具体实现中我们使用预训练的 CLIP 编码器来生成草图的嵌入并通过草图适配器将其转换为一个等效的文本嵌入。通过这种方式草图的嵌入在去噪过程中与文本信息进行交叉注意力从而帮助模型生成更符合草图意图的图像。尽管这种方法效果显著但也面临一些挑战草图和真实照片之间的差异非常大标准的损失函数并不能保证两者之间的细节对齐。训练草图适配器需要大量的草图和照片配对数据但这些数据有限。草图适配器没有考虑草图的抽象级别不同抽象级别的草图可能有不同的语义含义这也给训练带来了难度。 5.2. 精细判别学习为了确保稀疏的自由手绘草图和像素级完美照片之间有精细的匹配我们使用了一个预训练的精细化草图-照片匹配FG-SBIR模型 F g ( ⋅ ) F_g(\cdot) Fg(⋅)。在这个模型中照片和它配对的草图会出现在一个相似的空间中相对于其他不配对的照片和草图来说它们更接近。之前的一些尝试通过使用外部的判别模型来指导扩散过程比如使用分类器指导classifier-guidance[16]。但是这些方法需要一个预训练的分类器能够同时对噪声数据和真实数据进行分类以帮助去噪过程。然而我们的FG-SBIR模型并没有在噪声数据上进行训练因此它只能在每个时间步骤 t t t 上使用清晰的图像进行处理无法直接处理噪声数据。为了在去噪过程中利用这个模型我们需要从噪声图像 z t z_t zt 中估计出清晰图像 z 0 z_0 z0。具体来说我们使用Tweedie公式来从第 t t t步的噪声潜在图像 z t z_t zt 中一步估计出清晰的潜在图像 z ^ 0 \hat{z}_0 z^0以便高效训练 z ^ 0 ( z t ) : z t − 1 − α ˉ t ε θ ( z t , t , A ( V ( s ) ) ) α t \hat{z}_0(z_t) : z_t - \frac{\sqrt{1 - \bar{\alpha}_t} \, \varepsilon_{\theta}(z_t, t, A(V(s)))}{\sqrt{\alpha_t}} z^0(zt):zt−αt 1−αˉt εθ(zt,t,A(V(s))) 通过把 z ^ 0 \hat{z}_0 z^0传递到SD模型中的VAE解码器 D ( ⋅ ) D(\cdot) D(⋅)我们可以近似得到清晰的图像 x ^ 0 \hat{x}_0 x^0。为了训练我们的草图适配器 A A A我们使用了一个判别性SBIR损失函数计算草图和生成图像之间的余弦相似度 δ ( ⋅ , ⋅ ) \delta(\cdot, \cdot) δ(⋅,⋅) L S B I R 1 − δ ( F g ( s ) ⋅ F g ( x ^ 0 ) ) L_{SBIR} 1 - \delta(F_g(s) \cdot F_g(\hat{x}_0)) LSBIR1−δ(Fg(s)⋅Fg(x^0)) 这个损失函数帮助我们确保草图和生成的图像之间有更好的匹配。解释为了让手绘草图和真实照片之间的细节更加匹配我们使用了一个已经训练好的模型这个模型能够帮助我们判断草图和照片的相似度。这个模型把草图和照片放在一个共同的“空间”里越接近的就说明它们越相似。不过这个模型只能处理清晰的图片所以我们不能直接把它用在噪声图片上。为了让这个模型适用于去噪的过程我们用一个公式从有噪声的图片中还原出清晰的图片。然后我们通过比较草图和生成的图片之间的相似度来训练我们的草图适配器让它更好地把草图转换成合适的图像。这就像我们通过用草图和真实图像之间的相似度作为参考帮助模型学习如何更好地“理解”草图并生成接近真实的图像。 5.3. 超概念保留损失草图和文本之间本身存在互补性[13]。一段图像的文本描述可以在嵌入空间中对应多个合理的照片。然而加入草图后范围会缩小到特定的图像[13, 70]即更细粒度。我们认为文本描述比草图更不细致[13, 75, 85]它作为草图的超概念存在。虽然我们在推理过程中不使用任何文本提示但在训练草图适配器时我们希望使用文本提示。基于文本的图像生成模型如SD模型是通过大量的文本-图像对进行训练的[61]因此它们具有很强的文本-图像生成能力尽管不是非常细粒度的[18]。因此我们希望利用来自文本描述的超概念知识通过文本-图像生成能力来帮助我们训练草图适配器即使我们只有有限的草图-照片配对数据。由于我们的草图-照片数据集 s , p s, p s,p[69]缺少配套的文本描述我们使用一个预训练的最先进图像描述生成模型[45]为每张真实照片生成一个文本描述 d d d。然后在每个时间步 t t t通过文本条件生成的噪声 T ( d ) T(d) T(d)作为参考计算正则化损失来训练草图适配器 A A A公式如下 L r e g ∣ ∣ ε θ ( z t , t , T ( d ) ) − ε θ ( z t , t , A ( V ( s ) ) ) ∣ ∣ 2 2 L_{reg} ||\varepsilon_{\theta}(z_t, t, T(d)) - \varepsilon_{\theta}(z_t, t, A(V(s)))||^2_2 Lreg∣∣εθ(zt,t,T(d))−εθ(zt,t,A(V(s)))∣∣22 解释草图和文字在生成图像时可以互相补充。文字描述可以对应多张不同的照片但是当我们加入草图时它就限定了生成图像的范围使得生成的图像更精细。我们认为文本描述比草图更粗略因此可以被看作是草图的“超概念”。虽然我们在推理阶段不使用文本提示但在训练草图适配器时我们使用了文本描述。我们的草图和照片的数据集并没有包含文本描述因此我们使用了一个已经训练好的图像描述生成模型为每张照片生成一个文本描述。然后在每个训练步骤中我们用这个文本描述生成的噪声来帮助训练草图适配器让它更好地“理解”草图与图像之间的关系从而生成更精确的图像。 5.4. 具备抽象意识的重采样现有文献[26, 27, 55, 85]表明在去噪过程中的早期阶段输出图像的高级语义结构往往最先显现而更精细的外观细节则是在后期出现。合成的像素完美条件信号例如深度图[59]、关键姿势[8]、边缘图[7]等通常抽象程度较低[23]。与此不同的是人工绘制的自由手绘草图展现了不同的抽象层次这些层次受技能、风格和主观解读等因素的影响[65, 67]。因此对于抽象程度较高的草图使用均匀时间步重采样[27]可能会影响输出生成质量和草图的还原度。为此我们提出根据输入草图的抽象程度来调整时间步的重采样过程[87]。对于高度抽象的草图我们会倾向于将重采样的概率分布偏向于后期的 t t t值这些 t t t值通常决定了输出的高级语义。与其从均匀分布 t ∼ U ( 0 , T ) t \sim U(0, T) t∼U(0,T)中抽样我们采用以下公式进行抽样 S ω ( t ) 1 T ( 1 − ω cos ⁡ π t T ) S_\omega(t) \frac{1}{T} \left(1 - \omega \cos \frac{\pi t}{T}\right) Sω(t)T1(1−ωcosTπt) 其中 S ω ( t ) S_\omega(t) Sω(t)是我们提出的具备抽象意识的 t t t重采样函数 ω ∈ ( 0 , 1 ] \omega \in (0, 1] ω∈(0,1]控制了这个重采样概率密度函数的偏斜程度。随着 ω \omega ω向1靠近重采样时获得较大 t t t值的概率增加如图5所示。我们希望使得这个偏斜控制的 ω \omega ω值能够根据草图的抽象程度进行调整。接下来问题是如何量化自由手绘草图的抽象程度。受到[87]的启发我们设计了一个基于CLIP[56]的通用分类器草图分类器并结合了MagFace[53]的损失函数其中草图特征 a ∈ [ 0 , 1 ] a \in [0, 1] a∈[0,1]的 l 2 l_2 l2范数表示草图与其对应类中心的接近程度。当 a → 1 a \to 1 a→1时表示草图类似于边缘图抽象程度较低当 a → 0 a \to 0 a→0时表示草图高度抽象和变形。我们认为边缘图由于较少变形即更容易分类会在潜在空间中靠近其类中心。而自由手绘草图由于更抽象和变形即更难分类会远离其类中心。因此我们训练草图分类器使用草图和从Sketchy数据集[69]合成的边缘图进行训练并采用以下分类损失 L a b s − log ⁡ e s cos ⁡ ( θ y i m ( s i ) ) e s cos ⁡ ( θ y i m ( s i ) ) ∑ j ≠ y i e s cos ⁡ θ j λ g g ( s i ) L_{abs} - \log \frac{e^s \cos(\theta_{y_i} m(s_i))}{e^s \cos(\theta_{y_i} m(s_i)) \sum_{j \neq y_i} e^s \cos \theta_j \lambda_g g(s_i)} Labs−logescos(θyim(si))∑jyiescosθjλgg(si)escos(θyim(si)) 其中 s s s是全局标量值 θ y i \theta_{y_i} θyi是第 i i i个草图样本 s i V ( s i ) ∈ R d s_i V(s_i) \in \mathbb{R}^d siV(si)∈Rd经过CLIP[56]视觉编码器提取的全局视觉特征的余弦相似度 y i y_i yi表示对应的类别标签 m ( s i ) m(s_i) m(si)是基于幅度的边距参数 g ( s i ) g(s_i) g(si)是超参数控制的正则化项有关详细信息见[53]。使用训练好的分类器给定草图 s s s时抽象分数 a ∈ [ 0 , 1 ] a \in [0, 1] a∈[0,1]通过提取的草图特征 V ( s ) V(s) V(s)的 l 2 l_2 l2范数来计算。为了与 ω \omega ω保持一致我们对 a a a取补得到与草图实例相关的 ω ← ( 1 − a ) \omega \leftarrow (1 - a) ω←(1−a)然后将 ω \omega ω值裁剪到[0.2, 0.8]范围内。总之我们使用具备抽象意识的 t t t重采样对草图适配器 A ( ⋅ ) A(\cdot) A(⋅)进行训练最终损失函数为 L t o t a l λ 1 L S D λ 2 L S B I R λ 3 L r e g L_{total} \lambda_1 L_{SD} \lambda_2 L_{SBIR} \lambda_3 L_{reg} Ltotalλ1LSDλ2LSBIRλ3Lreg 在推理阶段我们计算输入草图的抽象分数通过分类器特征的 l 2 l_2 l2范数。根据抽象层次我们执行 t t t重采样。输入的草图经过适配器 A A A后控制去噪过程并生成最终的输出。解释在生成图像时图像的整体结构例如物体的大致轮廓会先出现而细节部分会在后面才表现出来。人工绘制的草图不同于完美的图像它们可能更抽象意思是草图的细节和精确度可能不同。为了让我们的生成模型更好地处理这些不同抽象程度的草图我们设计了一种方法可以根据草图的抽象程度来调整模型的生成过程。具体来说我们会根据草图的抽象程度例如草图的细节是否清晰是否比较模糊来决定生成图像时模型的工作方式。如果草图很抽象比如很模糊或者很简单我们就调整模型去更多地关注图像的整体结构推迟细节的生成。我们还设计了一种方法来量化草图的抽象程度用一个分类器来判断草图是简单还是复杂并根据这个判断调整生成的方式。这样生成出来的图像不仅会保持草图的抽象程度还会使图像的细节和整体更一致。 7. 结论我们的工作在推广草图控制在扩散模型中的应用方面迈出了重要一步。我们揭示了当前方法的局限性展示了基于草图的生成式AI的误导性承诺。通过引入一个具备抽象意识的框架包括草图适配器、适应性时间步重采样和判别性指导我们使得业余水平的草图能够在推理过程中无需文本提示的情况下生成精确且高保真的图像。我们欢迎社区对我们的结果进行深入审视。请参考演示视频了解与当前最先进技术的实时比较。解释我们这项工作在使草图能够更好地控制生成图像方面取得了重要进展。我们指出了现有方法的局限性揭示了很多基于草图的生成AI看起来很有前景但其实并不能完全达到预期效果。通过引入一种新方法我们的模型能够通过草图来生成更精确和高质量的图像而且在推理过程中不需要任何文本提示。这对于没有专业绘画技能的人来说仍然能生成很好的图像。我们希望其他研究人员能够对我们的工作进行评估了解它的效果。你也可以通过观看我们的演示视频看到我们的方法和当前最先进技术的实时对比。

查看全文

http://www.w-s-a.com/news/578147/