当前位置：首页 > news >正文

公司网站做首页大图北京企业网站搭建

news 2025/12/30 8:54:48

公司网站做首页大图,北京企业网站搭建,wordpress 获取分类,全网营销解决方案2024-arXiv-CtrLoRA: An Extensible and Efficient Framework for Controllable Image Generation CtrLoRA#xff1a;一种可扩展且高效的可控图像生成框架摘要1. 引言相关工作3. 方法3.1 准备工作3.3 有效适应新条件3.4 条件嵌入网络的设计 4. 实验4.1 实验设置4.2 与现有方法… 2024-arXiv-CtrLoRA: An Extensible and Efficient Framework for Controllable Image Generation CtrLoRA一种可扩展且高效的可控图像生成框架摘要1. 引言相关工作3. 方法3.1 准备工作3.3 有效适应新条件3.4 条件嵌入网络的设计 4. 实验4.1 实验设置4.2 与现有方法的比较4.3 消融研究4.4 其他实验 5. 结论与局限性参考文献 CtrLoRA一种可扩展且高效的可控图像生成框架作者Yifeng Xu, Zhenliang He, Shiguang Shan, Xilin Chen 单位Key Lab of AI Safety, Institute of Computing Technology, CAS, China, University of Chinese Academy of Sciences, China 论文地址2024-arXiv-CtrLoRA: An Extensible and Efficient Framework for Controllable Image Generation 摘要最近大规模扩散模型在文本到图像T2I生成方面取得了令人瞩目的进展。为了进一步使这些 T2I 模型具备细粒度的空间控制能力ControlNet 等方法引入了一个额外的网络来学习遵循条件图像。但是对于每一种条件类型ControlNet 都需要对数百万个数据对进行独立训练耗费数百个 GPU 小时这非常昂贵并且使普通用户难以探索和开发新类型的条件。为了解决这个问题我们提出了 CtrLoRA 框架该框架训练 Base ControlNet 以从多个基本条件中学习图像到图像生成的常识同时训练特定于条件的 LoRA 以捕捉每种条件的不同特征。利用我们预先训练的 Base ControlNet用户可以轻松地将其适应新条件在大多数情况下只需 1,000 个数据对和不到一小时的单 GPU 训练即可获得满意的结果。此外与 ControlNet 相比我们的 CtrLoRA 将可学习参数减少了 90%大大降低了分配和部署模型权重的门槛。在各种条件下进行的大量实验证明了我们方法的效率和有效性。代码和模型权重将在 https://github.com/xyfJASON/ctrlora 发布。图 1我们的单条件生成、多条件生成、风格转换的结果。 1. 引言近年来扩散模型Sohl-Dickstein et al., 2015; Song Ermon, 2019; Ho et al., 2020已成为视觉生成和编辑任务中最流行的生成模型之一。扩散模型的卓越性能和可扩展性鼓励研究人员在数十亿个文本-图像对上训练大型模型Schuhmann et al., 2022从而产生了强大且有影响力的文本到图像T2I基础模型Rombach et al., 2022; Saharia et al., 2022; Ramesh et al., 2022; Betker et al., 2023; Chen et al., 2024; Xue et al., 2024。此外通过将这些基础模型与 LoRAHu et al., 2022; Ryu, 2022等参数高效微调PEFT方法相结合用户无需大量训练数据和计算资源即可获得个性化模型这大大降低了将 T2I 基础模型扩展到各种艺术创作的门槛。利用 “Base PEFT” 范式尤其是 “Stable Diffusion LoRA”包括艺术家在内的众多技术和非技术背景的个人都采用了这种方法进行艺术创作形成了一个庞大的社区和技术生态系统。然而T2I 模型很难准确控制布局和姿势等空间细节因为仅靠文本提示不足以精确传达这些细节。为了解决这个问题ControlNetZhang et al., 2023增加了一个接受条件图像的额外网络将 T2I 模型转变为图像到图像I2I模型。通过这种方式ControlNet 能够根据特定类型的条件图像例如 canny edge生成图像从而显著提高可控性。然而对于每种条件类型都需要使用大量数据和计算资源从头开始训练一个独立的 ControlNet。例如以 canny edge 为条件的 ControlNet 需要大约 600 个 A100 GPU 小时对 300 万张图像进行训练。如此庞大的预算使得普通用户很难为一种新型条件图像创建 ControlNet与蓬勃发展的 Stable Diffusion 社区相比这阻碍了 ControlNet 社区的发展1。因此值得寻找一个简单而经济的解决方案来扩展有前景的 ControlNet 来处理新型条件图像。 1 截至 2024 年 9 月 24 日在最受欢迎的 AI 艺术模型存储库之一 civitai.com 上有 1024 个模型带有 Stable Diffusion 标记而只有 56 个模型带有 ControlNet 标记。为了解决这个问题受 “Base PEFT” 范式的启发我们提出了一个 CtrLoRA 框架使用户可以方便高效地为自定义类型的条件图像建立控制网络。如图 2(a) 所示我们首先在大规模数据集上跨多个基本条件到图像任务例如 canny-to-image、depth-to-image 和 Skeleton-to-image训练一个 Base ControlNet其中网络参数由所有这些基本条件共享。同时对于每个基本条件我们向 Base ControlNet 添加一个特定于条件的 LoRA。通过这种方式特定于条件的 LoRA 可以捕获相应条件的独特特征从而使 Base ControlNet 能够专注于同时从多个条件学习图像到图像I2I生成的共同知识。因此通过训练新的 LoRA 层可以轻松将训练有素且具有通用 I2I 能力的基本控制网络扩展到任何新条件如图 2(b) 所示。在大多数情况下借助我们的框架我们只需 1,000 个训练数据在单个 GPU 上训练不到一小时即可学习定制类型的条件。此外我们的方法每个新条件仅需要 3700 万个 LoRA 参数与原始 ControlNet 为每个条件所需的 3.61 亿个参数相比这是一个显着的减少。总之与原始 ControlNet 相比我们的方法大大降低了资源需求如表 1 所示。图 2CtrLoRA 框架概览。“CN” 表示 Base ControlNet“L” 表示 LoRA。a我们首先在包含多个基本条件的大规模数据集上结合条件特定 LoRA 训练共享 Base ControlNet。b训练后的 Base ControlNet 可以轻松适应新条件且所需数据、设备和时间明显更少。表 1模型大小、数据集大小和训练时间成本的比较。对于 $N$ 个条件ControlNet 的参数总数为 361${\rm M}×N$而我们的 CtrLoRA 的参数总数为 360${\rm M}$37${\rm M}×N$。我们的贡献总结如下我们提出了一个有效且高效的可扩展图像到图像生成框架。该框架利用共享的 Base ControlNet 来学习图像到图像生成的常识同时采用特定于条件的 LoRA 来捕获每个图像到图像任务的独特特征。通过训练新的 LoRA 层我们的 Base ControlNet 可以轻松且经济地适应新条件与原始 ControlNet 相比这需要的资源要少得多包括减少训练数据、缩短训练时间和减小模型大小。因此我们的方法大大降低了普通用户创建自定义 ControlNet 的门槛。无需额外训练我们的 Base ControlNet 和 LoRA 就可以无缝集成到公共社区的各种基于 Stable Diffusion 的模型中。此外针对不同条件训练的 LoRA 可以轻松组合以实现更精细、更复杂的控制。我们优化了条件嵌入网络的设计和初始化策略大大加快了训练收敛速度。而且通过这种方式我们就不会观察到原始ControlNet中出现的突然收敛现象。相关工作扩散模型。扩散模型最初由 Sohl-Dickstein et al. (2015) 提出并由 Song Ermon (2019); Ho et al. (2020); Song et al. (2021b); Dhariwal Nichol (2021); Ho Salimans (2022); Bao et al. (2023); Peebles Xie (2023), etc. 进行了实质性开发作为一种生成模型已广受欢迎。为了进一步增强扩散模型的表现力研究人员提出在变分自动编码器Kingma Welling, 2013的潜在空间Vahdat et al., 2021; Rombach et al., 2022中对扩散过程进行建模从而实现高分辨率图像生成。本文提出的 CtrLoRA 建立在广泛使用的潜在扩散模型 Stable DiffusionRombach et al., 2022的基础上。条件生成。为了推进文本到图像T2I生成研究人员将 CLIPRadford et al., 2021或 T5Raffel et al., 2020中的文本嵌入纳入扩散模型从而形成强大的大规模 T2I 模型Nichol et al., 2022; Ramesh et al., 2022; Rombach et al., 2022; Balaji et al., 2022; Saharia et al., 2022。为了实现更细粒度的控制一些方法Li et al., 2023; Zhang et al., 2023; Mou et al., 2024将空间条件注入模型显著增强了可控性。例如ControlNetZhang et al., 2023引入了一个辅助网络来处理条件图像并将该网络集成到 Stable Diffusion 模型中。然而为每个单一条件训练一个ControlNet需要大量的数据和时间造成了相当大的负担。为了解决这个问题ControlNet-XSZavadski et al., 2023优化了网络架构以加快训练收敛速度。UniControlQin et al., 2024和 Uni-ControlNetZhao et al., 2024训练一个统一的模型来管理多个条件大大减少了模型数量。然而这两种方法缺乏一种直接、方便用户添加新条件的方式这限制了它们在实际场景中的实用性。相比之下我们的方法可以用更少的数据和更少的资源有效地学习新条件。低秩自适应。低秩自适应LoRA是一种众所周知的技术用于对大型语言模型Hu et al., 2022和图像生成模型Ryu, 2022进行参数高效的微调。该方法遵循以下假设在微调过程中模型权重的更新具有较低的 “固有秩”可以用低秩分解 Δ W B A \Delta WBA ΔWBA 表示其中 B ∈ R d × r , A ∈ R r × d B \in \mathbb{R}^{d \times r}, A \in \mathbb{R}^{r \times d} B∈Rd×r,A∈Rr×d且 r ≪ d r\ll d r≪d。在实践中LoRA 显著减少了可优化参数的数量同时保持了良好的性能。尽管 LoRA 广泛与 Stable DiffusionRombach et al., 2022结合用于定制图像生成但它很少与另一种著名的图像生成技术 ControlNetZhang et al., 2023一起使用。我们认为主要原因是 ControlNet 是针对不同条件单独训练的因此不适合作为可在各种条件下共享的基础模型。在本文中我们研究了一种与 LoRA 技术合作训练 Base ControlNet 作为基础模型的新方法。 3. 方法在本节中我们介绍了可扩展图像到图像I2I生成的 CtrLoRA 框架的设计和训练策略。在第 3.1 节中我们介绍了基本公式并阐明了相关符号。在第 3.2 节中我们提出了 Base ControlNet作为各种 I2I 生成任务的基础模型。在第 3.3 节中我们说明了如何使用 LoRA 有效地将 Base ControlNet 适应新条件。在第 3.4 节中我们解释了条件嵌入网络的设计以加速训练收敛。 3.1 准备工作在扩散模型Ho et al., 2020; Rombach et al., 2022中每个数据样本 x 0 \mathbf{x}_0 x0 通过马尔可夫过程扩散到高斯噪声中而生成模型则经过训练以使用以下损失函数来逆转此过程其中 x t α ˉ t x 0 1 − α ˉ t ϵ \mathbf{x}_{t}\sqrt{\bar{\alpha}_{t}}\mathbf{x}_{0}\sqrt{1-\bar{\alpha}_{t}}\mathbf{\epsilon} xtαˉt x01−αˉt ϵ 表示步骤 t t t 处的噪声样本 ϵ θ \mathbf{\epsilon}_{\theta} ϵθ 是用于预测扩散噪声 ϵ \mathbf{\epsilon} ϵ 的神经网络。对于条件生成损失函数可以修改如下Zhang et al., 2023 其中 c \mathbf{c} c 表示条件信号例如对于文本到图像生成 c \mathbf{c} c 表示文本对于图像到图像I2I生成 c \mathbf{c} c 表示图像。具体来说用于 I2I 生成的 ControlNet (Zhang et al., 2023) 设计了噪声预测网络 ϵ θ ( x t , c ) \mathbf{\epsilon}_{\theta}\left(\mathbf{x}_t,\ \mathbf{c}\right) ϵθ(xt, c)如下所示其中 E \mathcal{E} E 和 D \mathcal{D} D 表示在 Stable DiffusionRombach et al., 2022中预训练的 UNet 的编码器和解码器 C θ \mathcal{C}_\theta Cθ 表示控制网络 F θ \mathcal{F}_\theta Fθ 表示条件嵌入网络。在原始控制网络ControlNet中等式 (3) 中的 C θ \mathcal{C}_\theta Cθ 针对每种类型的条件图像进行独立训练并且不能在不同条件之间共享这导致对训练数据和计算资源的需求巨大。在以下部分中我们将介绍将 C θ \mathcal{C}_\theta Cθ 训练为共享且可扩展的基础控制网络Base ControlNet的 CtrLoRA 框架并解释如何以更少的数据和更少的设备将其有效地扩展到各种新条件。 2 下文中我们重点讨论 I2I 生成并假设文本条件为默认条件。因此为了简化符号我们省略文本条件并使用 c \mathbf{c} c 来表示图像条件。 3.2 可扩展 I2I 生成的基础控制网要为各种图像到图像I2I生成任务建立一个通用模型就需要全面了解 I2I 生成。为此我们建议同时对多种条件图像进行共享的基础控制网训练以获得不同 I2I 任务的共同知识。同时为了防止基础控制网因不同条件而混淆我们建议在基础控制网的每个线性层中添加特定条件的 LoRA 层。通过这种方式不同条件特定的 LoRA 负责捕获相应任务的独特特征因此共享的基础控制网可以专注于 I2I 生成的共同知识。整个架构如图 3(a) 所示。图 3我们的 CtrLoRA 框架的训练和推理。“SD” 表示 Stable Diffusion“CN” 表示 Base ControlNet不同颜色的 “L” 表示不同条件下的 LoRA。具体来说假设我们有 K K K 种不同类型的基本条件 { c ( k ) } k 1 K \left\{\mathbf{c}^{\left (k\right)}\right\}_{k1}^{K} {c(k)}k1K其对应的数据子集为 { D ( k ) } k 1 K \left\{\mathcal{D}^{\left (k\right)}\right\}_{k1}^{K} {D(k)}k1K C θ \mathcal{C}_\theta Cθ 表示基本控制网 L ψ ( k ) \mathcal{L}_\psi\left(k\right) Lψ(k) 表示负责第 k k k 个条件的条件特定 LoRA。在此背景下我们建议调整等式 (3) 中的噪声预测网络如下所示实际上每个训练批次中只选择一个条件并且不同条件按批次迭代因此可以使用相同数量的训练迭代来优化所有条件。对于每个批次将打开并更新与当前条件相对应的 LoRA 层如图 3(a) 所示。为了确保 Base ControlNet 的有效性和通用性训练过程在 9 个基本条件下进行包含数百万个数据Qin et al., 2024大约需要 6000 个 GPU 小时。尽管耗费资源但该过程为有效适应新条件铺平了道路如第 3.3 节所示。 3.3 有效适应新条件由于训练有素的 Base ControlNet 学习了足够的 I2I 生成的一般知识因此可以通过参数高效的微调有效地适应新条件。与第 3.2 节中针对基本条件的 LoRA 类似我们也可以在冻结 Base ControlNet 的同时为任何新条件训练新的 LoRA如图 3(b) 所示。因此当将 LoRA 等级设置为 128 时只有 3700 万个可优化参数与全参数微调的 3.6 亿个参数相比大幅减少。此外在大多数情况下只需 1,000 个数据对和在单个 RTX 4090 GPU 上进行不到一小时的训练就足以获得令人满意的结果。此外针对不同条件训练的 LoRA 可以组合起来用于多条件生成。具体来说我们可以通过将配备相应 LoRA 的 Base ControlNet 的输出相加来生成满足多种条件的图像如图 3© 所示。 3.4 条件嵌入网络的设计在原始的 ControlNetZhang et al., 2023中使用一个随机初始化的简单卷积网络将条件图像映射到嵌入中这被称为条件嵌入网络。然而随机初始化的网络在训练开始时无法从条件图像中提取任何有用的信息从而导致收敛速度慢。为了解决这个问题我们建议使用 Stable Diffusion 的预训练 VAERombach et al., 2022作为条件嵌入网络而不是随机初始化网络如图 3 和公式 (4) 所示。一方面由于预训练的 VAE 已被证明能够有效地表示和重建图像Rombach et al., 2022它已经可以从条件图像中提取有意义的嵌入而无需额外的学习。另一方面由于 Base ControlNet 被初始化为 Stable Diffusion 编码器的可训练副本因此预训练 VAE 的嵌入空间与 Base ControlNet 的初始输入空间无缝匹配。总之与随机初始化的网络相比使用预训练 VAE 作为条件嵌入网络不需要额外的努力来学习合适的嵌入空间因此可以实现更快的收敛。此外使用这种方法不再观察到与原始 ControlNet 相关的突然收敛现象。 4. 实验 4.1 实验设置数据集。为了训练基础控制网络我们使用了大规模数据集 MultiGen-20MQin et al., 2024其中包含 9 个图像到图像任务中的 2000 多万个图像条件对。为了训练 LoRA 以适应新条件我们基于 COCO2017Lin et al., 2014训练集创建了多种类型的图像条件对。对于所有定量评估我们使用 COCO2017 验证集。此外我们使用 HazeWorld 数据集Xu et al., 2023进行去雾任务使用 Raindrop 数据集Qian et al., 2018进行去雨滴任务使用 Yang et al. (2020) 的数据集进行低光图像增强使用 Danbooru2019 数据集Branwen et al., 2019进行动漫生成。评估指标。我们使用 LPIPSZhang et al., 2018在两种情况下测量生成的图像对条件图像的忠实度。对于包括 Canny、HED、Sketch、Depth、Normal、Segmentation、Skeleton、Lineart 和 Densepose 在内的条件目标是生成与条件图像匹配的图像。因此我们从生成的图像中重新提取条件并将其与真实条件图像进行比较。对于包括 Outpainting、Inpainting 和 Dehazing 在内的条件目标是从退化图像中生成高保真图像。因此我们将生成的图像与真实图像进行比较。此外我们使用 FID 分数Heusel et al., 2017来评估图像质量。实施细节。为了与其他方法进行公平比较我们在所有实验中都使用 Stable Diffusion v1.5。在训练基本控制网时我们将每个基本任务的 LoRA 等级设置为 128。基本控制网使用 AdamW 优化器Loshchilov Hutter, 2017训练700k 步学习率为 1 × 1 0 − 5 1×10^{−5} 1×10−5批次大小为 32在 8 个 RTX4090 GPU 上大约需要 6000 GPU 小时。对于所有新条件LoRA 等级均设置为 128。此外我们还对规范化层和零卷积进行了微调。我们使用 AdamW 优化器学习率为 1 × 1 0 − 5 1×10^{−5} 1×10−5批次大小为 1。在此阶段只需要一个 GPU这比训练原始控制网的要求要便宜得多。对于采样我们应用 DDIMSong et al., 2021a采样器步长为 50。无分类器指导的权重Ho Salimans, 2022设置为 7.5ControlNet 的强度设置为 1.0。我们不使用任何额外提示或负面提示进行定量评估。 4.2 与现有方法的比较基础条件下的性能。为了展示基础控制网的容量我们评估了它在基础条件下的性能如表 2 和图 4 所示。我们将结果与 UniControlQin et al., 2024进行了比较UniControl 是一种最先进的方法它训练一个统一的模型来管理所有基础条件类似于我们的基础控制网。可以看出对于基础条件我们的基础控制网的性能与最先进的 UniControl 相当展示了其强大的基本能力。此外我们的基础控制网可以轻松高效地扩展到新条件而使用 UniControl 则并非易事。表 2基础条件的定量比较。图 4基准条件下的视觉比较。适应新条件。对于新条件我们将我们的方法与 ControlNetZhang et al., 2023ControlNet-LITEZhang et al., 2023和ControlNet-XSZhang et al., 2023进行了比较。后两者是 ControlNet 的轻量级替代品旨在优化网络架构并加速训练过程。为了评估数据效率和可扩展性我们分别在 1k 和 100k 训练图像上进行实验如表 3 和图 5 所示。在有限的训练集1k下CtrLoRA 的表现始终远远优于竞争对手凸显了其在快速适应新条件方面的优势。在大型训练集100k下CtrLoRA 取得了更好或相当的结果。综上所述在适应新条件方面我们的 CtrLoRA 不仅数据效率高而且随着数据规模的增加也能取得令人满意的性能。表 3新条件下的定量比较。每个单元格代表 “LPIPS↓ / FID↓”。图 5新条件下的视觉比较。收敛速度。我们根据训练步骤将结果可视化并在图 6 中绘制收敛曲线。可以看出我们的 CtrLoRA 仅在 500 个训练步骤后就开始遵循条件而其他方法需要超过 10,000 步才能达到收敛。图 6收敛速度的视觉比较。 4.3 消融研究每个组件的效果。我们从原始 ControlNet 开始逐个添加我们提出的组件以验证组件的效果从而得到表 4 中的三个增量设置A-C。在表 4 和图 7 的设置A中我们评估了使用预训练 VAE 作为条件嵌入网络的效果如第 3.4 节所述。可以看出使用预训练 VAE 可以提高 LPIPS 和 FID 分数并加快训练收敛速度。在设置B中我们进一步将 ControlNet 的初始化从稳定扩散切换到训练有素的基础 ControlNet并执行全参数微调以验证基础 ControlNet 的通用性。如图所示我们的基础 ControlNet 可以在有限的训练集1k 张图像下更快地适应新条件并且在大型训练集100k 张图像下仍能实现领先的性能。这一结果表明我们的 Base ControlNet 学习了足够的 I2I 生成常识确实有助于适应新条件。最后在设置C中我们用条件特定的 LoRA 代替全参数训练这代表了我们方法的完整实现。如图所示尽管 LoRA 将可优化参数减少了 90%但它并没有损失太多性能并且在大多数情况下保持了第二好的性能证明了我们的 CtrLoRA 框架的有效性和效率。表 4所提成分的效果。每个单元格代表 “LPIPS↓ / FID↓”。图 7ControlNet 与设置A之间的收敛速度比较。 LoRA 等级的影响。我们用 32、64、128 和 256 的 LoRA 等级来评估 CtrLoRA 性能并且我们还评估全参数训练作为上限。如图 8 所示LPIPS 随着等级的增加而提高而 FID 分数在等级 64 时趋于稳定。为了平衡性能和可优化参数的数量我们在所有条件下选择 128 的等级。训练集大小的影响。我们分别在包含 1k、3k、5k、10k 和 50k 图像的数据集上训练我们的 CtrLoRA每个数据集大小运行 5 个 epoch。如图 9 所示LPIPS 和 FID 都会随着数据集大小的增加而提高。尽管如此在我们的实践中对于大多数新条件少量的训练数据1k 张图像通常足以获得令人满意的视觉感知。图 8LoRA 等级的影响。图 9训练集大小的影响。 4.4 其他实验更多新奇条。件我们在图 10 中提供了更多新奇条件的视觉结果包括调色板、带颜色提示的线性图、像素、去雨滴、低光图像增强和幻觉。尽管这些条件之间存在显著差异但我们的方法在所有这些条件下都取得了不错的结果这证明了我们的 CtrLoRA 对各种条件的普遍性。集成到社区模型中。我们的 CtrLoRA 可以直接应用于基于稳定扩散 1.5 的社区模型。在图 11(a) 中我们将我们的 CtrLoRA 集成到四个风格截然不同的社区模型中。结果表现出不同的风格但与给定的条件保持一致这表明我们的方法可以灵活地用作即插即用模块而无需额外的训练。结合多种条件。通过为 Base ControlNet 配备不同的 LoRA 并对其输出求和我们可以执行多条件生成而无需额外的训练。可以手动调整分配给每个条件的权重以控制其对最终结果的影响在大多数情况下权重为 1 通常就足够了。如图 11(b) 所示我们的 CtrLoRA 可以生成同时符合两个条件的视觉吸引力图像。图 10我们的 CtrLoRA 针对各种新条件的视觉结果。图 11无需额外训练训练有素的 CtrLoRA 可以直接集成到各种社区模型中并组合进行多条件生成。 5. 结论与局限性在本文中我们提出了 CtrLoRA这是一个旨在使用最少的数据和资源为任何新条件开发可控生成模型的框架。在这个框架中我们首先训练一个基础 ControlNet 以及特定于条件的 LoRA以捕获图像到图像生成的常识然后通过训练新的 LoRA 使其适应新条件。与 ControlNet 相比我们的方法显著降低了对数据和计算资源的要求并大大加快了训练收敛速度。此外训练后的模型可以无缝集成到社区模型中并结合进行多条件生成而无需进一步训练。通过降低开发门槛我们希望我们的研究能够鼓励更多人加入社区促进可控图像生成的发展。我们通过经验发现与颜色相关的条件例如带有颜色提示的 Palette 和 Lineart往往比仅涉及空间关系的条件收敛得更慢。这种现象似乎是一个常见问题不仅出现在我们的方法中也出现在其他基于 ControlNet 的竞争对手中。我们推测这个问题可能源于网络架构的功能特别是 VAE、基于 UNet 的 Stable Diffusion 和 ControlNet 的架构。为了增强我们框架的功能值得使用更先进的基于 DiTPeebles Xie, 2023的主干例如 Stable Diffusion V3Esser et al., 2024和 Flux.1来开发我们的 CtrLoRA我们将留待将来再研究。参考文献 Yogesh Balaji, Seungjun Nah, Xun Huang, Arash Vahdat, Jiaming Song, Qinsheng Zhang, Karsten Kreis, Miika Aittala, Timo Aila, Samuli Laine, et al. ediff-i: Text-to-image diffusion models with an ensemble of expert denoisers. arXiv preprint arXiv:2211.01324, 2022.Fan Bao, Shen Nie, Kaiwen Xue, Yue Cao, Chongxuan Li, Hang Su, and Jun Zhu. All are worth words: A vit backbone for diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 22669–22679, 2023.James Betker, Gabriel Goh, Li Jing, Tim Brooks, Jianfeng Wang, Linjie Li, Long Ouyang, Juntang Zhuang, Joyce Lee, Yufei Guo, et al. Improving image generation with better captions. Computer Science. https://cdn. openai. com/papers/dall-e-3. pdf, 2(3):8, 2023.Gwern Branwen, Anonymous, and Danbooru Community. Danbooru2019 portraits: A large-scale anime head illustration dataset. https://gwern.net/crop#danbooru2019-portraits, March 2019. URL https://gwern.net/crop#danbooru2019-portraits.Junsong Chen, Jincheng YU, Chongjian GE, Lewei Yao, Enze Xie, Zhongdao Wang, James Kwok, Ping Luo, Huchuan Lu, and Zhenguo Li. Pixart-α: Fast training of diffusion transformer for photorealistic text-to-image synthesis. In The Twelfth International Conference on Learning Representations, 2024.Prafulla Dhariwal and Alexander Nichol. Diffusion models beat gans on image synthesis. Advances in neural information processing systems, 34:8780–8794, 2021.Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Mu ̈ller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, Dustin Podell, Tim Dockhorn, Zion English, and Robin Rombach. Scaling rectified flow transformers for high-resolution image synthesis. In Forty-first International Conference on Machine Learning, ICML 2024, Vienna, Austria, July 21-27, 2024, 2024.Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. Gans trained by a two time-scale update rule converge to a local nash equilibrium. Advances in neural information processing systems, 30, 2017.Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598, 2022.Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. Advances in neural information processing systems, 33:6840–6851, 2020.Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. LoRA: Low-rank adaptation of large language models. In International Conference on Learning Representations, 2022.Diederik P Kingma and Max Welling. Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114, 2013.Yuheng Li, Haotian Liu, Qingyang Wu, Fangzhou Mu, Jianwei Yang, Jianfeng Gao, Chunyuan Li, and Yong Jae Lee. Gligen: Open-set grounded text-to-image generation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 22511–22521, 2023.Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dolla ́r, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In Computer Vision–ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part V 13, pp. 740–755. Springer, 2014.Ilya Loshchilov and Frank Hutter. Decoupled weight decay regularization. arXiv preprint arXiv:1711.05101, 2017.Chong Mou, Xintao Wang, Liangbin Xie, Yanze Wu, Jian Zhang, Zhongang Qi, and Ying Shan. T2i-adapter: Learning adapters to dig out more controllable ability for text-to-image diffusion models. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 38, pp. 4296– 4304, 2024.Alexander Quinn Nichol, Prafulla Dhariwal, Aditya Ramesh, Pranav Shyam, Pamela Mishkin, Bob Mcgrew, Ilya Sutskever, and Mark Chen. GLIDE: Towards photorealistic image generation and editing with text-guided diffusion models. In Kamalika Chaudhuri, Stefanie Jegelka, Le Song, Csaba Szepesvari, Gang Niu, and Sivan Sabato (eds.), Proceedings of the 39th International Conference on Machine Learning, volume 162 of Proceedings of Machine Learning Research, pp. 16784–16804. PMLR, 17–23 Jul 2022.William Peebles and Saining Xie. Scalable diffusion models with transformers. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 4195–4205, 2023.Rui Qian, Robby T Tan, Wenhan Yang, Jiajun Su, and Jiaying Liu. Attentive generative adversarial network for raindrop removal from a single image. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 2482–2491, 2018.Can Qin, Shu Zhang, Ning Yu, Yihao Feng, Xinyi Yang, Yingbo Zhou, Huan Wang, Juan Carlos Niebles, Caiming Xiong, Silvio Savarese, et al. Unicontrol: A unified diffusion model for con- trollable visual generation in the wild. Advances in Neural Information Processing Systems, 36, 2024.Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In International conference on machine learning, pp. 8748–8763. PMLR, 2021.Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J Liu. Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of machine learning research, 21(140):1–67, 2020.Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, and Mark Chen. Hierarchical text- conditional image generation with clip latents. arXiv preprint arXiv:2204.06125, 1(2):3, 2022.Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Bjo ̈rn Ommer. High- resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 10684–10695, 2022.Simo Ryu. Low-rank adaptation for fast text-to-image diffusion fine-tuning, 2022. URL https: //github.com/cloneofsimo/lora.Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily L Denton, Kam- yar Ghasemipour, Raphael Gontijo Lopes, Burcu Karagol Ayan, Tim Salimans, et al. Photo- realistic text-to-image diffusion models with deep language understanding. Advances in neural information processing systems, 35:36479–36494, 2022.Christoph Schuhmann, Romain Beaumont, Richard Vencu, Cade Gordon, Ross Wightman, Mehdi Cherti, Theo Coombes, Aarush Katta, Clayton Mullis, Mitchell Wortsman, et al. Laion-5b: An open large-scale dataset for training next generation image-text models. Advances in Neural Information Processing Systems, 35:25278–25294, 2022.Jascha Sohl-Dickstein, Eric Weiss, Niru Maheswaranathan, and Surya Ganguli. Deep unsupervised learning using nonequilibrium thermodynamics. In International conference on machine learning, pp. 2256–2265. PMLR, 2015.Jiaming Song, Chenlin Meng, and Stefano Ermon. Denoising diffusion implicit models. In International Conference on Learning Representations, 2021a.Yang Song and Stefano Ermon. Generative modeling by estimating gradients of the data distribution. Advances in neural information processing systems, 32, 2019.Yang Song, Jascha Sohl-Dickstein, Diederik P Kingma, Abhishek Kumar, Stefano Ermon, and Ben Poole. Score-based generative modeling through stochastic differential equations. In International Conference on Learning Representations, 2021b.Arash Vahdat, Karsten Kreis, and Jan Kautz. Score-based generative modeling in latent space. Advances in neural information processing systems, 34:11287–11302, 2021.Jiaqi Xu, Xiaowei Hu, Lei Zhu, Qi Dou, Jifeng Dai, Yu Qiao, and Pheng-Ann Heng. Video de- hazing via a multi-range temporal alignment network with physical prior. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023.Zeyue Xue, Guanglu Song, Qiushan Guo, Boxiao Liu, Zhuofan Zong, Yu Liu, and Ping Luo. Raphael: Text-to-image generation via large mixture of diffusion paths. Advances in Neural Information Processing Systems, 36, 2024.Wenhan Yang, Shiqi Wang, Yuming Fang, Yue Wang, and Jiaying Liu. From fidelity to perceptual quality: A semi-supervised approach for low-light image enhancement. In IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2020.Denis Zavadski, Johann-Friedrich Feiden, and Carsten Rother. Controlnet-xs: Designing an ef- ficient and effective architecture for controlling text-to-image diffusion models. arXiv preprint arXiv:2312.06573, 2023.Lvmin Zhang, Anyi Rao, and Maneesh Agrawala. Adding conditional control to text-to-image diffusion models. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 3836–3847, 2023.Richard Zhang, Phillip Isola, Alexei A Efros, Eli Shechtman, and Oliver Wang. The unreasonable effectiveness of deep features as a perceptual metric. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 586–595, 2018.Shihao Zhao, Dongdong Chen, Yen-Chun Chen, Jianmin Bao, Shaozhe Hao, Lu Yuan, and Kwan- Yee K Wong. Uni-controlnet: All-in-one control to text-to-image diffusion models. Advances in Neural Information Processing Systems, 36, 2024.

查看全文

http://www.w-s-a.com/news/933602/