购物网站开发大纲,肥乡专业做网站,多伦多网站建设多少钱,vi设计方案ComfyGen的核心在于通过LLM来匹配给定的文本提示与合适的工作流程。该方法从500个来自用户的多样化提示生成图像#xff0c;随后使用一系列美学预测模型对生成结果进行评分。这些评分与相应的工作流程形成了一个训练集#xff0c;包含提示、工作流程及其得分的三元组。
然后…ComfyGen的核心在于通过LLM来匹配给定的文本提示与合适的工作流程。该方法从500个来自用户的多样化提示生成图像随后使用一系列美学预测模型对生成结果进行评分。这些评分与相应的工作流程形成了一个训练集包含提示、工作流程及其得分的三元组。
然后提出了两种方法来生成提示特定的工作流程一种是基于调优的方法利用用户偏好数据进行学习另一种是无训练的方法利用LLM从现有工作流程中选择合适的流程。这两种方法均显示出相较于传统模型和通用工作流程在图像质量上的显著提升。
方法可以在不同的领域和风格中生成更高质量的图像。 相关链接
论文阅读http://arxiv.org/abs/2410.01731v1
项目主页https://comfygen-paper.github.io/
论文阅读 摘要
文本到图像生成的实际用途已从简单的单片模型发展为结合多个专用组件的复杂工作流。虽然基于工作流的方法可以提高图像质量但由于可用组件数量众多、它们之间复杂的相互依赖性以及对生成提示的依赖性制定有效的工作流需要大量专业知识。
在这里我们介绍了一种新颖的提示自适应工作流生成任务其目标是自动根据每个用户提示定制工作流。我们提出了两种基于 LLM 的方法来解决此任务一种基于调整的方法从用户偏好数据中学习以及一种使用 LLM 选择现有流程的无训练方法。与单片模型或通用的、独立于提示的工作流相比这两种方法都可以提高图像质量。我们的工作表明依赖提示的流预测为提高文本到图像生成质量提供了一条新途径补充了该领域现有的研究方向。
方法 标准文本到图像生成流程顶部采用单个整体模型将提示转换为图像。然而用户社区通常依赖于复杂的多模型工作流程这些工作流程由专家用户为不同场景手工制作。我们利用 LLM 自动合成此类工作流程以用户的提示为条件底部。通过选择与提示更匹配的组件LLM 可以提高生成图像的质量。 (a) 一个简单的 ComfyUI 管道使用基础模型和面部恢复块以及正向和负向提示。(b) 我们训练集中提示、流对的分数分布。(c) 具有不同分数的流针对同一提示生成的示例图像。分数越高结果越详细、越生动伪影越少。
实验 GenEval 提示的定性结果。ComfyGen 在多主题提示、着色和属性绑定方面表现更佳但定位方面可能存在困难。 HPS V2.0 和用户研究胜率。我们将每条基线与 ComfyGenFT绿色和 ComfyGen-IC蓝绿色进行比较。ComfyGen 变体优于所有基线。 CivitAI提示的定性结果。模型与两类基线进行了比较整体模型SDXL最流行的微调版本和 DPO 优化基线和固定的与提示无关的流程。我们的方法在人类偏好指标和即时对齐基准方面都优于所有方法。 GenEval 基准测试结果
结论
本文介绍了提示自适应工作流生成任务并介绍了 ComfyGen - 一组解决此任务的两种方法。实验表明这种依赖于提示的流程可以胜过单片模型或固定的用户创建流程从某种意义上提供了改善下游图像质量的新途径。