网站制作哪个好薇,刷关键词排名seo,西安搬家公司收费情况一览表,知名网站建设公司 北京近年来#xff0c;生成性AI技术在众多领域取得了前所未有的进步。大规模预训练模型的出现激发了各种下游任务中的新应用。这在文本到图像生成领域尤为明显#xff0c;例如Stable Diffusion、DALL-E 2和Imagen等模型已经显著展示了它们的能力。尽管如此#xff0c;复杂提示中…近年来生成性AI技术在众多领域取得了前所未有的进步。大规模预训练模型的出现激发了各种下游任务中的新应用。这在文本到图像生成领域尤为明显例如Stable Diffusion、DALL-E 2和Imagen等模型已经显著展示了它们的能力。尽管如此复杂提示中包含多个实体和复杂属性时会出现挑战。生成的图像质量下降导致实体泄露和属性不对齐等问题。目前大多数最先进模型使用预训练的语言模型对提示进行编码然后将文本嵌入集成到注意力模块中其中高斯噪声扩散到最终生成的图像中。然而最近的研究已经确定与次优生成图像相关的许多问题与注意力机制的缺陷密切相关。
扩散模型在各种内容生成领域取得了显著的成功其核心概念是通过输入提示引导的扩散过程在潜在空间中从噪声迭代重建图像。现有的基于扩散的图像生成模型在大规模数据集上训练并且与以前的方法相比性能有了显著提高。然而在处理复杂输入提示时这些生成模型的保真度往往无法得到保证。最近基于扩散的文本到视频模型Sora被公布展示了在生成高保真度、长时间、高分辨率视频方面的强能力。实验结果在各种对齐场景中表明此模型以最小的额外计算成本实现了更好的图像-文本对齐。
方法
研究团队提出了一种创新的注意力控制机制旨在改善文本到图像生成任务中的实体对齐和属性分配问题。这种方法不需要额外的训练过程通过调整自注意力和交叉注意力模块来实现对生成模型的精细控制。 自注意力温度控制 自注意力温度控制是一种调整模型在生成图像时如何分配注意力的机制。在文本到图像的生成任务中自注意力层允许模型的每个部分或称为补丁评估与其他部分的关系从而确定在生成图像时如何相互影响。然而如果没有适当的控制补丁可能会对周围较大区域内的其他补丁产生高响应值这可能导致生成的图像中对象的边界不清晰或对象特征混淆。
在图2中自注意力温度控制的效果通过对比展示了。在没有温度控制的情况下图2a一个特定的补丁可能对多个其他补丁有较高的注意力值这在自注意力图中表现为一个较广泛的高响应区域。这种广泛的注意力分布可能导致模型在生成图像时无法精确区分各个实体比如无法明确区分“一个男孩”和“一个女孩”的边界导致图像中出现实体融合或特征错误。
为了解决这个问题研究者引入了温度控制机制如图2c所示。通过调整一个超参数τ即温度改变了自注意力层中softmax函数的尺度。温度控制的数学表达式如下 通过这种温度操作增强了相关性较强的补丁之间的高注意力值同时抑制了不相关补丁之间的低注意力值。这使得每个补丁能够与高度相关的补丁组合在一起从而产生更加真实的轮廓。在图2c中应用温度控制后补丁只与周围较小区域内的补丁相对应这有助于在最终生成的图像中构建正确的轮廓。需要注意的是由于自注意力控制直接改变了补丁之间的关系这种控制必须是精确和适度的否则它可能会影响到最终图像的整体内容。温度操作应用于扩散模型自注意力层的早期生成阶段。
对象聚焦的掩蔽机制 接下来引入了一种对象聚焦的掩蔽机制来解决属性不对齐的问题。对象聚焦的掩蔽机制是为了提高文本到图像生成任务的准确性而设计的一种创新方法。这种方法特别针对于解决当文本提示中包含多个不同对象时模型在生成图像的过程中可能出现的对象边界不清晰或对象特征混淆的问题。
在传统的生成模型中由于补丁之间的注意力分布可能过于分散导致生成的图像无法准确反映文本提示中的各个独立对象及其属性。为了克服这一难题研究团队采用了句法解析技术来分析文本提示识别出其中的所有实体和属性。这一步骤是基础因为它帮助理解了文本提示的结构和语义内容。
基于句法解析的结果研究团队为图像中的每个补丁指定了最有可能对应的实体组。在生成过程中研究团队为每个补丁创建了一个掩蔽这个掩蔽确保补丁只关注与它指定的实体组相关的信息。这意味着如果一个补丁通过句法分析被确定与“一个男孩”这一实体相关那么在生成过程中这个补丁的注意力将主要集中于与“一个男孩”相关的特征而不是其他不相关的对象或属性。
通过这种方式研究团队有效地过滤了补丁需要处理的信息减少了无关信息的干扰。这不仅提高了对象的边界清晰度还减少了属性错误分配的风险。例如如果文本提示中提到“一个戴帽子的年轻男孩”我们的掩蔽机制将确保与“年轻男孩”相关的补丁不会错误地生成与“帽子”无关的特征比如将帽子错误地分配给图像中的其他对象。
掩蔽机制还考虑了全局信息如图像的布局和动作等。这意味着即使在关注特定实体的同时模型也能够保持对整体场景的一致性和连贯性从而生成结构合理、符合文本描述的图像。
对象聚焦的掩蔽机制通过精确控制补丁的注意力焦点显著提升了模型对文本提示中多个对象和属性的处理能力从而在生成图像时实现了更高的准确性和真实性。这种方法在处理复杂提示时尤其有效能够生成更加细致和符合预期的图像结果。
阶段性动态重新加权机制
阶段性动态重新加权机制是为了进一步提升文本到图像生成任务中属性对齐的准确性而设计的一种策略。这种机制的核心思想是在图像生成过程的不同阶段模型应该关注不同类型的信息在早期阶段关注全局信息如整体布局而在中后期则逐渐转移到对象的具体细节。
在扩散模型的早期阶段图像的大体结构和布局是首先需要确定的。随着生成过程的进行模型需要逐渐细化这些结构填充具体的对象特征。为了适应这种阶段性的信息关注需求研究团队设计了两种权重控制曲线一种针对全局信息另一种针对实例细节。
全局信息的权重控制曲线会随着时间步的增加而逐渐减小。这意味着在生成过程的早期模型会更加关注文本提示中的全局信息如场景的布局和整体结构。随着时间的推进这种关注会逐渐减弱为对象细节的生成让出空间。
相对地实例细节的权重控制曲线则随着时间步的增加而逐渐增大。这确保了在生成过程的中后期模型会更多地关注文本提示中的具体对象和它们的属性如颜色、形状和大小等。这种权重的增加帮助模型在图像的细节层面上实现更高的准确性和丰富性。
通过这种动态的权重调整模型能够在正确的时间关注正确的信息从而在生成的图像中实现更好的实体和背景区分。这种机制使得生成的图像不仅在宏观上结构合理也在微观上细节丰富更贴近文本提示的描述。
在实际应用中这种阶段性动态重新加权机制可以通过调整自注意力和交叉注意力层中的权重来实现。通过精心设计的权重控制曲线模型在生成过程中的每一步都能够适应性地调整其关注焦点确保生成的图像在不同阶段都能够与文本提示保持高度一致。 Fig. 3比较了原始模型与创新方法在时间步30时的交叉注意力图。给定的文本提示是“一个男孩在一个女孩前面”通过这个例子我们可以直观地看到两种方法在处理对象对齐方面的差异。
在原始模型中扩散过程中的交叉注意力图其中某些token例如“男孩”和“女孩”的语义信息在整个图像中扩散。这种扩散可能导致生成的图像中对象的界限模糊对象特征混淆最终导致对齐效果差。例如如果“女孩”的语义信息扩散到了整个图像模型可能无法确定女孩的具体位置导致生成的图像中女孩的形象不清晰或者与背景或其他对象混合。
相比之下对象聚焦掩蔽机制和阶段性动态重新加权机制后的交叉注意力图与实体相对应的token信息变得更加集中。这意味着每个对象的语义信息被更精确地定位在图像中的相应区域从而改善了对象的对齐和整体图像的生成质量。
通过对象聚焦掩蔽机制确保了每个补丁主要关注与它最相关的实体组减少了与其他对象的无关信息的干扰。阶段性动态重新加权机制进一步确保了在生成过程的不同阶段模型能够适当地关注全局信息和细节信息。在早期阶段模型可能更关注于整体布局而在后期阶段则更多地关注于对象的具体特征。
实验
本研究中采用了无需训练的注意力控制机制旨在改善文本到图像生成任务中的实体泄露和属性不对齐问题。使用了COCO2014验证集作为评估数据并选取了最新的Stable Diffusion XL 1.0作为基线模型与本模型进行比较。 定性分析 通过视觉检查生成图像与文本提示的对齐程度。如图5所示展示了Stable Diffusion、Structured Diffusion以及创新方法的生成结果。可以观察到现有模型在处理涉及多个对象和属性的复杂提示时仍然存在挑战。例如在数字对齐方面现有模型常常无法准确复现提示中指定的数量如在图5的第一和第四列中与提示相比生成的长颈鹿和鸟的数量明显过多。而本方法能够减少这类数值错误的发生如图5的(i)(l)所示。
定量分析 使用FIDFréchet Inception Distance、CLIP Score和ImageReward等指标来评估生成图像的质量。FID用于衡量生成图像与真实图像之间的分布差异CLIP Score基于CLIP模型评估图像与文本的一致性而ImageReward则是学习并评估人类对生成图像的偏好。实验结果表明本模型在这些指标上都取得了更好的成绩表明生成的图像与输入提示的对齐度更高图像质量也更优。 在Fig. 6中我们可以看到随着CFG规模的增加FID和CLIP分数如何变化。FID分数衡量的是生成图像与真实图像分布之间的差异而CLIP分数则衡量生成图像与输入文本提示的一致性。理想情况下我们希望FID分数越低越好CLIP分数越高越好这表示生成图像不仅与真实图像相似而且与输入的文本提示也高度一致。 Table 1提供了创新方法与现有方法在定量评估上的比较结果包括FID、CLIP Score和ImageReward三个指标。本方法在这些指标上与Stable Diffusion XL和Structured Diffusion进行了对比这些指标共同衡量了生成图像的质量与输入文本提示的对齐程度。
具体来说FID分数衡量生成图像与真实图像集合之间的分布差异分数越低表示生成图像与真实图像越相似。CLIP Score评估生成图像与文本描述的匹配度分数越高表示匹配度越好。ImageReward则是基于人类偏好的学习评估指标。
在Table 1中我们可以看到与Stable Diffusion XL和Structured Diffusion相比本方法在FID分数上略高但与真实图像Ground-Truth相比仍具有竞争力这表明本模型在图像质量上有所提升。在CLIP Score上本方法与Stable Diffusion XL得分相近均高于Structured Diffusion显示出在图像与文本对齐方面的优势。这些结果证明了本方法在改善文本到图像生成任务中的有效性尤其是在提升图像质量和文本对齐方面。
半人工评估 除了定量指标还设计了半人工评估来更细致地考察模型在特定对齐任务上的表现。随机选取了50个提示并使用基线模型和我们的模型生成图像。然后利用GPT-4生成与这些图像相关的一系列问题从不同角度评估图像的对齐性能包括颜色、内容、数量、表面/纹理、时间和位置对齐。通过人工检查这些问题发现本模型在所有对齐任务上都取得了优于基线模型的结果。 Table 2在论文中展示了半人工评估的结果这些结果是基于GPT-4生成的问题对不同模型生成的图像进行评估的准确性。在这个表中研究人员手动检查并修订了基于GPT-4答案的比较结果以确定每种模型在各种对齐任务上的表现。
具体来说Table 2列出了以下几种类型的对齐任务并为每种任务提供了不同模型的性能百分比准确率
颜色对齐Color Alignment评估图像中指定对象的颜色是否与文本提示中的颜色准确生成。内容对齐Context Alignment检查图像中的场景、对象和角色动作是否与文本提示一致。数量对齐Numerical Alignment验证图像是否准确地表示了文本提示中指定的不同对象的数量。表面/纹理对齐Surface/Texture Alignment判断生成的对象是否具有与文本提示描述一致的纹理。时间对齐Time Alignment确认图像中呈现的环境时间是否与文本提示中描述的时间相匹配。位置对齐Location评估图像中生成的环境设置和空间关系是否与文本提示一致。
表中列出了几种模型的名称包括基线模型如Stable Diffusion XL和Structured Diffusion和本模型即采用新提出的注意力控制机制的模型。每种模型在上述任务上的表现会以百分比形式展示百分比越高表示模型在该对齐任务上的准确率越高生成的图像与文本提示的一致性越好。
消融研究 通过消融研究深入探讨了自注意力控制策略、对象聚焦掩蔽机制和动态重新加权策略这三种组件对模型性能的影响。
研究团队首先单独测试了自注意力控制策略。这一策略通过调整自注意力层中的温度参数优化了补丁间的注意力分布。结果显示即使只使用这一策略模型的FID和CLIP Score也比基线模型有所改善这表明自注意力控制在提升图像质量和文本对齐方面起到了积极作用。
接着单独评估了对象聚焦掩蔽机制。这一机制通过句法解析确定文本提示中的实体并为每个补丁创建掩蔽以集中注意力于相关实体。消融研究的结果显示对象聚焦掩蔽机制同样在单独使用时提升了模型性能减少了属性不对齐和实体泄露的问题。
当单独应用动态重新加权策略时效果并不理想。动态重新加权策略根据生成过程的不同阶段调整不同语义组成部分的权重。在没有掩蔽机制配合的情况下这一策略可能会无意中增强了不必要的注意力分布导致生成效果不佳。
当将这三个组件结合起来使用时模型的性能得到了显著提升。这表明这些组件之间存在互补关系通过协同作用能够有效地提升模型的整体性能。结合使用时自注意力控制和对象聚焦掩蔽机制能够确保注意力的准确分配而动态重新加权策略则在这一基础上进一步优化了不同阶段的注意力重点。 以上表格展示了不同配置下的FID和CLIP Score清晰地呈现了每种组件以及它们组合使用时对模型性能的具体影响。
结论
在本文中我们提出了一种无需训练的阶段性注意力控制机制。我们在自注意力模块中集成了新颖的温度控制并在交叉注意力模块中进行了阶段特定的掩蔽控制。这些注意力控制使模型能够更有效地将图像补丁塑造成连贯的对象并显著缓解实体融合和不对齐的问题。在我们的实验中我们使用现有的基准指标和针对不同对齐场景量身定制的半人工评估来评估我们的模型。实验结果证明了我们的模型在对齐聚焦的图像生成任务中的鲁棒性和有效性。