徐州网站网站建设,短链接生成下载,软件开发师,大型网站开发考试BiGR是一种新型的图像生成模型#xff0c;它可以生成高质量的图像#xff0c;同时还能有效地提取图像特征。该方法是通过将图像转换为一系列的二进制代码来工作#xff0c;这些代码就像是图像的“压缩版”。在训练时会遮住一些代码#xff0c;然后让模型学习如何根据剩下的…BiGR是一种新型的图像生成模型它可以生成高质量的图像同时还能有效地提取图像特征。该方法是通过将图像转换为一系列的二进制代码来工作这些代码就像是图像的“压缩版”。在训练时会遮住一些代码然后让模型学习如何根据剩下的代码来填补这些空缺。
BiGR不仅能够生成图像还能在很多视觉任务中表现良好比如修复损坏的图像或对图像进行编辑而这些都无需对模型进行特别的调整。这使得BiGR在图像生成领域非常灵活和高效。 相关链接
论文地址http://arxiv.org/abs/2410.14672v1
项目主页https://haoosz.github.io/BiGR
代码链接https://github.com/haoosz/BiGR
论文介绍 BiGR是一种新颖的条件图像生成模型使用紧凑的二进制潜在代码进行生成训练专注于增强生成和表示能力。BiGR可以执行视觉生成、辨别、编辑等。 统一性BiGR是第一个在同一模型中统一生成任务和判别任务的条件图像生成模型。通过对紧凑的二进制潜在代码进行建模与现有模型相比 BiGR在两个任务中都表现出色。 效率BiGR以较低的时间成本生成图像这归因于迭代揭露过程中所需的少量采样步骤同时仍保持较高的生成质量。 灵活性BiGR可以灵活地用于各种视觉应用例如以零样本方式进行修复、去除修复、编辑、插值和丰富而无需针对特定任务进行结构更改或参数微调。 可扩展性BiGR在生成任务和判别任务中都表现出可扩展性这通过对生成质量和线性探测性能的全面评估得到了证明。
方法 BiGR建立在 Llama 主干之上结合了掩码标记预测和二进制转码器。BiGR 使用加权二进制交叉熵 (wBCE) 损失进行训练以重建掩码标记。对于图像生成我们设计了熵序采样。对于视觉表示我们只需在中间层应用平均池化。
定量比较 图像生成 零样本广义应用 BiGR支持多种零样本应用而无需特定于任务的结构更改或参数微调。
实验结果表明BiGR在生成质量上优于现有模型尤其是在使用二进制目标和掩蔽建模时。此外还比较了BiGR与最新的自回归生成基线LlamaGen的表现发现BiGR在生成和判别任务上都展现出更强的能力。