当前位置：首页 > news >正文

网站开发 360浏览器知名做网站的公司

news 2026/4/9 4:04:06

网站开发 360浏览器,知名做网站的公司,免费部署网站,重庆专业网站推广公司基于近年来图像处理和语言理解方面的技术突破#xff0c;融合图像和文本处理的多模态任务获得了广泛的关注并取得了显著成功。文本生成图像#xff08;text-to-image#xff09;是图像和文本处理的多模态任务的一项子任务#xff0c;其根据给定文本生成符合描述的真实图像…基于近年来图像处理和语言理解方面的技术突破融合图像和文本处理的多模态任务获得了广泛的关注并取得了显著成功。文本生成图像text-to-image是图像和文本处理的多模态任务的一项子任务其根据给定文本生成符合描述的真实图像具有巨大的应用潜力如视觉推理、图像编辑、视频游戏、动画制作和计算机辅助设计。目前各种各样的模型已经开发用于文本到图像的生成模型主要可以分为三大类扩散模型Diffusion Model、自回归模型Autoregressive Model、生成对抗网络模型Generative Adversarial Networks下面梳理一些近几年重要的模型并对比这三种方法的优劣一、基本原理 1.1、扩散模型Diffusion Model 扩散模型是一类生成模型其通过迭代去噪过程将高斯噪声转换为已知数据分布的样本生成的图片具有较好的多样性和写实性。扩散过程逐步向原始图像添加高斯噪声是一个固定的马尔科夫链过程最后图像也被渐进变换为一个高斯噪声。而逆向过程则通过去噪一步步恢复原始图像从而实现图像的生成。随机输入一张高斯噪声显然不能按照人的意愿生成我们想要的内容我们需要将一些具体的指导融入扩散模型中去如Classifier Guidance、Semantic Diffusion Guidance、Classifier-Free Guidance。扩散模型在实现文本生成图像上大概有以下策略使用外部模型分类器 or 广义的判别器的输出作为引导条件来指导扩散模型的去噪过程从而得到我们想要的输出直接把我们想要的引导条件 condition 也作为模型输入的一部分从而让扩散模型见到这个条件后就可以直接生成我们想要的内容。这两种想法可以将普通扩散模型改进为引导扩散模型Guided Diffusion并对生成的图像进行一定程度上的细粒度控制。 1.2、自回归模型Autoregressive Model 自回归模型模型利用其强大的注意力机制已成为序列相关建模的范例受GPT模型在自然语言建模中的成功启发图像GPTiGPT通过将展平图像序列视为离散标记采用Transformer进行自回归图像生成。生成图像的合理性表明Transformer模型能够模拟像素和高级属性纹理、语义和比例之间的空间关系。Transformer整体主要分为Encoder和Decoder两大部分利用多头自注意力机制进行编码和解码。自回归模型在实现文本生成图像上大概有以下策略和VQ-VAE矢量量化变分自动编码器进行结合首先将文本部分转换成token利用的是已经比较成熟的SentencePiece模型然后将图像部分通过一个离散化的AE(Auto-Encoder)转换为token将文本token和图像token拼接到一起之后输入到GPT模型中学习生成图像。和CLIP结合。首先对于一幅没有文本标签的图像使用 CLIP 的图像编码器在语言-视觉language-vision联合嵌入空间中提取图像的 embedding。接着将图像转换为 VQGAN 码本空间codebook space中的一系列离散标记token。最后再训练一个自回归 Transformer用它来将图像标记从 Transformer 的语言-视觉统一表示中映射出对应图像。经过这样的训练后面对一串文本描述Transformer 就可以根据从 CLIP 的文本编码器中提取的文本嵌入text embedding生成对应的图像标记image tokens了。 1.3、生成对抗网络模型Generative Adversarial Networks 生成对抗网络包含一个生成模型和一个判别模型。其中生成模型负责捕捉样本数据的分布而判别模型一般情况下是一个二分类器判别输入是真实数据还是生成的样本。整个训练过程都是两者不断地进行相互博弈和优化。生成器不断得生成图像的分布不断接近真实图像分布来达到欺骗判别器的目的提高判别器的判别能力。判别器对真实图像和生成图像进行判别来提高生成器的生成能力。生成对抗网络实现文本生成图像主要分为三大部分文本编码器、生成器和鉴别器。文本编码器由RNN或者Bi-LSTM组成生成器可以做成堆叠结构或者单阶段生成结构主要用于在满足文本信息语义的基础上生成图像鉴别器用于鉴别生成器生成的图像是否为真和是否符合文本语义。生成对抗网络模型在实现文本生成图像上主要有以下策略多阶段生成网络。由树状结构堆叠的多个生成器G和多个鉴别器D组成。从低分辨率到高分辨率的图像是从树的不同分支生成的。在每个分支上生成器捕获该尺度的图像分布鉴别器分辨来自该尺度样本的真假。对生成器进行联合训练以逼近多个分布并且以交替方式对生成器和鉴别器进行训练。单级生成网络。抛弃了堆叠结构只使用一个生成器、一个鉴别器、一个预训练过的文本编码器。使用一系列包含仿射变换的UPBlock块学习文本与图像之间的映射关系由文本生成图像特征。二、三种框架的对比 2.1、图像质量在生成图像的质量上扩散模型最好自回归模型和生成对抗网络其次模型名模型类型FID分数KNN-Diffusion扩散模型16.66Stable Diffusion扩散模型12.63GLIDE扩散模型12.24DALL-E 2扩散模型10.39Imagen扩散模型7.27Re-Imagen扩散模型6.88DALL-E自回归模型28CogView自回归模型27.1CogView2自回归模型24.0Parti自回归模型7.23StackGAN生成对抗网络81.59AttnGAN生成对抗网络35.49DM-GAN生成对抗网络32.64DF-GAN生成对抗网络21.42SSA-GAN生成对抗网络19.37 2.2、参数量在参数量的比较上自回归模型和扩散模型参数量达到了十亿级别属于自回归模型的Parti甚至达到了百亿级别的参数量而生成对抗网络的模型参数量一般在千万级别明显轻巧便捷。模型名模型类型参数量大概GLIDE扩散模型35亿DALLE-2扩散模型35亿Imagen扩散模型34亿Re-Imagen扩散模型36亿DALLE自回归模型120亿Cogview自回归模型40亿Cogview2自回归模型60亿Parti自回归模型200亿DFGAN生成对抗网络0.19亿 2.3、易扩展性在易扩展度的比较上由于训练的计算成本小且开源模型较多生成对抗网络在文本生成图像的任务上仍然有很大的优势。而扩散模型和自回归模型的开源量较少目前大多数都是大型公司谷歌、Meta等在研究大型通用模型对设备的要求较高,在单张A100 GPU下DALL-E需要18万小时拥有200亿参数的 Parti 更是需要超过100万小时成本高昂。个人总结来说扩散模型自回归模型生成对抗网络图像质量优良良参数量中差优易扩展性中中优优势原因逐渐添加/去除噪声的性质只学习大规模的结构不引入归纳偏差更大的batch size、更多的隐藏层、Transformer的多头自注意力机制生成器和判别器动态对抗的特点避免了马尔科夫链式的学习机制无需在学习过程中进行推断优点更好的可解释性生成的质量高生成质量较高生成分布更加均匀采样速度很快灵活的设计框架缺点大量扩散步骤导致采样速度慢需要将图像转为token进行自回归预测采样速度慢可解释性差容易模式崩溃三、生成性网络的三难困境目前的生成式学习框架还不能同时满足三个关键要求包括(i)高质量样本(ii)模式覆盖和样本多样性(iii)快速和低廉的计算成本。而这些要求往往是它们在现实问题中广泛采用所必需的普遍来说扩散模型(Diffusion Model)可以生成质量比较高的图片且具有较强的多样性但是其应用在实践中非常昂贵满足iii难以满足iii自回归模型(Autoregressive Model)可以达到较好的模式覆盖和样本多样性但是其先验的学习使用的是文本到中间离散表征的映射导致其很难在低廉的计算成本下生成高质量样本它们生成的输出模糊。往往产生不现实的、模糊的样本满足i但是难以同时满足iiiii生成对抗网络(GANs)能够快速生成高质量样本但模式覆盖率较差满足iiii但难以满足ii 参考《TACKLING THE GENERATIVE LEARNING TRILEMMA WITH DENOISING DIFFUSION GANS》《Retrieval-Augmented Multimodal Language Modeling》 https://blog.csdn.net/qq_32275289/article/details/126951463 https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/124641910 最后我们已经建立了T2I研学社群如果你还有其他疑问或者对文本生成图像很感兴趣可以私信我加入社群。加入社群抱团学习中杯可乐多加冰-采苓AI研习社限时免费订阅文本生成图像T2I专栏支持我点赞收藏⭐️留言

查看全文

http://www.w-s-a.com/news/480589/