当前位置：首页 > news >正文

手机网站建设一般多少钱金华企业网站推广

news 2026/4/9 5:44:13

手机网站建设一般多少钱,金华企业网站推广,朔州网站建设电话,住房和城建设网站首页文章目录一、AIGC 的简要介绍二、AIGC 的发展历程三、AIGC 的基石3.1 基本模型3.2 基于人类反馈的强化学习3.3 算力支持四、生成式 AI#xff08;Generative AI#xff09;4.1 单模态4.1.1 生成式语言模型#xff08;Generative Language Models#xff0c;GLM#xff0… 文章目录一、AIGC 的简要介绍二、AIGC 的发展历程三、AIGC 的基石3.1 基本模型3.2 基于人类反馈的强化学习3.3 算力支持四、生成式 AIGenerative AI4.1 单模态4.1.1 生成式语言模型Generative Language ModelsGLM4.1.2 生成式视觉模型Generative Vision Models 4.2 多模态4.2.1 视觉语言生成4.2.2 文本音频生成4.2.3 文本图形生成4.2.4 文本代码生成五、AIGC 的应用场景5.1 ChatBot5.2 Art5.3 Music5.4 Code5.5 Education 参考论文A Comprehensive Survey of AI-Generated Content (AIGC): A History of Generative AI from GAN to ChatGPT 发布时间2023.03 AIGCAI Generated ContentAI 生成内容即使用人工智能生成内容可以生成文字、图像、音频、视频、代码等。一、AIGC 的简要介绍 AIGC 是使用 Generative AI (GAI生成式 AI) 的方式能够模拟人类的方式在很短的时间内创作大量的内容。比如现在很火的如下两个模型 ChatGPT一个语言模型能够很快的理解并回复人类的问题DALL-E-2能够在根据文字创作一幅对应的高质量图像如图 1 所示生成式 AI 需要做什么事情从人类的描述中提取信息根据提取到的信息生成对应的内容现在的 AIGC 和之前的工作相比有哪些优势之前的工作没有大量的数据和硬件支撑AIGC有大量的数据、优秀的基础模型、强有力的硬件计算资源比如语言模型 GPT-3 的预训练数据为 570G基础模型尺寸为 175B而前一版的 GPT-2 预训练数据只有 38G基础模型尺寸为 1.5B故 GPT-3 比 GPT-2 有更强的能力。而且 GPT-3 引入了强化学习来学习人类的反馈比如图像模型stable diffusion同样在 2022 年提出且拥有很强的图像生成能力二、AIGC 的发展历程 1950s隐马尔科夫模型HMMs和高斯混合模型GMMs可以生成序列数据如台词或时间序列 2017 年之前NLP 和 CV 的发展也分了两条道路 NLP最初是使用 N-gram language modeling 通过学习单词的分布来生成句子但又不能处理很长的句子于是就引入了 RNN后面又有了 LSTM 和 GRU。CV2014 年 GAN 被提出后面又有 VAE 和 diffusion 模型用于生成高质量图像 2017 年之后NLP 和 CV 的一部分工作重心逐渐有了合并于 Transformer 的趋势 2017 年Transformer 被提出并用于 NLP如 BERT 和 GPT都有了完胜之前 LSTM 和 GRU 的效果2020 年ViT 首次将 Transformer 用于图像分类人并取得了很好的效果之后又有很多如 DETR、Swin、PVT 等基于 Transformer 的方法在图像领域的不同任务上同样取得了很好的效果不仅如此Transformer 也能够通过整合不同领域的信息来实现多模态任务 CLIP 就是一个联合使用 vision-languange 的模型通过将 transformer 的结构和视觉组件的结合允许其在大量的文本和图像数据上训练。也正是由于其在预训练的时候整合了图像和语言信息故能够作为图像编码器进行生成。三、AIGC 的基石 3.1 基本模型 1、Transformer Transformer 可以作为 backbone 或网络结构来实现多种不同模型的 SOTA如 GPT-3[9]、DALL-E-2[5]、Codex[2] 和 Gopher[39]。 Transformer 结构大多是基于自注意力机制的 Encoder-Decoder 结构Encoder 结构用于提取输入内容的隐式表达Decoder 用于从隐式表达中生成输出。 Transformer 中的自注意力机制用于提取输入序列中不同 word 或 patch 的之间的关系。 Transformer 的另外一个优势在于其弱偏置归纳性即引入的归纳偏置少模型不容易很轻易的到达上限故此使用大数据集进行预训练的 Transformer 能够达到很好的效果并用于下游任务。 2、预训练的语言模型 Transformer 的结构目前已经成为语言模型的首选结构也可以将不同方法分为两类 autoregressive language modelingdecoder自回归式语言模型BERT、RoBERTa、XL-NetMasked language modelingencoder掩码式语言模型GPT-3、OPTencoder-decoder 模型 3.2 基于人类反馈的强化学习尽管使用了大量的训练数据AIGC 也可能并不能总是很好的理解人类的意图比如实用性和真实性。为了让 AIGC 的输出更接近于人类的偏好从人类的反馈中不断进行强化学习也很重要 reinforcement learning from human feedback (RLHF)比如 Sparrow、InstructGPT、ChatGPT 都使用了强化学习。 RLHF 的整个过程包括三个步骤其一是一个基于大量数据预训练得到的语言模型其二训练一个奖励模型来对人类多种复杂的偏好进行编码其三对第一步得到的语言模型 θ \theta θ 进行 fine-tuned来最大化第二步学习到的激励函数 3.3 算力支持现在发展成熟的硬件、分布式训练、云计算等都为大模型的产生提供了很大的支持四、生成式 AIGenerative AI 4.1 单模态单模态生成模型就是模型只能接收单一类型的输入如文本或图像然后产生对应类型的输出。生成式语言模型GPT-3、BART、T5 等生成式视觉模型GAN、VAE、normalizing flow 等 4.1.1 生成式语言模型Generative Language ModelsGLM 生成式语言模型是 NLP 模型的一种该模型所要实现的就是经过训练后能够根据其之前所接触过的模式和结构生成可读的人类语言。可以用于对话系统、翻译、问答系统等。现有的 SOTA 预训练语言模型可以分为 masked language modelencoder一般用于分类任务autoregressive language modeldecoder一般用于文本生成encoder-decoder language可以利用上下文信息和自回归属性来提高各种任务的性能 1、Decoder models 现有表现较好的基于 decoder 的自回归语言模型是 GPT[61]是使用 self-attention 的 Transformer 模型。还有 BERT、T5、InstructGPT 等。 2、Encoder-Decoder models 现有的表现较好的是 Text-to-Text Transfer TransformerT5[56]同时使用了基于 Transformer 的 Encoder 和 Decoder 来进行预训练。还有例如 Switch Transformer、ExT5、HELM 等 4.1.2 生成式视觉模型Generative Vision Models 1、GANGenerative Adversarial NetworksGANs GAN 是图像生成领域很流行的一个模型包括两个模块生成模型学习如何生成新的数据判别模型判断数据是真实的还是生成的假数据典型方法有 LAPGANDCGANsProgressive GANSAGANBigGANStyleGAND2GANGMANMGANMAD-GANCoGAN 2、VAEVariational AutoEncoders VAE 是生成模型其原理是尝试学习数据的概率分布并学习如何重建数据使得其更接近原始输入数据。 3、Flow Normalizing Flow 是一种基于分布变换的方式使用一系列可逆和可微的映射将简单分布变成复杂分布 4、Diffusion Diffusion model 是由通过逐步向输入图像中添加高斯噪声的前向扩散和逐步恢复原图的逆向去噪组成的是目前 SOTA 的方法。 DDPM 使用两个马尔科夫链来逐步进行高斯加噪和反向去噪SGMScore-based generative modelNCSNScore SDE 4.2 多模态多模态生成的目标是学习一个模型通过学习从数据中获得的多模态连接和交互来生成原始的模态。不同模态的连接和交互是非常复杂的这也使得多模态表示空间比单模态表示空间更难学习。下面会涉及到各类 SOTA 多模态模型视觉语言生成文本语音生成文本图形生成文本代码生成 4.2.1 视觉语言生成 Encoder-decoder 结构会经常被用于解决计算机视觉和自然语言处理的多模态生成问题 Encoder学习输入数据的复杂特征表达Decoder生成反应跨模态交互、结构、一致性的原始模态表达视觉语言 Encoder多模态的结合可以直观的想象通过将两个不同模态的预训练模型结合起来即可主要有两种 concatenated encodercross-aligned encoder Concatenated Encoder 将两个不同模态的模型 concat 起来比如最早的 VisualBERT使用 BERT 作为 text encoderCNN 作为 image encoder来自 image encoder 的编码被直接合并到 BERT 的输入编码中让模型隐式地学习表达。VL-BERT使用 Faster R-CNN 来抽取 RoI将抽取到的 RoI 信息作为图像区域的编码UNITER Cross-aligned Encoder 该结构一般使用 tow-tower 结构分别使用单个 tower 学习每个模态对应的特征然后使用 cross-modality encoder 对两个模态的特征学习联合表达。LXMERT 使用 Transformer 来抽取图像特征和文本特征然后使用了一个多模态 cross-attention 模块来进行协同学习输出编码是视觉编码、语言编码、多模态编码ViLBERT 使用 cross-transformer 模型来对齐两个不同的模态每个模态输入的 key 和 value 会被输入另外一个模态的 attention module 来生成一个合成的 attention 编码CLIP 使用点乘的方式来融合 cross layer比上面的使用 self-attention 计算量更少视觉语言模型 Decoder能够通过给 encoder 得到的编码表达来生成特定模态的表达主要包括 to-textto-image To-text decoders通常从 encoder 中接收文本上下文表达并解码为一个句子主要有如下两种模型随着大型语言模型的出现现在很多结构都使用冻结语言 decoder 的方式。 jointly-trained models联合训练解码器是指在解码表示时需要完整的交叉模态训练的解码器frozen models冻结大语言模型值训练 image decoder To-image decoders表示给定一条指令生成对应的图像。用的较多的同样是 encoder-decoder 结构encoder 用于学习语言信息decoder 用于合成图像。一般有 GAN-based 和 diffusion-based 方法。 4.2.2 文本音频生成文本音频生成文本音乐生成 4.2.3 文本图形生成 4.2.4 文本代码生成 Text Code Generation 可以根据输入的语言描述来说自动的生成可用的代码 CodeBERTCuBERTCodeT5AST 五、AIGC 的应用场景 5.1 ChatBot 可以和使用者进行基于文本的对话交互一般使用语言模型来理解并根据问题进行语言的回答。如微软小冰 Xiaoice谷歌 Meena微软 ChatGPT。 5.2 Art AI 艺术生成是创作艺术品一般都使用大型数据集在现有的艺术品上进行学习学习到一定的规则后模仿相关创作规则来产生新的艺术品。如 OpenAI 的 DALL-E 系列Stability.ai 的 DreamStudio谷歌的 Imagen 等。 5.3 Music 音乐生成是指使用学习到的相关音乐创作规则产生新的音乐创作。如 OpenAI 的 Jukebox 5.4 Code 基于 AI 的编程系统包括生成完整的代码、源码和伪代码等 OpenAI 的 CodeGPT 是一个开源的基于 Transformer 结构的模型还有 CodeParrot、Codex 等。 5.5 Education 还可以用于教育方面比如生成教学视频、学术论文等。

查看全文

http://www.w-s-a.com/news/771540/