当前位置：首页 > news >正文

如何做网站模特上海网站建设公司案例

news 2026/4/8 17:47:13

如何做网站模特,上海网站建设公司案例,开发板在null不可用,酒泉网站建设公司第一章#xff1a;人工智能之不同数据类型及其特点梳理第二章#xff1a;自然语言处理(NLP)#xff1a;文本向量化从文字到数字的原理第三章#xff1a;循环神经网络RNN#xff1a;理解 RNN的工作机制与应用场景(附代码) 第四章#xff1a;循环神经网络RNN、LSTM以及GR…第一章人工智能之不同数据类型及其特点梳理第二章自然语言处理(NLP)文本向量化从文字到数字的原理第三章循环神经网络RNN理解 RNN的工作机制与应用场景(附代码) 第四章循环神经网络RNN、LSTM以及GRU 对比(附代码) 第五章理解Seq2Seq的工作机制与应用场景中英互译(附代码) 第六章深度学习架构Seq2Seq-添加并理解注意力机制(一) 第七章深度学习架构Seq2Seq-添加并理解注意力机制(二) 第八章深度学习模型Transformer初步认识整体架构一、Transformer 是什么 Transformer 是 Google 在 2017 年提出的基于自注意力机制Self-Attention 的深度学习模型彻底摒弃了传统的循环神经网络RNN和卷积神经网络CNN成为自然语言处理NLP领域的革命性架构。其核心思想是通过全局依赖建模和并行计算高效处理序列数据广泛应用于机器翻译、文本生成、语音识别等任务。典型应用 BERT、GPT 等预训练模型均基于 Transformer。ChatGPT、DALL·E 等生成式 AI 的核心架构。二、产生的背景 2.1. 传统模型的局限性 RNNLSTM/GRU 序列依赖必须逐时间步计算无法并行训练。长距离依赖梯度消失/爆炸问题严重难以捕捉远距离词的关系。 CNN 局部感受野依赖卷积核大小难以建模全局依赖。位置敏感性需堆叠多层才能扩大感受野效率低。 2.2. 注意力机制的启发 2014 年注意力机制首次在 Seq2Seq 模型中被提出解决了编码器信息压缩的瓶颈。但基于 RNN 的注意力模型依然无法完全并行且长序列处理能力有限。 2.3. 硬件算力提升 GPU/TPU 的普及使得大规模并行计算成为可能推动了 Transformer 的可行性。三、发展历史时间里程碑2017Transformer 诞生论文《Attention Is All You Need》提出纯注意力架构。2018BERT基于 Transformer 的双向预训练模型刷新多项 NLP 任务记录。2018GPT基于 Transformer 的单向生成式预训练模型开启大模型时代。2020Vision Transformer (ViT)将 Transformer 应用于计算机视觉领域。2022ChatGPT基于 Transformer 的对话模型引发生成式 AI 的爆发。四、Transformer 的优缺点优点特性说明并行计算所有位置同时计算训练速度远超 RNN/CNN。长距离依赖建模自注意力直接捕捉任意位置的关系避免梯度消失。可扩展性通过堆叠多层和多头注意力轻松扩展模型容量。多模态支持统一处理文本、图像、语音等不同模态数据如 ViT、Whisper。缺点局限性说明计算复杂度高自注意力复杂度为 O ( N 2 ) O(N^2) O(N2)长序列如文档计算成本剧增。显存占用大存储注意力矩阵需大量显存限制输入长度。数据需求高依赖海量训练数据小数据场景易过拟合。五、Transformer 整体架构 Transformer 由编码器Encoder 和解码器Decoder 堆叠组成而每一个编码器或者解码器内部又由不同的组件构成。编码器Encoder 编码器Encoder包含 N 个相同层每层由以下组件构成多头自注意力Multi-Head Self-Attention前馈网络Feed-Forward Network残差连接Residual Connection 和层归一化LayerNorm 解码器Decoder 解码器Decoder包含 N 个相同层每层在编码器基础上增加掩码多头自注意力Masked Multi-Head Self-Attention编码器-解码器注意力Encoder-Decoder Attention 六、核心组件 6.1. 自注意力机制Self-Attention 目标为序列中每个位置生成加权表示反映全局依赖关系。计算步骤生成 Q、K、V 矩阵 Q X W Q , K X W K , V X W V Q XW^Q, \quad K XW^K, \quad V XW^V QXWQ,KXWK,VXWV计算注意力分数 Attention ( Q , K , V ) Softmax ( Q K ⊤ d k ) V \text{Attention}(Q, K, V) \text{Softmax}\left(\frac{QK^\top}{\sqrt{d_k}}\right)V Attention(Q,K,V)Softmax(dk QK⊤)V 缩放点积除以 d k \sqrt{d_k} dk 防止梯度爆炸。Softmax归一化为概率分布。 6.2. 多头注意力Multi-Head Attention 并行计算将 Q、K、V 拆分为多个子空间头分别计算注意力后拼接 MultiHead ( Q , K , V ) Concat ( head 1 , … , head h ) W O \text{MultiHead}(Q, K, V) \text{Concat}(\text{head}_1, \dots, \text{head}_h)W^O MultiHead(Q,K,V)Concat(head1,…,headh)WO 优势捕捉不同子空间的语义特征如语法、语义。 6.3. 位置编码Positional Encoding 目标为输入序列注入位置信息替代 RNN 的时序性。公式正弦/余弦函数 P E ( p o s , 2 i ) sin ⁡ ( p o s 1000 0 2 i / d ) , P E ( p o s , 2 i 1 ) cos ⁡ ( p o s 1000 0 2 i / d ) PE_{(pos, 2i)} \sin\left(\frac{pos}{10000^{2i/d}}\right), \quad PE_{(pos, 2i1)} \cos\left(\frac{pos}{10000^{2i/d}}\right) PE(pos,2i)sin(100002i/dpos),PE(pos,2i1)cos(100002i/dpos)效果使模型能区分不同位置的词如“猫追狗” vs “狗追猫”。 6.4. 前馈网络Feed-Forward Network 结构两层全连接层激活函数如 ReLU FFN ( x ) max ⁡ ( 0 , x W 1 b 1 ) W 2 b 2 \text{FFN}(x) \max(0, xW_1 b_1)W_2 b_2 FFN(x)max(0,xW1b1)W2b2作用增强模型非线性表达能力。 6.5. 残差连接与层归一化残差连接缓解梯度消失公式为 x Sublayer ( x ) x \text{Sublayer}(x) xSublayer(x)。层归一化加速训练稳定梯度。 6.6. 编码器-解码器注意力解码器在生成每个词时通过编码器-解码器注意力层关注编码器的输出 Q 来自解码器的上一状态。K、V 来自编码器的输出。作用动态对齐输入与输出序列如机器翻译中的词对齐。七、总结 Transformer 通过自注意力机制和并行计算架构解决了传统模型的序列处理瓶颈成为 AI 领域的基石技术。尽管存在计算资源消耗大的问题但其在长距离依赖建模、多模态支持等方面的优势使其在 NLP、CV、语音等领域持续引领技术突破。下一章详细介绍Transformer的几个核心组件自注意力推导示例、什么是多头注意力、为什么要添加位置编码等

查看全文

http://www.w-s-a.com/news/702784/