当前位置: 首页 > news >正文

如何做网站模特上海网站建设公司案例

如何做网站模特,上海网站建设公司案例,开发板在null不可用,酒泉网站建设公司第一章#xff1a;人工智能之不同数据类型及其特点梳理 第二章#xff1a;自然语言处理(NLP)#xff1a;文本向量化从文字到数字的原理 第三章#xff1a;循环神经网络RNN#xff1a;理解 RNN的工作机制与应用场景(附代码) 第四章#xff1a;循环神经网络RNN、LSTM以及GR…第一章人工智能之不同数据类型及其特点梳理 第二章自然语言处理(NLP)文本向量化从文字到数字的原理 第三章循环神经网络RNN理解 RNN的工作机制与应用场景(附代码) 第四章循环神经网络RNN、LSTM以及GRU 对比(附代码) 第五章理解Seq2Seq的工作机制与应用场景中英互译(附代码) 第六章深度学习架构Seq2Seq-添加并理解注意力机制(一) 第七章深度学习架构Seq2Seq-添加并理解注意力机制(二) 第八章深度学习模型Transformer初步认识整体架构 一、Transformer 是什么 Transformer 是 Google 在 2017 年提出的 基于自注意力机制Self-Attention 的深度学习模型彻底摒弃了传统的循环神经网络RNN和卷积神经网络CNN成为自然语言处理NLP领域的革命性架构。其核心思想是通过 全局依赖建模 和 并行计算 高效处理序列数据广泛应用于机器翻译、文本生成、语音识别等任务。 典型应用 BERT、GPT 等预训练模型均基于 Transformer。ChatGPT、DALL·E 等生成式 AI 的核心架构。 二、产生的背景 2.1. 传统模型的局限性 RNNLSTM/GRU 序列依赖必须逐时间步计算无法并行训练。长距离依赖梯度消失/爆炸问题严重难以捕捉远距离词的关系。 CNN 局部感受野依赖卷积核大小难以建模全局依赖。位置敏感性需堆叠多层才能扩大感受野效率低。 2.2. 注意力机制的启发 2014 年注意力机制首次在 Seq2Seq 模型中被提出解决了编码器信息压缩的瓶颈。但基于 RNN 的注意力模型依然无法完全并行且长序列处理能力有限。 2.3. 硬件算力提升 GPU/TPU 的普及使得大规模并行计算成为可能推动了 Transformer 的可行性。 三、发展历史 时间里程碑2017Transformer 诞生论文《Attention Is All You Need》提出纯注意力架构。2018BERT基于 Transformer 的双向预训练模型刷新多项 NLP 任务记录。2018GPT基于 Transformer 的单向生成式预训练模型开启大模型时代。2020Vision Transformer (ViT)将 Transformer 应用于计算机视觉领域。2022ChatGPT基于 Transformer 的对话模型引发生成式 AI 的爆发。 四、Transformer 的优缺点 优点 特性说明并行计算所有位置同时计算训练速度远超 RNN/CNN。长距离依赖建模自注意力直接捕捉任意位置的关系避免梯度消失。可扩展性通过堆叠多层和多头注意力轻松扩展模型容量。多模态支持统一处理文本、图像、语音等不同模态数据如 ViT、Whisper。 缺点 局限性说明计算复杂度高自注意力复杂度为 O ( N 2 ) O(N^2) O(N2)长序列如文档计算成本剧增。显存占用大存储注意力矩阵需大量显存限制输入长度。数据需求高依赖海量训练数据小数据场景易过拟合。 五、Transformer 整体架构 Transformer 由 编码器Encoder 和 解码器Decoder 堆叠组成 而每一个编码器或者解码器内部又由不同的组件构成。 编码器Encoder 编码器Encoder包含 N 个相同层每层由以下组件构成 多头自注意力Multi-Head Self-Attention前馈网络Feed-Forward Network残差连接Residual Connection 和 层归一化LayerNorm 解码器Decoder 解码器Decoder包含 N 个相同层每层在编码器基础上增加 掩码多头自注意力Masked Multi-Head Self-Attention编码器-解码器注意力Encoder-Decoder Attention 六、核心组件 6.1. 自注意力机制Self-Attention 目标为序列中每个位置生成加权表示反映全局依赖关系。 计算步骤 生成 Q、K、V 矩阵 Q X W Q , K X W K , V X W V Q XW^Q, \quad K XW^K, \quad V XW^V QXWQ,KXWK,VXWV计算注意力分数 Attention ( Q , K , V ) Softmax ( Q K ⊤ d k ) V \text{Attention}(Q, K, V) \text{Softmax}\left(\frac{QK^\top}{\sqrt{d_k}}\right)V Attention(Q,K,V)Softmax(dk​ ​QK⊤​)V 缩放点积除以 d k \sqrt{d_k} dk​ ​ 防止梯度爆炸。Softmax归一化为概率分布。 6.2. 多头注意力Multi-Head Attention 并行计算将 Q、K、V 拆分为多个子空间头分别计算注意力后拼接 MultiHead ( Q , K , V ) Concat ( head 1 , … , head h ) W O \text{MultiHead}(Q, K, V) \text{Concat}(\text{head}_1, \dots, \text{head}_h)W^O MultiHead(Q,K,V)Concat(head1​,…,headh​)WO 优势捕捉不同子空间的语义特征如语法、语义。 6.3. 位置编码Positional Encoding 目标为输入序列注入位置信息替代 RNN 的时序性。公式正弦/余弦函数 P E ( p o s , 2 i ) sin ⁡ ( p o s 1000 0 2 i / d ) , P E ( p o s , 2 i 1 ) cos ⁡ ( p o s 1000 0 2 i / d ) PE_{(pos, 2i)} \sin\left(\frac{pos}{10000^{2i/d}}\right), \quad PE_{(pos, 2i1)} \cos\left(\frac{pos}{10000^{2i/d}}\right) PE(pos,2i)​sin(100002i/dpos​),PE(pos,2i1)​cos(100002i/dpos​)效果使模型能区分不同位置的词如“猫追狗” vs “狗追猫”。 6.4. 前馈网络Feed-Forward Network 结构两层全连接层 激活函数如 ReLU FFN ( x ) max ⁡ ( 0 , x W 1 b 1 ) W 2 b 2 \text{FFN}(x) \max(0, xW_1 b_1)W_2 b_2 FFN(x)max(0,xW1​b1​)W2​b2​作用增强模型非线性表达能力。 6.5. 残差连接与层归一化 残差连接缓解梯度消失公式为 x Sublayer ( x ) x \text{Sublayer}(x) xSublayer(x)。层归一化加速训练稳定梯度。 6.6. 编码器-解码器注意力 解码器在生成每个词时通过 编码器-解码器注意力层 关注编码器的输出 Q 来自解码器的上一状态。K、V 来自编码器的输出。 作用动态对齐输入与输出序列如机器翻译中的词对齐。 七、总结 Transformer 通过 自注意力机制 和 并行计算架构解决了传统模型的序列处理瓶颈成为 AI 领域的基石技术。尽管存在计算资源消耗大的问题但其在长距离依赖建模、多模态支持等方面的优势使其在 NLP、CV、语音等领域持续引领技术突破。 下一章详细介绍Transformer的几个核心组件自注意力推导示例、什么是多头注意力、为什么要添加位置编码等
http://www.w-s-a.com/news/702784/

相关文章:

  • ps怎么做响应式网站布局图现在做网站都是怎么做的
  • 导购 网站模板网站主题选择
  • 毕业设计医院网站设计怎么做郑州铭功路网站建设
  • 网站根域名是什么php做商城网站步骤
  • 建设网站的那个公司好网站建设万首先金手指12
  • 广东民航机场建设有限公司网站网站开发后端用什么
  • 做风帆网站需要多少钱越野车网站模板
  • 如何做网站平台销售用狗做头像的网站
  • 宝安电子厂做网站美食网页设计的制作过程
  • 网站logo提交学网站开发技术
  • 跨境电商平台网站建设广州西安官网seo推广
  • 我和你99谁做的网站小程序制作第三方平台
  • 建设银行网站用户名鹤岗网站seo
  • 做一元夺宝网站需要什么条件西安市做网站的公司
  • 零基础建设网站教程郑州做网站推广价格
  • 平面设计免费素材网站新开三端互通传奇网站
  • ppt模板免费下载 素材医疗seo网站优化推广怎么样
  • 课程网站怎么做wordpress文章改背景色
  • 网络营销从网站建设开始卖汽车配件怎么做网站
  • 手机商城网站制作公司济南想建设网站
  • .net 建网站网站网站做员工犯法吗
  • 电子商务网站建设说课稿棕色网站设计
  • 怎么做律所的官方网站红塔网站制作
  • 装一网装修平台官网惠州seo按天付费
  • 湖南建设监理报名网站东莞模块网站建设方案
  • 网站建设小组个人主页html源码
  • 响应式网站检测工具营销公司业务范围
  • 网站源码如何安装做游戏课程网站
  • 选服务好的网站建设亚洲砖码砖专区2022
  • 网站快速查找wordpress 悬停 图片 文字