当前位置: 首页 > news >正文

seo网站营销推广wordpress 中文付费主题

seo网站营销推广,wordpress 中文付费主题,二维码导航网站源码,西北网站建设引子 你可能听说过 Transformer#xff0c;听说它是 ChatGPT 的核心结构#xff0c;或者它是深度学习的一个神级发明#xff0c;甚至是“自然语言处理的变革性里程碑”#xff0c;各大教育机构和电子书也有深刻的见解#xff0c;但当你去百度、知乎、B站一搜#xff0c;…引子 你可能听说过 Transformer听说它是 ChatGPT 的核心结构或者它是深度学习的一个神级发明甚至是“自然语言处理的变革性里程碑”各大教育机构和电子书也有深刻的见解但当你去百度、知乎、B站一搜全是一些看不懂的专业术语比如“多头注意力”、“位置编码”、“层归一化”、“残差连接”…… 那Transformer 到底是个啥它到底在干嘛今天我们来彻底讲清楚 Transformer到底是什么怎么来的怎么用为什么它这么强。 一句话理解 Transformer Transformer 是一种专门用来处理“序列数据”比如一段文字、一个句子、一串代码的深度学习网络结构它的核心思想是用注意力机制代替传统的循环神经网络RNN让模型可以并行计算从而实现更快、更准、更强。 框架 传统模型都有什么问题拿RNN和CNN等传统模型框架和Transformer做下比对。 1. 循环神经网络RNN RNN是循环神经网络能处理语音、文字等序列数据通过循环结构捕捉时序依赖。 比如输入一句话比如 “I love you”RNN 是一个一个词读进去的 第一步输入 “I”得到一个状态第二步输入 “love”结合前面的状态再输出新的状态第三步输入 “you”再更新状态 存在问题 一个词一个词处理串行处理太慢。长句子信息容易忘掉前面说了啥比如翻译长句子会忘记主语是谁。 2. 卷积神经网络CNN CNN是专门处理图像的深度学习模型能自动识别图像中的物体也能处理文本。 问题不太擅长处理句子里远距离的依赖关系比如“我昨天吃了一个苹果它很甜”“它”指的是“苹果”这个跳跃 CNN 很难搞清楚。 3.Transformer 2017 年谷歌一篇论文横空出世 Attention Is All You Need《注意力机制就是一切》 论文里首次提出了 Transformer 模型之后各种 GPT、BERT、ChatGPT、Claude、文心一言等大模型全是 Transformer 系列的 整体结构介绍 你可以把 Transformer 想成一个复杂的“翻译机器人”由两大模块组成 Encoder 编码器读懂输入的句子把每个词变成一个向量提取出句子中各词之间的关系。Decoder 解码器根据 Encoder 的输出逐个生成目标语言的单词。 核心概念详解 1. 注意力机制Attention 这是 Transformer 的灵魂重点来了 什么是注意力 举个例子 当你读到这句话“我昨天吃了一个苹果它很甜。” 你大脑会自然知道“它”指的是“苹果”你在理解“它”的时候其实“注意力”放在了“苹果”这个词上。 Transformer 的注意力机制就是模仿人脑这种机制 对于当前的词它会自动“关注”句子中和它最相关的词。 最经典的 Attention 公式Attention(Q, K, V) softmax(QK^T / √d) * V QQuery查询向量比如“它”KKey键向量比如“苹果”VValue值向量词的表示 意思是用 Q 去和 K 比较相似度点积算出每个词和“它”的相关程度然后根据这些相关程度加权平均 V。 最后就得到了一个融合了相关信息的向量表示 2. 多头注意力机制Multi-head Attention 一个头看的角度有限就像一只眼睛看世界没那么立体。 Transformer 同时用多个“注意力头”来看句子每个头看不同的关系 有的头专门关注形容词和名词的关系有的头关注动词和主语之间的关系有的看长距离依赖…… 然后把这些信息综合起来模型就更聪明啦 3. 位置编码Positional Encoding 注意Transformer 结构没有像 RNN 那样的顺序处理。 所以它根本不知道哪个词是第一个、哪个是第二个…… 为了解决这个问题它在每个词的向量里加上一个位置编码让模型知道哪个词在前哪个词在后。 可以简单理解为 把“词义向量 位置信息”组合在一起才能真正懂句子。 4. 残差连接 层归一化 这两个概念就是为了让深层神经网络不容易“死掉”或者“学崩”。 简单说 残差连接ResNet跳过一部分计算避免信息丢失。LayerNorm层归一化让每一层的输出数值保持稳定不会炸或消失。 5. 前馈神经网络FFN Transformer 中每个编码器层不仅有注意力模块还有一个小小的前馈神经网络 就是两层全连接层 ReLU 激活函数每个词的表示单独喂进去进一步处理和提取特征 Encoder 和 Decoder 的结构图简化一下 Encoder每层 输入嵌入 位置编码↓ 多头自注意力机制自己和自己注意↓ 残差连接 LayerNorm↓ 前馈神经网络FFN↓ 残差连接 LayerNormDecoder每层 目标词嵌入 位置编码↓ Masked 多头自注意力只看前面的词↓ 残差连接 LayerNorm↓ 跨注意力和Encoder输出做注意力↓ 残差连接 LayerNorm↓ 前馈神经网络FFN↓ 残差连接 LayerNorm6. 总结 优点说明并行处理不像RNN那样一步步速度更快全局依赖建模注意力机制可以看全局信息模块化设计每一块都很独立扩展容易表达能力强多头注意力可以挖掘复杂关系通用性强既能做文本又能做图像、音频、代码 Transformer 是一种结构化的神经网络用“注意力机制”代替了传统的循环神经网络通过自注意力、多头机制、前馈网络、位置编码等模块实现了对文本序列的高效建模被广泛应用于翻译、写作、聊天机器人、语音识别、代码生成等各种 AI 场景中。 它像一个聪明的阅读器能自动识别出一个句子中哪些词彼此相关。它不像传统方法那样死板地一个字一个字看而是像高考作文审题老师一眼看出重点在哪儿。它不仅能“翻译”句子还能“续写”小说、“理解”语义、“回答”问题……AI时代的核心引擎 资料 框架推荐PyTorch 或 TensorFlow学习资源 Transformer 官方论文Attention Is All You Need代码实战推荐哈佛 NLP 教程 (The Annotated Transformer) GitHub 地址https://github.com/harvardnlp/annotated-transformer 尾声 如果你是初学者反正我是看了这篇博客能对 Transformer 有一个整体认识那就是我写这篇文章最大的动力。 引用某著名讲师的名言 既然我们不能阻挡AI的脚步那我们就躬身入局深入理解AI底层这样我们才能掌控AI让我们自己变得更加强大 AI 时代不怕出身普通只怕不敢上手咱们普通人也能看懂、学会、用好 Transformer
http://www.w-s-a.com/news/104272/

相关文章:

  • 电子商务网站建设报告范文单位做网站怎么做
  • 优质的外国网站qq小程序在哪里打开
  • 商务网站建设与推广实训报告免费素材网站无水印
  • 外贸站seoapp开发公司历程概述
  • 沈阳网站推广¥做下拉去118cr陶瓷企业 瓷砖地板公司网站建设
  • 医院网站官方微信精神文明建设我做服装设计师的 求推荐资源网站
  • 微信网站建设需要那些资料昆明cms模板建站
  • 安庆网站建设兼职中企动力是500强吗
  • 网站排名优化技巧基于网站的网络营销方法有哪些
  • 摄影素材网站做知识问答的网站
  • 中小企业网站建设济南兴田德润电话门店管理系统软件排行
  • 昆明工程建设信息网站柳州网站建设公司哪家好
  • 如何分析网站关键词北京门户网站网址
  • 做网站与做游戏那个好网站域名怎么起
  • 有没有做cad单的网站银行网站建设方案视频
  • 和各大网站做视频的工作高校网站群管理系统
  • 中国建设人才服务信息网是正规网站怎么注销自己名下的公司
  • 网站开发新型技术那些网站做任务领q币
  • 海口手机网站建设wordpress微支付宝
  • 做公司网站需要几天深圳自定义网站开发
  • 做网站学多长时间可以学会推广软件公司
  • 网络网站设计培训长沙建站模板大全
  • 站群搭建移动端处理器天梯图
  • 岳池发展建设集团有限公司门户网站湛江seo咨询
  • 手机网站工具关键词排名是什么意思
  • 游民星空是谁做的网站沈阳网站托管公司
  • 做网站搭建需要什么人vs2017移动网站开发
  • 购物网站开发需要什么技术怎么查看网站是否备案
  • 学做电商那个网站好网站建设投票主题
  • 中卫网站推广网络营销毕业设计做网站大小有什么要求