当前位置: 首页 > news >正文

做网站SEO用什么电脑方便wordpress 动漫 主题

做网站SEO用什么电脑方便,wordpress 动漫 主题,旅行社门店做网站嘛,网站推广岗位职责相关博客 【自然语言处理】【长文本处理】RMT#xff1a;能处理长度超过一百万token的Transformer 【自然语言处理】【大模型】MPT模型结构源码解析(单机版) 【自然语言处理】【大模型】ChatGLM-6B模型结构代码解析(单机版) 【自然语言处理】【大模型】BLOOM模型结构源码解析(… 相关博客 【自然语言处理】【长文本处理】RMT能处理长度超过一百万token的Transformer 【自然语言处理】【大模型】MPT模型结构源码解析(单机版) 【自然语言处理】【大模型】ChatGLM-6B模型结构代码解析(单机版) 【自然语言处理】【大模型】BLOOM模型结构源码解析(单机版) 【自然语言处理】【大模型】极低资源微调大模型方法LoRA以及BLOOM-LORA实现代码 【深度学习】【分布式训练】Collective通信操作及Pytorch示例 【自然语言处理】【大模型】Chinchilla训练计算利用率最优的大语言模型 【自然语言处理】【大模型】大语言模型BLOOM推理工具测试 【自然语言处理】【大模型】GLM-130B一个开源双语预训练语言模型 【自然语言处理】【大模型】用于大型Transformer的8-bit矩阵乘法介绍 【自然语言处理】【大模型】BLOOM一个176B参数且可开放获取的多语言模型 【自然语言处理】【ChatGPT系列】FLAN微调语言模型是Zero-Shot学习器 【自然语言处理】【ChatGPT系列】ChatGPT的智能来自哪里 RMT能处理超过一百万token的Transformer ​ 近日RMT的作者放出的评测报告中声称其可以将Transformer能够处理的最大长度放宽到超过100万个tokens。让我们来看看RMT的原理及其实验细节。 一、RMT 论文地址https://arxiv.org/pdf/2207.06881.pdf 1. 背景 ​ 自注意力机制为Transformer的核心组件之一赋予模型针对单个token聚合上下文tokens的能力。因此每个token在编码结束后都能够获得丰富的上下文表示。但是这种方式会造成全局信息和局部信息都被存储在单个表示中。全局特征被分别存储在所有的token表示上导致全局特征“模糊”且难以访问。此外自注意力机制的计算复杂度是输入长度的平方这也造成模型难以应用在长文本输入上。 ​ RMT(Recurrent Memory Transformer)是一种片段级、记忆增强的Transformer用于解决Transformer在长文本上的问题。RMT使用一种附加在输入序列上的特定记忆token 来实现记忆机制。这些记忆token为模型提供了额外的存储容量便于模型处理那些没有直接表达至任何token的信息。 2. 方法 2.1 Transformer-XL ​ Transformer-XL基于片段级循环和相对位置编码实现了一种state重用的缓存机制。对于每个transformer层 n n n前一个片段 M n M^n Mn计算出的hidden state会被缓存。第 n n n层的输入的组成(1) 前 m m m个缓存的内容(2) 前一个Transformer层针对当前片段 τ \tau τ的输出即 H ~ τ n − 1 [ S G ( M − m : n − 1 ) ∘ H τ n − 1 ] \tilde{H}_{\tau}^{n-1}[SG(M_{-m:}^{n-1})\circ H_{\tau}^{n-1}] \\ H~τn−1​[SG(M−m:n−1​)∘Hτn−1​] 这里 M − m : n − 1 M_{-m:}^{n-1} M−m:n−1​是第 n − 1 n-1 n−1层的前 m m m个缓存内容 S G SG SG表示不需要梯度 ∘ \circ ∘表示拼接 H τ n − 1 H_{\tau}^{n-1} Hτn−1​表示模型第 n − 1 n-1 n−1层的输出。 ​ H ~ τ n − 1 \tilde{H}_{\tau}^{n-1} H~τn−1​是片段 τ \tau τ针对模型第 n n n层(TL)的输入产生输出的过程为 Q τ n W q n H τ n − 1 K τ n W k n H ~ τ n − 1 V τ n W v n H ~ τ n − 1 H τ n T L ( Q τ n , K τ n , V τ n ) \begin{align} Q_\tau^nW_q^n H_{\tau}^{n-1} \\ K_\tau^nW_k^n \tilde{H}_{\tau}^{n-1} \\ V_\tau^nW_v^n\tilde{H}_{\tau}^{n-1} \\ H_\tau^nTL(Q_\tau^n,K_\tau^n,V_\tau^n) \end{align} \\ Qτn​Kτn​Vτn​Hτn​​Wqn​Hτn−1​Wkn​H~τn−1​Wvn​H~τn−1​TL(Qτn​,Kτn​,Vτn​)​​ 其中 W q n , W k n , W v n W_q^n,W_k^n,W_v^n Wqn​,Wkn​,Wvn​是注意力的投影矩阵。注意 K τ n K_{\tau}^n Kτn​和 V τ n V_{\tau}^n Vτn​在计算时使用的是包含了缓存内容的 H ~ τ n − 1 \tilde{H}_{\tau}^{n-1} H~τn−1​而 Q τ n Q_\tau^n Qτn​则使用了 H τ n − 1 H_\tau^{n-1} Hτn−1​。在Transformer-XL的自注意力层中使用了相似位置编码。 2.2 RMT ​ 像GMAT、ETC、Memory Transformer等记忆增强的Transformer模型通常会使用特殊的全局tokens来存储表示。通常记忆tokens会被添加至输入序列的开头位置。然而decoder-only架构的causal attention mask使得在序列开始处的记忆tokens无法收集到后续tokens的信息。若把记忆token放置在序列的末尾前面的token就无法访问这些表示。为了解决这个问题在序列样本处理时添加了一个循环。记忆token的表示放置在当前片段的末尾然后作为下一个片段开始和末尾的记忆表示初始化。 ​ RMT的输入是在标准方式基础上添加了特殊tokens [ mem ] [\text{mem}] [mem]。每个记忆token都是一个实值向量。 m m m个记忆token分别被拼接至当前片段表示 H r 0 \text{H}_r^0 Hr0​的开始和末尾 H ~ τ 0 [ H τ m e m ∘ H τ 0 ∘ H τ m e m ] H ˉ τ N Transformer ( H ~ τ 0 ) [ H τ r e a d ∘ H τ N ∘ H τ w r i t e ] : H ˉ τ N \begin{align} \tilde{H}_{\tau}^0[H_{\tau}^{mem}\circ H_{\tau}^0\circ H_{\tau}^{mem}] \\ \bar{H}_\tau^N\text{Transformer}(\tilde{H}_{\tau}^0) \\ [H_\tau^{read}\circ H_\tau^{N}\circ H_{\tau}^{write}]:\bar{H}_\tau^N \end{align} \\ ​H~τ0​[Hτmem​∘Hτ0​∘Hτmem​]HˉτN​Transformer(H~τ0​)[Hτread​∘HτN​∘Hτwrite​]:HˉτN​​​ 其中 N N N的模型的层数。总的来说就是前一片段的记忆token拼接当前片段然后进行前向传播。传播的结果中包含了当前层的表现以及记忆token的表示。 ​ 序列开始处的一组记忆token被称为读记忆其允许后续的tokens能够读取前一个片段的信息。末尾处的一组记忆token则称为写记忆其能够更新“记忆”的表示。因此 H τ w r i t e H_{\tau}^{write} Hτwrite​包含了片段 τ \tau τ的更新后记忆tokens。 ​ 输入序列中的片段会被顺序处理。为了使片段间能够循环链接将当前片段输出的记忆token传递给下一个片段的输入 H τ 1 m e m : H τ w r i t e H ~ τ 1 0 [ H τ 1 m e m ∘ H τ 1 0 ∘ H τ 1 m e m ] \begin{align} H_{\tau1}^{mem}: H_{\tau}^{write} \\ \tilde{H}_{\tau1}^0 [H_{\tau1}^{mem}\circ H_{\tau1}^0\circ H_{\tau1}^{mem}] \end{align} \\ ​Hτ1mem​:Hτwrite​H~τ10​[Hτ1mem​∘Hτ10​∘Hτ1mem​]​​ RMT是基于全局记忆token实现的其能够保证骨干Transformer不变的情况下增强任意Transformer类模型的能力。“记忆token”仅在模型的输入和输出上进行操作。 2.3 两者的区别 (1) RMT为每个片段存储 m m m个记忆向量而Transformer-XL则为每个片段存储 m × N m\times N m×N向量。 (2) RMT会将前一个片段的记忆表示与当前片段的tokens一起送入Transformer层进行处理。 (3) 读/写记忆块能够访问当前块的所有tokenscausal attention mask仅应用在输入序列上。 (4) 不同于Transformer-XLRMT反向传播时不会去掉记忆部分的梯度。(本文实验的片段间梯度传播范围从0到4) 3. 原论文实验 ​ 上图是RMT在三个需要长文本处理能力的任务Copy、Reverse和Associative retrieval上的实验结果。图的横坐标是切分的片段数纵坐标是准确率。可以看到RMT的效果都更好。 ​ 上表是语言建模任务的困惑度指标。显然Transformer-XL和RMT的效果要好于baseline模型和Memory Transformer。 二、扩展至100万tokens 论文地址https://arxiv.org/pdf/2304.11062.pdf 1. RMT Encoder版 ​ 输入样本被分割为 m m m个片段记忆token被添加到片段的开始并与片段的其余tokens一起处理。对于BERT这样的encoder-only结构记忆token仅被添加到片段的开始而不像decoder-only那样分别添加read和write。对于时间步 τ \tau τ和片段 H τ 0 H_{\tau}^0 Hτ0​执行步骤为 H ~ τ 0 [ H τ m e m ∘ H τ 0 ] H ˉ τ N Transformer ( H ~ τ 0 ) [ H ˉ τ m e m ∘ H τ N ] : H ˉ τ N \begin{align} \tilde{H}_{\tau}^0[H_{\tau}^{mem}\circ H_{\tau}^0] \\ \bar{H}_{\tau}^N\text{Transformer}(\tilde{H}_{\tau}^0) \\ [\bar{H}_{\tau}^{mem}\circ H_{\tau}^N]:\bar{H}_{\tau}^N \end{align} ​H~τ0​[Hτmem​∘Hτ0​]HˉτN​Transformer(H~τ0​)[Hˉτmem​∘HτN​]:HˉτN​​​ 其中 N N N是Transformer的层数。 ​ 在前向传播后 H ˉ τ m e m \bar{H}_{\tau}^{mem} Hˉτmem​片段 τ \tau τ的记忆token。输入序列的片段会按顺序逐个被处理。为了确保能够实现递归的连接将当前片段的记忆token传递为下一个片段的输入 H τ 1 m e m : H ˉ τ m e m H ~ τ 1 0 [ H τ 1 m e m ∘ H τ 1 0 ] \begin{align} H_{\tau1}^{mem}:\bar{H}_{\tau}^{mem} \\ \tilde{H}_{\tau1}^0[H_{\tau1}^{mem}\circ H_{\tau1}^0] \end{align} \\ ​Hτ1mem​:Hˉτmem​H~τ10​[Hτ1mem​∘Hτ10​]​​ 2. 记忆任务 ​ 为了测试记忆能力构建了需要记忆简单事实和基本推理的合成数据集。任务的输入是若干个事实和一个需要通过这些事实才能回答的问题。任务的形式为6分类每个类别表示一个独立的答案选项。 事实记忆 该任务是测试RMT长时间存储信息的能力。在最简单的例子中事实总是位于输入的开始而问题在输入的末尾。问题和答案之间插入不相关的文本完整的输入无法放入单个模型中。 事实检测和记忆 该任务增加了难度将事实移动到随机的位置。需要模型从不相关文本中区分出事实写入到记忆中随后用来回答问题。 用记忆的事实进行推理 两个事实被添加至输入的随机位置上问题放置在输入的末尾该问题需要所有的事实才能回答。 3. 实验 ​ 实验使用bert-base-cased作为backbone。所有模型都是用尺寸为10的memory来增强并使用AdamW优化器进行优化。 3.1 课程学习 ​ 使用训练schedule能够极大的改善准确率和稳定性。初始RMT在较短的任务上进行训练在训练收敛之后再继续增加长度。 3.2 外推能力 ​ 为了评估RMT泛化到不同序列长度的能力评估了在不同长度上训练的模型结果如上图。模型在较短的任务上效果更好。唯一的例外是单片段推理任务模型一旦在更长序列上训练那么效果就会变差。 ​ 随着训练片段数量的增加RMT也能够泛化到更长的序列上。在5个或者更长的片段上进行训练后RMT几乎可以完美的泛化到两倍的长度。 ​ 为了能够测试泛化的极限将验证任务的尺寸从4096增加至2043904RMT在如此长的序列上也能够有很好的效果。 三、总结 总的来说RMT的思路简单。相比Transformer-XL来说片段间传递的参数会少很多。RMT采用递归的方式传递信息那么训练时梯度也需要回传这导致训练时不太能并行。原始论文中采用decoder-only架构但是在扩展至百万tokens的实验中采用了encoder-only架构是decoder-only的效果不够好吗评测的任务总体比较简单迁移至当前的LLM上效果怎么样还比较难以确定。
http://www.w-s-a.com/news/397938/

相关文章:

  • 谷歌seo引擎优化宁波seo关键词
  • 外贸网站建设需要注意什么seo课程
  • 做信息图网站网站建设的软件介绍
  • 网站开发语言数据库有几种魏县审批建设的网站
  • 北京公司网站建设推荐海口建设
  • 不懂编程如何做网站婚礼网站模板
  • 像京东一样的网站wordpress入门视频教程7 - 如何在文章里加入视频和音乐
  • 惠州网站建设排名wordpress3万篇文章优化
  • 创建网站的三种方法北京建王园林工程有限公司
  • jsp网站建设模板下载十大免费excel网站
  • 网络公司网站图片网站建立好了自己怎么做优化
  • 云主机是不是可以搭建无数个网站百度快速seo优化
  • 房地产怎么做网站推广建立音乐网站
  • 川畅科技联系 网站设计网站开发的教学视频
  • 为什么学网站开发凡科登陆
  • 设计师常备设计网站大全中山精品网站建设信息
  • 杭州建设工程网seo服务是什么
  • 兼职做问卷调查的网站wordpress mysql设置
  • 怎么在百度上能搜到自己的网站山西seo谷歌关键词优化工具
  • 网站搭建免费模板飞鱼crm下载
  • 网站开发竞品分析app制作公司深圳
  • 网站建设ssc源码修复设计班级网站建设
  • 网站重定向凡科做网站不要钱
  • 佛山html5网站建设微信营销软件破解版
  • 网站单页做301南京百度推广
  • 私人做网站要多少钱展芒设计网页
  • 怎样网站制作设计如何在网上推广农产品
  • 做关键词排名卖网站聚名网
  • 吉林省住房城乡建设厅网站首页体育器材网站建设方案
  • 网站建设及维护专业手机金融界网站