当前位置: 首页 > news >正文

提升网站权重的方法英文网站建设怎么样

提升网站权重的方法,英文网站建设怎么样,广州互联网公司排行榜,什么是软文Selective attention improves transformer Google 2024.10.3 一句话#xff1a;简单且无需额外参数的选择性注意力机制#xff0c;通过选择性忽略不相关信息并进行上下文剪枝#xff0c;在不增加计算复杂度的情况下显著提升了Transformer模型的语言建模性能和推理效率。 论…Selective attention improves transformer Google 2024.10.3 一句话简单且无需额外参数的选择性注意力机制通过选择性忽略不相关信息并进行上下文剪枝在不增加计算复杂度的情况下显著提升了Transformer模型的语言建模性能和推理效率。 论文链接https://arxiv.org/pdf/2410.02703v1 1.为什么引入selective attention Transformer的记忆负担 Transformer核心self-attention关注输入序列中的所有部分不仅仅是局部信息也是RNN、LSTM改进可以关注更长字符串但是也引入了更高计算量所有信息都保存在上下文缓冲区计算所有上下文信息的相关性 Selective attention高效信息筛选器 自动删除不再有用的信息从上下文缓冲区中移除不必要的元素提高模型性能减少计算和内存需求 标记token b无法影响标记c从标记a中读取信息的程度标记b确定标记a对于后续标记c是不相关甚至是误导性的 Selective attention允许一个标记决定另一个标记不再被需要从而减少后续标记对该标记的关注度 2.selective attention可视化剔除token过程 1变量赋值 y7; x1; x3; z5; x? 则x3即不管前面x1赋值是多少都与之无关 红色线代表对前面token的掩蔽程度在变量赋值中掩蔽程度非0即1一般为[0,1] 变量赋值中绿色箭头处当出现第二次 ‘Z’ token时前面Z、177直接掩蔽掉 2自然语言模型 序列Bar,##ack, Obama ##ack直接掩蔽了bar这里红色线有深浅代表掩蔽程度不同比如day对a的掩蔽程度比较浅说明保留了部分a的信息 3.选择函数 selection matrix SNxNSij表示标记xi对标记xj的掩蔽程度 S矩阵限制条件1.通过ReLU限制负值为0只降低注意力不增强注意力 2. Begin of Sentence标记初始句首不屏蔽本身不关注不屏蔽 第一行QK/sqrt(dk) 第二行mask引入设置 第三行选定head 0 第四行-第六行S的三个约束条件 第七行右移且右移后对角线为0 第八行S累加得到F为什么累加 第九行从标准attention中减去F 第十行归一化权重 文心一言代码解读 4.context pruning 上下文剪枝 上下文缓冲区修剪元素来减少注意力模块的内存和计算需求。每层的稀疏性在样本之间是稳定的本文实验有验证为每一层设定各自固定的内存预算。 上下文剪枝步骤 1.初始化K K1, . … , KL N为每层内存预算其中N的上下文缓冲区大小 2.前Kl个token保持后续每个token和前面对比丢弃最高F值对应token 3.贪婪迭代方法分配总的内存预算迭代直到模型性能达到预定义阈值即标准attention模型性能 5.loss 每层内存之和/层数token数我们希望M内存越小越好M越小L越小相关性一致同时Ln≠pad即同aqrt(dk)限定范围一样将分子大小限定一定范围内 内存计算 τ 1限定F矩阵范围不超过1 Lppl standard log-perplexity loss 标准对角困惑度损失函数 ϵ is a small weight factor: ϵ 0.1 τ 1固定数值 L表示层数n≠pad表示非填充标记的数量字符串输入固定缺失填充padding对应token来说即非填充token实际有效信息token 6.selective attention改进及其效果 1简单且无需额外参数 2减小注意力机制的上下文缓冲区大小推理过程中显著减少内存和计算需求 3标准Attention模型拥有约两倍多的头数和参数与selective attention效果相当 4上下文大小为512、1024和2048时内存分别比未采用选择性注意力的相同验证困惑度的模型减少16倍、25倍和47倍 7.待改进 1Decoder-only 2上下文减少提高推理效率但并不能提高训练效率探索在训练过程中迭代减少上下文缓冲区的大小 3移除元素后没有对模型进行进一步的训练在上下文减少后进行一些额外的训练可能会实现进一步的改进 4仅对具有选择性注意力的预训练模型进行了实验微调步骤中将其应用于现有模型 8.实验
http://www.w-s-a.com/news/142195/

相关文章:

  • 做定制网站价格有网站了怎么做app
  • 做网站和制作网页的区别北京朝阳区最好的小区
  • 网站策划 ppt北京装修公司排名推荐
  • 郑州网站建设公司哪家专业好如何注册一家公司
  • 证券投资网站做哪些内容滨州论坛网站建设
  • 重庆网站建设公司模板广东佛山
  • 中展建设股份有限公司网站做网站备案是什么意思
  • 石家庄网站建设接单wordpress功能小工具
  • 有没有专门做网站的网站镜像上传到域名空间
  • 网站建设中 windows买域名自己做网站
  • 设计英语宁波seo做排名
  • 奉贤网站建设上海站霸深圳几个区
  • c#做网站自已建网站
  • 成都地区网站建设网站设计类型
  • 如何做网站结构优化北京响应式网站
  • 出售源码的网站威海住房建设局网站
  • 网站建设补充报价单网站建设 技术指标
  • 做网站费用分摊入什么科目做网络网站需要三证么
  • 房屋备案查询系统官网杭州排名优化软件
  • 网站地图html网络营销的流程和方法
  • 注册好网站以后怎么做wordpress 获取插件目录下
  • 南京做网站dmooo地方网站需要什么手续
  • 网站开发合同有效期omeka wordpress对比
  • 杭州设计网站的公司广州网站改版领军企业
  • 网站备案系统苏州网站设计网站开发公司
  • 怎么样做微网站著名企业vi设计
  • 三分钟做网站网页设计心得体会100字
  • 网站建设支付宝seo建站是什么
  • 常州做网站的 武进学雷锋_做美德少年网站
  • 怎样建网站赚钱贵州seo和网络推广