当前位置: 首页 > news >正文

小企业网站建设服务创可贴网站怎么做图片大全

小企业网站建设服务,创可贴网站怎么做图片大全,微信商城小程序怎么开通,英语网站推广策划书总共从四方面来进行比较。 第一个方面#xff0c;高层次方法#xff08;自监督的预训练方法#xff09;对比#xff0c;总共三种方式。 语言模型式#xff0c;就是 GPT-2 那种方式#xff0c;从左到右预测#xff1b;BERT-style 式#xff0c;就是像 BERT 一样将一部… 总共从四方面来进行比较。 第一个方面高层次方法自监督的预训练方法对比总共三种方式。 语言模型式就是 GPT-2 那种方式从左到右预测BERT-style 式就是像 BERT 一样将一部分给破坏掉然后还原出来Deshuffling 顺序还原式就是将文本打乱然后还原出来。 其中发现 Bert-style 最好进入下一轮。 第二方面对文本一部分进行破坏时的策略也分三种方法。 Mask 法如现在大多模型的做法将被破坏 token 换成特殊符如 [M]replace span小段替换法可以把它当作是把上面 Mask 法中相邻 [M] 都合成了一个特殊符每一小段替换一个特殊符提高计算效率Drop 法没有替换操作直接随机丢弃一些字符。 此轮获胜的是 Replace Span 法类似做法如 SpanBERT 也证明了有效性。 当当当进入下一轮。 第三方面到底该对文本百分之多少进行破坏呢挑了 4 个值10%15%25%50%最后发现 BERT 的 15% 就很 ok了。这时不得不感叹 BERT 作者 Devlin 这个技术老司机直觉的厉害。 接着进入更细节第四方面因为 Replace Span 需要决定对大概多长的小段进行破坏于是对不同长度进行探索23510 这四个值最后发现 3 结果最好。 终于获得了完整的 T5 模型还有它的训练方法。 Transformer Encoder-Decoder 模型BERT-style 式的破坏方法Replace Span 的破坏策略15 %的破坏比3 的破坏时小段长度。 到此基本上 T5 预训练就大致说完了之后是些细碎探索。 Datasets 接着作者们拿着 C4 数据集做了各种实验比如说从里面分出各种类型的数据集单独训练 T5 模型之后看在下游任务的表现发现一些情况领域内的预训练数据可以增强下游任务想当然的。而 C4 完整数据集因为数据太多太杂可能反而不如这种领域内较少数据集。 还有从 C4 中抽出不同量数据做实验发现数据少时模型会记住数据所以之后表现会比较差这个也是想当然。 TrainingMulti-Task Learning 作者们之后又针对 MTDNN 给 T5 做了一系列类似训练在一堆监督和非监督数据上进行预训练。 结果发现只要混合训练比例调得OK和前面说的非监督预训练性能差不多。 Scalingbigger is better? 接着又做了当放大模型某方面规模的相关实验分别是增大模型增大数据还有在一定资源限制下的集成。 结论是当这些因素放大时对性能都有提高但其中大模型是最必要的。 Models 最后就是结合上面所有实验结果训练了不同规模几个模型由小到大 SmallEncoder 和 Decoder 都只有 6 层隐维度 5128 头Base相当于 Encoder 和 Decoder 都用 BERT-baseLargeEncoder 和 Decoder 都用 BERT-large 设置除了层数只用 12 层3BBillion和11B层数都用 24 层不同的是其中头数量和前向层的维度。 11B 的模型最后在 GLUESuperGLUESQuAD还有 CNN/DM 上取得了 SOTA而 WMT 则没有。看了性能表之后我猜想之所以会有 3B 和 11B 模型出现主要是为了刷榜。看表就能发现 比如说 GLUE到 3B 时效果还并不是 SOTA大概和 RoBERTa 评分差不多都是 88.5而把模型加到 11B 才打破 ALBERT 的记录。然后其他实验结果也都差不多3B 时还都不是 SOTA而是靠 11B 硬拉上去的。除了 WMT 翻译任务可能感觉差距太大要拿 SOTA 代价过大所以就没有再往上提。根据这几个模型的对比可以发现即使是容量提到 11B性能提升的间隔还是没有变缓因此我认为再往上加容量还是有提升空间。
http://www.w-s-a.com/news/618456/

相关文章:

  • 手机端做的优秀的网站设计企业做网站大概多少钱
  • 优化网站使用体验手机网站解析域名
  • 网站制作 商务做网站的软件名字全拼
  • 阿里巴巴网官方网站温州网站建设设计
  • 传奇购买域名做网站国外网站设计 网址
  • 西安凤城二路网站建设seo网站是什么
  • 网站后台如何更换在线qq咨询代码在线种子资源网
  • 东莞网站优化制作免费中文wordpress主题下载
  • 东莞建筑设计院排名网络优化论文
  • 做牙工作网站郑州前端开发培训机构
  • 温州专业建站网站制作的管理
  • 公司网站开发策划书有没有专门做教程的网站
  • 江苏省工程建设信息网站一天赚1000块钱的游戏
  • 制作响应式网站报价品牌建设整体体系包括什么
  • 网站推广策划报告目前做win7系统最好的网站
  • 东莞网站建设咨询公江西网站建设平台
  • 什么是网站功能源码下载站
  • 石家庄制作网站的公司双柏县住房和城乡建设局网站
  • 影视vip网站建设教程ppt模板免费下载 素材红色
  • 内蒙古城乡建设部网站首页平台网站建设ppt
  • 集约化网站建设项目官方网站建设
  • 原创先锋 北京网站建设网站开发电脑内存要多少
  • 婚恋网站建设项目创业计划书网站建设 食品
  • 免费建网站代码查询做导员的网站
  • 做网站的软件电子可以看女人不易做网站
  • 学校响应式网站模板下载仙居住房和城乡建设规划局网站
  • 推广网站的方法有拍卖网站建设
  • 网站建设网站排名优化中国网站服务器哪个好
  • asp网站应用程序网站建设需要提供的资料
  • 网站开发与设计.net微信小程序设计制作