当前位置: 首页 > news >正文

做网站 徐州jsp企业网站

做网站 徐州,jsp企业网站,财务公司网站建设,深圳定制玻璃瓶矿泉水厂家论文下载#xff1a;https://openreview.net/pdf?idr1xMH1BtvB 另一篇分析文章#xff1a;ELECTRA 详解 - 知乎 一、概述 对BERT的token mask 做了改进。结合了GAN生成对抗模型的思路#xff0c;但是和GAN不同。 不是对选择的token直接用mask替代#xff0c;而是替换为…论文下载https://openreview.net/pdf?idr1xMH1BtvB 另一篇分析文章ELECTRA 详解 - 知乎 一、概述 对BERT的token mask 做了改进。结合了GAN生成对抗模型的思路但是和GAN不同。 不是对选择的token直接用mask替代而是替换为一个生成器网络产生的token。 然后训练模型时并不是只被破坏的token而是训练一个辨别模型来预测这些被破坏的输入的每一个token是否是被生成模型生成的样本替代的。因为将GANs应用于文本很困难所以生成损坏token的生成器是以最大似然进行训练的。 小generator和大discriminator共同训练但判别器的梯度不会传给生成器 fine-tuning 时丢弃generator只使用discriminator 二、网络结构和训练 1、模型训练两个网络G和D。 G给定位置t将该位置token替换为mask输入到GG输出一个概率结合softmax层来产生mask位置的xt从而G产生损坏的输入。输出只在mask的token中计算分数不是所有的token。 D给定位置tD预测xt是否是真的。输出只在mask的token中预测是不是真的不是所有的。 对于给定一个随机位置序列原始输入对应位置替换为[MASK] token输入GG学习恢复原始序列。D来分辨哪些token是被生成器产生的样本替换的。 文本损坏过程描述为 2、损失函数为 MLM损失的计算只计算m个即m个被masked tokens Disc损失 t的取值到 1..n每个token都会更新参数 在训练过程中discriminator的loss不会反向传播到generator因为generator的sampling的步骤导致在pre-training之后只使用discriminator进行fine-tuning.
http://www.w-s-a.com/news/54567/

相关文章:

  • 浙江企业网站建设网站域名有了 网站如何建设
  • 学编程哪个机构有权威德州做网站优化
  • 最火的网站开发语言福州网站建设服务商
  • 嘉兴网站制作哪里好asp网站源码免费版
  • 如何给网站配置域名百度网站统计添加网址
  • 搭建wap网站磁力引擎
  • 如何给公司网站做推广个人网站可以做社区吗
  • 网站建设为什么不给源代码大理如何做百度的网站
  • 网站代理违法吗网站备份流程
  • 免费域名查询网站wordpress wordfence
  • h5响应式网站模板制作巴南网站制作
  • 网站方案报价软文什么意思
  • 电子商城网站如何建设上海公司车牌价格
  • 丽江网站设计公司专业公司网站设计企业
  • iis怎么建设网站特色产品推广方案
  • 道路建设网站专题品牌网站建设特色大蝌蚪
  • 网站开发组合 所有组合如何做com的网站
  • 电商网站怎么做的Wordpress 报表的插件
  • 纹理网站推荐买了两台服务器可以做网站吗
  • 机关公文写作网站南宁互联网推广
  • 五指山网站开发价格免费申请网站域名
  • 帝国音乐网站怎么做数据表电脑优化软件
  • 做国外网站收款怎么收建筑人才招聘网站
  • 毕设做桌面端还是网站sns社交网站 建设
  • 建设一个网站需要注意哪些内容wordpress 进销存
  • 沈阳市建设局网站sem优化师是什么意思
  • 餐饮vi设计公司网站排名优化方法讲解
  • 无线昆明官方网站可以做书的网站
  • 信誉最好的20个网投网站凡科网站建设之后怎么删除
  • 天津网站开发技术广州网站优化公司排名