做网站 徐州,jsp企业网站,财务公司网站建设,深圳定制玻璃瓶矿泉水厂家论文下载#xff1a;https://openreview.net/pdf?idr1xMH1BtvB
另一篇分析文章#xff1a;ELECTRA 详解 - 知乎 一、概述
对BERT的token mask 做了改进。结合了GAN生成对抗模型的思路#xff0c;但是和GAN不同。
不是对选择的token直接用mask替代#xff0c;而是替换为…论文下载https://openreview.net/pdf?idr1xMH1BtvB
另一篇分析文章ELECTRA 详解 - 知乎 一、概述
对BERT的token mask 做了改进。结合了GAN生成对抗模型的思路但是和GAN不同。
不是对选择的token直接用mask替代而是替换为一个生成器网络产生的token。
然后训练模型时并不是只被破坏的token而是训练一个辨别模型来预测这些被破坏的输入的每一个token是否是被生成模型生成的样本替代的。因为将GANs应用于文本很困难所以生成损坏token的生成器是以最大似然进行训练的。
小generator和大discriminator共同训练但判别器的梯度不会传给生成器
fine-tuning 时丢弃generator只使用discriminator 二、网络结构和训练 1、模型训练两个网络G和D。 G给定位置t将该位置token替换为mask输入到GG输出一个概率结合softmax层来产生mask位置的xt从而G产生损坏的输入。输出只在mask的token中计算分数不是所有的token。 D给定位置tD预测xt是否是真的。输出只在mask的token中预测是不是真的不是所有的。 对于给定一个随机位置序列原始输入对应位置替换为[MASK] token输入GG学习恢复原始序列。D来分辨哪些token是被生成器产生的样本替换的。
文本损坏过程描述为 2、损失函数为 MLM损失的计算只计算m个即m个被masked tokens
Disc损失 t的取值到 1..n每个token都会更新参数 在训练过程中discriminator的loss不会反向传播到generator因为generator的sampling的步骤导致在pre-training之后只使用discriminator进行fine-tuning.