推广网站注册赚佣金,cms支持是什么,类似wordpress的软件,wordpress前端登录这篇文章是对dreamer系列的改进#xff0c;是一篇world model 的论文改进点在于#xff0c;dreamer用的是循环神经网络#xff0c;本文想把它改成transformer#xff0c;并且希望能利用transformer实现并行训练。改成transformer的话有个地方要改掉#xff0c;dreamer用ht…
这篇文章是对dreamer系列的改进是一篇world model 的论文改进点在于dreamer用的是循环神经网络本文想把它改成transformer并且希望能利用transformer实现并行训练。改成transformer的话有个地方要改掉dreamer用ht和xt来预测zt但transformer要实现并行训练的话最好是不要有ht因为ht依赖transformer来预测而transformer又需要zt作为输入形成循环依赖就只能一步一步地生成。为此把zt的预测改成只依赖于xt。如下所示 policy model的输入是ht和zt的concatenate