当前位置: 首页 > news >正文

深圳网站设计公司电单页网站的区别

深圳网站设计公司电,单页网站的区别,discuz蓝色城市门户论坛网站模板,沧县网站制作价格CoRL 2023 Oral paper code Intro 算法基于TD-MPC#xff0c;利用离线数据训练世界模型#xff0c;然后在线融合基于集成Q的不确定性估计实现Planning。得到的在线数据将联合离线数据共同训练目标策略。 Method TD-MPC TD-MPC由五部分构成: 状态特征提取 z h θ ( s ) …CoRL 2023 Oral paper code Intro 算法基于TD-MPC利用离线数据训练世界模型然后在线融合基于集成Q的不确定性估计实现Planning。得到的在线数据将联合离线数据共同训练目标策略。 Method TD-MPC TD-MPC由五部分构成: 状态特征提取 z h θ ( s ) z h_\theta(s) zhθ​(s)隐动力学模型 z ′ ‘ d θ ( z , a ) zd_\theta(z,a) z′‘dθ​(z,a)奖励模型 r ^ R θ ( z , a ) \hat{r}R_\theta(z,a) r^Rθ​(z,a)planning policy a ^ π θ ( z ) \hat{a}\pi_\theta(z) a^πθ​(z)终止状态下的 q ^ Q θ ( z , a ) \hat{q}Q_\theta(z,a) q^​Qθ​(z,a) 通过联合训练进行优化损失函数为 L ( θ ) E ( s , a , r , s ′ ) 0 : h ∼ B ⌊ ∑ t 0 h ( ∥ z t ′ − s g ( h ϕ ( s t ′ ) ) ∥ 2 2 ⏟ Latent dynamics ∥ r ^ t − r t ∥ 2 2 ⏟ Reward ∥ q ^ t − q t ∥ 2 2 ⏟ Value − Q θ ( z t , a ^ t ) ⏟ Action ) ⌋ ( 1 ) \mathcal{L}(\theta)\mathbb{E}_{(\mathbf{s},\mathbf{a},r,\mathbf{s}^{\prime})_{0:h}\sim\mathcal{B}}\left\lfloor\sum_{t0}^{h}\left(\underbrace{\|\mathbf{z}_{t}^{\prime}-\mathrm{sg}(h_{\phi}(\mathbf{s}_{t}^{\prime}))\|_{2}^{2}}_{\text{Latent dynamics}}\underbrace{\|\hat{r}_{t}-r_{t}\|_{2}^{2}}_{\text{Reward}}\underbrace{\|\hat{q}_{t}-q_{t}\|_{2}^{2}}_{\text{Value}}-\underbrace{Q_{\theta}(\mathbf{z}_{t},\hat{\mathbf{a}}_{t})}_{\text{Action}}\right)\right\rfloor(1) L(θ)E(s,a,r,s′)0:h​∼B​ ​t0∑h​ ​Latent dynamics ∥zt′​−sg(hϕ​(st′​))∥22​​​Reward ∥r^t​−rt​∥22​​​Value ∥q^​t​−qt​∥22​​​−Action Qθ​(zt​,a^t​)​​ ​ ​(1) 在Offline 设定下分布偏移将导致Q估计以及隐模型以及价值函数的错误估计。启发于IQL通过只对in-sample的动作尽心TD-backups来估计缓解过估计问题。因此对模型价值函数利用离线数据进行训练时此时Q函数采用IQL中的期望回归方法优化 L V ( θ ) ∣ τ − 1 { Q ϕ ( z t , a t ) − V θ ( z t ) 0 } ∣ ( Q ϕ ( z t , a t ) − V θ ( z t ) ) 2 , \mathcal{L}_{V}(\theta)|\tau-1_{\{Q_{\phi}(\mathbf{z}_{t},\mathbf{a}_{t})-V_{\theta}(\mathbf{z}_{t})0\}}|(Q_{\phi}(\mathbf{z}_{t},\mathbf{a}_{t})-V_{\theta}(\mathbf{z}_{t}))^{2}, LV​(θ)∣τ−1{Qϕ​(zt​,at​)−Vθ​(zt​)0}​∣(Qϕ​(zt​,at​)−Vθ​(zt​))2, 同时对planning policy采用AWR的更新即 exp ⁡ ( β ( Q ϕ ( z t , a t ) − V θ ( z t ^ ) ) ) log ⁡ π θ ( a t ∣ z t ) \exp(\beta(Q_\phi(\mathbf{z}_t,\mathbf{a}_t)-V_\theta(\hat{\mathbf{z}_t})))\log\pi_\theta(\mathbf{a}_t|\mathbf{z}_t) exp(β(Qϕ​(zt​,at​)−Vθ​(zt​^​)))logπθ​(at​∣zt​) Uncertainty Estimation as Test-Time Behavior Regularizatio 离线训练的模型依旧存在OOD数据过估计需要在线微调。文章提出基于不确定性估计的planning实现在线交互过程中的动作选择。planning一定程度缓解基于约束的离线算法导致的在现阶段探索能力不足。进而导致算法样本效率低的问题。 首先构建集成Q函数模型计算基于标准差的不确信度作为惩罚项对奖励进行调整实现保守的在线planning。 R ^ γ h ( Q θ ( z h , a h ) − λ u h ) ∑ t 0 h − 1 γ t ( R θ ( z t , a t ) − λ u t ) , u t s t d ( { Q θ ( i ) ( z t , a t ) } i 1 N ) \hat{\mathcal{R}}\gamma^{h}\left(Q_{\theta}(\mathbf{z}_{h},\mathbf{a}_{h})-\lambda u_{h}\right)\sum_{t0}^{h-1}\gamma^{t}\left(R_{\theta}(\mathbf{z}_{t},\mathbf{a}_{t})-\lambda u_{t}\right),\quad u_{t}\mathrm{std}\left(\{Q_{\theta}^{(i)}(\mathbf{z}_{t},\mathbf{a}_{t})\}_{i1}^{N}\right) R^γh(Qθ​(zh​,ah​)−λuh​)t0∑h−1​γt(Rθ​(zt​,at​)−λut​),ut​std({Qθ(i)​(zt​,at​)}i1N​) 除此外还维护两个buffer分别存储离线数据于在线数据通过balance sampling数据训练模型、策略以及价值函数。 结果
http://www.w-s-a.com/news/676346/

相关文章:

  • 自己做网站服务器的备案方法怎么查网站点击量
  • 信息产业部icp备案中心网站织梦做双语网站
  • 爱站网站长seo综合查询工具局网站信息内容建设 自查报告
  • 我想建一个网站怎么建淄博网站推广那家好
  • 做网站和app需要多久河南自助建站建设代理
  • 大连做企业网站的公司宣传平台有哪些类型
  • 如何用微信做网站免费设计logo网站有哪些
  • 服务平台型网站余姚网站定制
  • 网站搭建联系方式太平阳电脑网网站模板
  • 请简述网站制作流程html5网络公司网站模板
  • 海尔集团企业网站建设分析重庆市建设银行网站
  • 介绍公司的网站有哪些广西壮族自治区
  • 网站做rss wordpress9 1短视频安装软件
  • 网站建设价格西安室内设计网站排行榜前十名知乎
  • 用nas建设服务器网站用vs做音乐网站
  • 天津市武清区住房建设网站网站自适应框架
  • 制作移动网站公司网站开发职业规划
  • 网站头部怎样做有气势wordpress 页面 锚
  • 秦皇岛网站建设系统推荐个人网站免费制作
  • 我做夫人那些年网站登录wordpress 扫码付费
  • 网站关键词代码怎么做公司 网站建设
  • 哈尔滨多语言网站建设wordpress分类链接
  • 购物网站项目介绍软件开发流程的五大步骤
  • 做的网站怎么放在网上2008 iis搭建网站
  • 网站维护服务公司上海兼职网站制作
  • 企业做网站需要多少钱湘潭九华网站
  • 嘉兴建站服务微营销官网
  • 比较好的网页模板网站浦项建设(中国)有限公司网站
  • 有趣的个人网站网页设计与制作的岗位职责
  • 有建设网站的软件吗长沙做网站的公司对比