当前位置: 首页 > news >正文

地产网站建设ppt代写平台

地产网站建设,ppt代写平台,东莞网络科技营销,途牛旅游网通过分歧进行自我监督探索 0、问题 使用可微的ri直接去更新动作策略的参数的#xff0c;那是不是就不需要去计算价值函数或者critic网络了#xff1f; 1、Motivation 高效的探索是RL中长期存在的问题。以前的大多数方式要么陷入具有随机动力学的环境#xff0c;要么效率…通过分歧进行自我监督探索 0、问题 使用可微的ri直接去更新动作策略的参数的那是不是就不需要去计算价值函数或者critic网络了 1、Motivation 高效的探索是RL中长期存在的问题。以前的大多数方式要么陷入具有随机动力学的环境要么效率太低无法扩展到真正的机器人设置。 2、Introduction 然而在学习无噪声模拟环境之外的预测模型时有一个关键的挑战:如何处理代理-环境交互的随机性? 随机性可能由以下几个来源引起:(1)嘈杂的环境观察(例如电视播放噪声);(2)智能体动作执行中的噪声(例如滑动);(3)作为智能体动作输出的随机性(例如智能体抛硬币)。 尽管有几种方法可以在低维状态空间中构建随机模型但将其扩展到高维输入(例如图像)仍然具有挑战性。另一种方法是建立确定性模型但在随机不变的特征空间中对输入进行编码。最近的工作提出在逆模型特征空间中构建这样的模型它可以处理随机观测但当代理本身是噪源时(例如带有遥控器的电视)会失败。 文章提出训练前向动力学模型的集合并激励智能体探索该集合中模型预测之间存在最大分歧或方差的动作空间。 3、方法 该模型利用预测的不确定性来激励策略访问不确定性最大的状态。 本文模型的核心思想是歧义。 模型利用采样到的transitions训练一批前向模型 { f θ 1 , f θ 2 … , f θ k } \{f_{\theta_1},f_{\theta_2}\ldots,f_{\theta_k}\} {fθ1​​,fθ2​​…,fθk​​} 这个前向模型与ICM中的forward dynamics model一致通过最小化loss来更新参数 l o s s ∥ f ( x t , a t ; θ ) − x t 1 ∥ 2 loss\begin{aligned}\|f(x_t,a_t;\theta)-x_{t1}\|_2\end{aligned} loss∥f(xt​,at​;θ)−xt1​∥2​​ 而本文提出的歧义的核心思想是对于智能体已经很好地探索过的状态空间将会收集到足够的数据来训练所有模型从而导致模型之间的一致而对于新领域和未探索的领域所有模型仍然具有很高的预测误差从而导致对下一个状态预测的分歧。 本文模型将intrinsic reward定义为这种分歧即不同模型的输出之间的方差: r t i ≜ E θ [ ∥ f ( x t , a t ; θ ) − E θ [ f ( x t , a t ; θ ) ] ∥ 2 2 ] \begin{aligned}r_t^i\triangleq\mathbb{E}_\theta\Big[\|f(x_t,a_t;\theta)-\mathbb{E}_\theta[f(x_t,a_t;\theta)]\|_2^2\Big]\end{aligned} rti​≜Eθ​[∥f(xt​,at​;θ)−Eθ​[f(xt​,at​;θ)]∥22​]​ 在实践中为了所有的预测目的我们将状态x编码到嵌入空间φ(x)中。 本文提出的智能体代理是自我监督的不需要任何外部奖励来进行探索。 本文方法与ICM不同ICM在足够大的样本后将趋于平均值。由于均值不同于个体的真实随机状态预测误差仍然很高使得智能体永远对随机行为感到好奇。 本模型提出的内在奖励作为一个可微函数以便使用似然最大化来执行策略优化这很像监督学习而不是强化学习。来自模型的内在奖励可以非常有效地通知智能体在前向预测损失高的方向改变其行动空间而不是像强化学习那样提供标量反馈。纯粹是基于当前状态和智能体预测动作的模型集合的心理模拟。 与其通过PPO (RL)最大化期望中的内在奖励我们可以通过将ri 视为可微损失函数来使用直接梯度来优化策略参数θ min ⁡ θ 1 , … , θ k ( 1 / k ) ∑ i 1 k ∥ f θ i ( x t , a t ) − x t 1 ∥ 2 \begin{aligned}\min_{\theta_1,\dots,\theta_k}(1/k)\sum_{i1}^k\|f_{\theta_i}(x_t,a_t)-x_{t1}\|_2\end{aligned} θ1​,…,θk​min​​(1/k)i1∑k​∥fθi​​(xt​,at​)−xt1​∥2​​ max ⁡ θ P ( 1 / k ) ∑ i 1 k [ ∥ f θ i ( x t , a t ) − ( 1 / k ) ∑ j 1 k f θ j ( x t , a t ) ∥ 2 2 ] \begin{aligned}\max_{\theta_P}(1/k)\sum_{i1}^k\left[\|f_{\theta_i}(x_t,a_t)-(1/k)\sum_{j1}^kf_{\theta_j}(x_t,a_t)\|_2^2\right]\end{aligned} θP​max​​(1/k)i1∑k​[∥fθi​​(xt​,at​)−(1/k)j1∑k​fθj​​(xt​,at​)∥22​]​ a t π ( x t ; θ P ) a_t\pi(x_t;\theta_P) at​π(xt​;θP​) 4、实验 实验包括三个部分:a)验证在标准非随机环境下的性能; B)在过渡动力学和观测空间中具有随机性的环境的比较; c)验证我们的目标所促进的可微分政策优化的效率。 设计实验测试了Disagreement方法在标准非随机环境下的性能。比较了雅达利游戏的近确定性和非随机标准基准的不同内在奖励公式。基于分歧的方法优于最先进的方法而不会在非随机情况下失去准确性。在随机性较高的环境下进行测试基于集合的分歧方法在智能体看到足够的样本后收敛到几乎为零的内在奖励而基于预测误差的模型在收敛时也会为具有较高随机性的观测值(即标签为1的图像)分配更多的奖励。基于分歧的方法在存在随机性的情况下表现更好。实验显示可微探索加速了智能体的学习表明了直接梯度优化的有效性。现在在短期和大结构的行动空间设置中评估仅可微分探索(无强化)的性能。 实验显示可微探索加速了智能体的学习表明了直接梯度优化的有效性。现在在短期和大结构的行动空间设置中评估仅可微分探索(无强化)的性能。在真实世界的机器手臂实验上基于分歧的可微分策略优化探索展示出了极高的性能。
http://www.w-s-a.com/news/373835/

相关文章:

  • 免费网线seo外链怎么做
  • 宽带技术网网站wordpress widget hook
  • 山西省住房和城乡建设厅网站报名wordpress添加标签插件
  • 网站怎么自己做外贸网站案例
  • 做网站的优势公司网站怎么做站外链接
  • 海城网站制作建设精准营销的营销方式
  • 北京短视频拍摄公司重庆网站seo推广公司
  • 广州免费推广网站建设4399网页游戏大全
  • 网站的构架与组成建站公司兴田德润
  • php网站部署步骤邯郸哪有做网站的
  • 做设计什么设计比较好的网站南充市住房和城乡建设局考试网站
  • 郑州做系统集成的公司网站龙岩
  • 厦门SEO_厦门网站建设网络营销课程视频
  • vs 2015 网站开发开网店在线咨询
  • 前端如何优化网站性能大学学校类网站设计
  • 中国铁路建设投资公司网站熊学军中国it外包公司排名前50
  • 房产网站的建设广州推广排名
  • 湟源县网站建设wordpress删除未分类
  • 营销型网站开发推广厦门百度seo公司
  • 遵义网站开发培训上海中高风险地区名单最新
  • 禹州市门户网站建设做网站可以申请个体户么
  • 大良营销网站建设效果彩票网站搭建 做网站
  • 做网站的公司为什么人少了在中国如何推广外贸平台
  • 盘锦网站制作工业电商网站怎么配色
  • 白云企业网站建设seo排名点击软件
  • wordpress跨站脚本攻击漏洞国外注册的域名国内能用吗
  • 西部数码网站管理助手2工信部资质查询网站
  • 公司网站哪个建的好吉林网站制作
  • 视频网站怎么引流wordpress私人玩物
  • 我的家乡湛江网站设计新钥匙网站建设