当前位置: 首页 > news >正文

招聘网站怎么做公司起名字大全免费查询

招聘网站怎么做,公司起名字大全免费查询,wordpress 屏蔽ip插件,有哪些专做自然风景图片的网站文章目录 前言策略梯度1 基于价值算法的缺点2 策略梯度算法3 REINFORCE算法本章小结 前言 感谢Datawhale成员的开源本次学习内容的文档地址为 第九章 策略梯度 策略梯度 这个章节会开始介绍基于策略梯度的算法。前面的算法都是针对“奖励”或者说“回报#xff08;rewardreward”的而这次的则是直接对策略本身进行近似优化。这与之前的差别很大我这里也大约明白了一点为什么任务一直接让人跳到DQN但是却不跳过第二章“马尔克夫决策过程”因为马尔科夫决策过程是前面介绍过的全部强化学习算法的基础它提供了可量化的指标从而能够从数学上优化决策。而现在我们大约是将会被介绍一种不同于“马尔科夫决策过程”的方法了 但是根据我后面看到的内容我发现并不是这样QAQ策略梯度算法也是需要使用“价值”的具体的容我下面试图理解。 这个方法的粗略描述是将策略描述成一个带有参数 θ \theta θ的连续函数某个状态是输出对应的动作概率分布是输出乘坐随机性策略。但是看到这里依然不理解是怎样进行优化的或许数学功底足够好的人看到“描述成连续函数”就能够恍然大悟但是我是不理解的还需要继续看下去。 1 基于价值算法的缺点 无法表示连续动作可以理解为其实之前的都是一个选择比如跳格子前进一步、两步、三步而实际上机器人的运动控制基本都是连续动作空间。虽然在使用的时候可以把连续的离散化反正如果是我的话就凑合着过呗——但是既然现在知道有这样一种能表示连续动作空间的那就要努力接受。高方差基于价值的方法通常都是通过采样的方式来估计价值函数这样会导致估计的方差很高从而影响算法的收敛性。然后后面提到改进的DQN算法如改善经验回放、目标网络的方式都可以在一定程度上减小方差但是不能解决问题。探索与利用的平衡问题这一段基本读不懂请查阅原文大概意思是说DQN这些基于价值的算法一般用贪心来实现一定程度的随机但是不够理想。 2 策略梯度算法 看这位佬的视频多少有一点理解了这个东西我没法表达了就不表达了^ _ ^。 3 REINFORCE算法 因为策略梯度实际操作起来求解是很困难的所以要用蒙特卡罗策略梯度算法近似求解采样一部分且数量足够多的轨迹然后利用这些轨迹的平均值来近似求解目标函数的梯度。 呃呃要不我们继续看视频吧。 本章小结 策略梯度算法是强化学习的另一大类算法介绍了常见策略函数的设计方法位后面Actor-Critic算法章节做铺垫。
http://www.w-s-a.com/news/49572/

相关文章:

  • 网站建设实训记录企业网站建设运营
  • 视频网站文案住房和城乡建设部门
  • 汕头网站排名推广新余门户网站开发
  • 湖南智能网站建设哪家好wordpressμ
  • 公司网站备案必须是企业信息么睢宁县凌城做网站的
  • 上海网站建设公司 珍岛宁波免费自助建站模板
  • 南昌知名的网站建设公司南京网站开发选南京乐识赞
  • 外贸网站建设 深圳seo怎么提升关键词的排名
  • 网站推广效果的评价google关键词
  • 模板网站建站哪家好做微信充值网站
  • 抽奖的网站怎么做的广州小程序定制开发
  • 网站的文件夹建设企业网站公积金
  • 做网站的的价位网站建设 考试题目
  • 深圳比邻网站建设北京优化服务
  • 菏泽网站建设哪家好电子商务网络安全
  • 仿一个网站广州网站建设正规公司
  • 网站建设 目的seo网站关键词排名快速
  • 什么叫做响应式网站自媒体全平台发布
  • 企业网站 案例哪里需要人做钓鱼网站
  • 厚街东莞网站建设网站开发者调试模式
  • 网站推广营销联系方式wordpress adminlte
  • 哪些网站可以做文字链广告卖水果网站建设的策划书
  • 雕刻业务网站怎么做企业qq官网
  • 新华书店的做的数字阅读网站wordpress编辑器格式
  • jq做6个网站做什么好广西临桂建设局网站
  • 网站新闻图片尺寸南京网站设计公司
  • 重庆seo建站网站服务器 安全
  • 咸宁做网站的公司桂林网站建设兼职
  • 教做网站网站开发行业分析
  • 忻州网站建设培训友情链接交换形式有哪些