做网站怎么插音乐,受欢迎的建网站哪家好,海东企业网站建设,可以免费秒玩游戏的网站一、Modelfree 和 Modelbased Modelfree#xff1a;不需要理解环境 Modelbased#xff1a;需要理解环境#xff0c;并且为环境建立模型
Model-free 中, 机器人只能按部就班, 一步一步等待真实世界的反馈, 再根据反馈采取下一步行动. 而 model-based, 他能通过想象来预判断接…一、Modelfree 和 Modelbased Modelfree不需要理解环境 Modelbased需要理解环境并且为环境建立模型
Model-free 中, 机器人只能按部就班, 一步一步等待真实世界的反馈, 再根据反馈采取下一步行动. 而 model-based, 他能通过想象来预判断接下来将要发生的所有情况. 然后选择这些想象情况中最好的那种. 并依据这种情况来采取下一步的策略, 这也就是 围棋场上 AlphaGo 能够超越人类的原因.二、基于策略 和 基于价值 基于策略目标为找到最佳的策略 基于价值目标为最大化价值
我们现在说的动作都是一个一个不连续的动作, 而对于选取连续的动作, 基于价值的方法是无能为力的. 我们却能用一个概率分布在连续动作中选取特定动作, 这也是基于概率的方法的优点之一. 三、回合更新 和 单步更新 回合更新一局游戏更新一次 单步更新每一步更新一次 四、在线学习 和 离线学习 在线学习学习过程中必须和真是环境进行交互 离线学习学习过程中只和历史数据进行交互
所谓在线学习, 就是指我必须本人在场, 并且一定是本人边玩边学习, 而离线学习是你可以选择自己玩, 也可以选择看着别人玩, 通过看别人玩来学习别人的行为准则, 离线学习 同样是从过往的经验中学习, 但是这些过往的经历没必要是自己的经历, 任何人的经历都能被学习.