当前位置: 首页 > news >正文

方维o2o 2.9蓝色团购网站程序源码模板抚顺 网站建设

方维o2o 2.9蓝色团购网站程序源码模板,抚顺 网站建设,上海建站,今天的新闻大事10条强化学习中基于策略#xff08;Policy-Based#xff09;和基于价值#xff08;Value-Based#xff09;方法的区别 摘要强化学习中基于策略#xff08;Policy-Based#xff09;和基于价值#xff08;Value-Based#xff09;方法的区别1. 定义与核心思想(1) 基于策略的方… 强化学习中基于策略Policy-Based和基于价值Value-Based方法的区别 摘要强化学习中基于策略Policy-Based和基于价值Value-Based方法的区别1. 定义与核心思想(1) 基于策略的方法Policy-Based Methods(2) 基于价值的方法Value-Based Methods 2. 核心区别3. 具体示例场景CartPole游戏(1) 基于价值的方法示例如DQN(2) 基于策略的方法示例如REINFORCE或PPO 4. 优缺点对比5. 典型算法6. 关键总结示例总结 摘要 本系列知识点讲解基于蘑菇书EasyRL中的内容进行详细的疑难点分析具体内容请阅读蘑菇书EasyRL 对应蘑菇书EasyRL——1.4.4.1基于价值的智能体与基于策略的智能体 强化学习中基于策略Policy-Based和基于价值Value-Based方法的区别 在强化学习中基于策略的方法和基于价值的方法是两类核心的算法设计思路。它们的核心差异在于优化目标和动作选择方式。以下是详细对比及具体示例 1. 定义与核心思想 (1) 基于策略的方法Policy-Based Methods 定义直接学习策略函数即状态到动作的映射通过优化策略参数来最大化长期累积奖励。核心思想 策略函数可以是确定性的如 a π ( s ) a \pi(s) aπ(s)或概率性的如 π ( a ∣ s ) P ( a ∣ s ) \pi(a|s) P(a|s) π(a∣s)P(a∣s)。算法通过梯度上升调整策略参数使高奖励的动作概率增加。数学表示 π θ ( a ∣ s ) \pi_\theta(a|s) πθ​(a∣s) 表示参数为 θ \theta θ 的策略函数目标是最大化期望回报 J ( θ ) E π θ [ G t ] J(\theta) \mathbb{E}_{\pi_\theta}[G_t] J(θ)Eπθ​​[Gt​]。 (2) 基于价值的方法Value-Based Methods 定义学习价值函数如状态值函数 V ( s ) V(s) V(s) 或动作值函数 Q ( s , a ) Q(s,a) Q(s,a)通过价值函数间接选择动作。核心思想 通过贝尔曼方程迭代更新价值函数最终策略由价值函数导出例如选择具有最高 Q ( s , a ) Q(s,a) Q(s,a) 的动作。数学表示 贝尔曼方程 Q ( s , a ) E [ R γ max ⁡ a ′ Q ( s ′ , a ′ ) ] Q(s,a) \mathbb{E}[R \gamma \max_{a} Q(s,a)] Q(s,a)E[Rγmaxa′​Q(s′,a′)]。 2. 核心区别 特征基于策略的方法基于价值的方法优化目标直接优化策略参数 θ \theta θ优化价值函数如 Q ( s , a ) Q(s,a) Q(s,a) 或 V ( s ) V(s) V(s)策略表示显式定义策略 π ( a ∣ s ) \pi(a | s) π(a∣s)隐式策略如贪婪策略 a arg ⁡ max ⁡ a Q ( s , a ) a \arg\max_a Q(s,a) aargmaxa​Q(s,a)动作空间适应性天然支持连续动作空间如机器人控制通常需离散化动作空间如DQN探索能力通过策略的随机性自然探索如概率选择动作需额外机制如ε-greedy促进探索收敛性更稳定但可能收敛到局部最优可能存在震荡或不收敛尤其是函数逼近时策略更新频率通常按回合on-policy更新可在线更新off-policy如Q-learning 3. 具体示例 场景CartPole游戏 目标控制小车左右移动保持杆子竖直不倒。动作空间离散左/右或连续力的大小。 (1) 基于价值的方法示例如DQN 步骤 学习动作值函数 Q ( s , a ) Q(s,a) Q(s,a)预测每个动作的长期价值。选择使 Q ( s , a ) Q(s,a) Q(s,a) 最大的动作例如向左或向右。 局限性 如果动作空间连续如施加0.1N或0.5N的力需离散化处理导致维度灾难。代码片段逻辑action argmax(q_network(state)) # 选择Q值最大的动作(2) 基于策略的方法示例如REINFORCE或PPO 步骤 直接输出动作的概率分布例如向左概率70%向右30%。通过策略梯度上升增加高回报动作的概率。 优势 可直接输出连续动作如力的大小为0.3N无需离散化。代码片段逻辑mean, std policy_network(state) # 输出高斯分布的均值和方差 action sample(mean, std) # 从分布中采样连续动作4. 优缺点对比 方法类型优点缺点基于策略1. 支持连续动作空间2. 探索能力强3. 策略表达灵活1. 高方差2. 样本效率低3. 训练不稳定基于价值1. 样本效率高可off-policy2. 训练稳定1. 依赖价值函数估计精度2. 难以处理连续动作 5. 典型算法 基于策略的方法 REINFORCE蒙特卡洛策略梯度PPOProximal Policy OptimizationTRPOTrust Region Policy Optimization 基于价值的方法 Q-learningDQNDeep Q-NetworkSARSA 6. 关键总结 基于策略的方法 直接操作策略适合复杂动作空间如机器人控制、游戏AI但训练可能不稳定。基于价值的方法 依赖价值函数适合离散动作空间如Atari游戏但对函数逼近误差敏感。混合方法Actor-Critic 结合两者优点用价值函数辅助策略更新如A3C、DDPG。 示例总结 迷宫导航基于价值 学习每个位置的Q值选择最大Q值的路径。机械臂控制基于策略 直接输出关节扭矩的连续值通过策略梯度优化扭矩参数。 两者在解决不同类型问题时各具优势实际应用中常结合使用如Actor-Critic架构。
http://www.w-s-a.com/news/412916/

相关文章:

  • 合作建站协议python wordpress采集器
  • 集团网站网页模板网站建设图片大全
  • 举报非法网站要求做笔录wordpress怎么插视频
  • 网站服务器防护如何搭建网站平台
  • 设计师接私活的网站如何做网站的搜索栏
  • ps做图下载网站网站子目录设计
  • 厦门网站制作策划高中生做网站网页
  • 高端品牌网站建设在哪济南兴田德润优惠吗专业定制网站开发公司
  • 怎么做网站卖东西汽车网站排行榜前十名
  • 网站关键字没有排名只有单页面的网站怎么做seo
  • 网站流量盈利模式宝塔没有域名直接做网站怎么弄
  • 淡蓝色网站qq推广中心
  • 设计网站价格餐饮吸引客流的活动方案
  • 手机网站建设电话百度搜索量
  • 条件查询 php网站源码中国白云手机网站建设
  • 网上注册公司流程及材料班级优化大师免费下载电脑版
  • 应用网站如何做营销型网站的重要特点
  • 怎么样百度搜到自己的网站加强社区网站建设
  • 建设网站所需技术wordpress延时加载js
  • 网站建设沈阳搜云seo
  • 怎么申请免费的网站空间微信公众平台注册收费吗
  • 东营网站搭建最基本的网站设计
  • 网站建设技术的发展最近的国际新闻大事
  • 德州有名的网站建设公司网站如何做引流
  • 建设一个收入支出持平的网站网络推广计划书格式
  • 什么是网站黑链全球新冠疫苗接种率
  • 网站开发 chrome gimp网站不备案做seo没用
  • 织梦校园招生网站源码沪佳哪个好
  • 建设企业网站可信度软件产品如何做网站推广
  • 网站建设企业号助手贵阳景观设计公司