福州网站建设托管,学校网站建设信息,学校网站的常规化建设,wordpress快速扒站分层强化学习#xff08;Hierarchical Reinforcement Learning, HRL#xff09;最早一般视为1993 年封建强化学习的提出.
一、HL的基础理论
1.1 MDP
MDP#xff08;马尔可夫决策过程#xff09;#xff1a;MDP是一种用于建模序列决策问题的框架#xff0c;包含状态Hierarchical Reinforcement Learning, HRL最早一般视为1993 年封建强化学习的提出.
一、HL的基础理论
1.1 MDP
MDP马尔可夫决策过程MDP是一种用于建模序列决策问题的框架包含状态state、动作action、转移概率transition probability、奖励reward等要素。它假设系统在每个时间步的状态转移是马尔可夫的即当前状态和动作决定了下一个状态的概率分布。MDP的时间步是固定的每次状态转移都发生在相同的时间间隔内.
1.主要理论
马尔可夫决策过程MDP强化学习的核心数学模型包括状态、动作、奖励和转移概率。贝尔曼方程用于计算价值函数和最优策略的递推关系。折扣因子与回报通过折扣因子对未来的奖励进行折现以计算长期回报。策略与价值函数策略定义了在每个状态下选择动作的方式价值函数评估状态或动作的价值。最优性与贝尔曼最优性方程用于确定最优策略和最优价值函数
2. 算法分类 1.2 SMDP
SMDP半马尔可夫决策过程SMDP是MDP的扩展用于处理动作持续时间不固定的情况。在SMDP中每个动作的执行时间称为停留时间是一个随机变量状态在这段时间内保持不变。SMDP的状态转移不仅取决于当前状态和动作还与动作的持续时间有关.
1. 定义
SMDP可以定义为一个五元组 (S,A,P,T,R)
S状态集合。A动作集合。P状态转移概率表示从状态 s 执行动作 a 转移到状态 s′ 的概率。T动作的停留时间分布表示动作持续的时间步数。R奖励函数表示在状态 s 执行动作 a 获得的即时奖励
2. 关键公式
期望回报SMDP的目标是在不同时间间隔的任务中最大化长期期望回报。其回报函数包括时间间隔的折扣 R ∑ t 0 ∞ γ τ t r t R\sum_{t0}^{∞} \gamma^{\tau_t}r_t Rt0∑∞γτtrt γ \gamma γ 是折扣因子 τ t \tau_t τt 是动作持续的时间间隔
Bellman方程SMDP的值函数可以通过Bellman方程扩展为半马尔可夫形式。在给定策略 π 下状态 s 的值函数表示为 V π ( s ) E π [ r ( s , a ) γ τ V π ( s ′ ) ] V^{\pi}(s) \mathbb{E}_{\pi}[r(s,a)\gamma^{\tau}V^{\pi}(s)] Vπ(s)Eπ[r(s,a)γτVπ(s′)]
其中 r ( s , a ) r(s,a) r(s,a) 是在状态 s 执行动作 a 的即时奖励 τ \tau τ 是动作持续时间s′ 是转移后的状态
Q-learning扩展SMDP中的Q-learning算法类似于标准的Q-learning但需要考虑时间间隔的影响。其Q值更新公式为 Q ( s , a ) ← Q ( s , a ) α ( r γ τ max a ′ Q ( s ′ , a ′ ) − Q ( s , a ) ) Q(s,a) \leftarrow Q(s,a)\alpha(r\gamma^{\tau} \max_{a} Q(s,a)-Q(s,a)) Q(s,a)←Q(s,a)α(rγτa′maxQ(s′,a′)−Q(s,a))
其中α 是学习率
3. 分层架构
SMDP在分层强化学习中常用于建模高层策略和低层策略的不同时间尺度 高层策略负责选择长期目标或子任务这些目标可能需要多个时间步来完成 低层策略在较短的时间步内执行具体动作以实现高层策略设定的目标
1.3 MDP和SMDP的异同
特性MDPSMDP时间步时间步是固定的每次状态转移的时间间隔相同时间步是可变的每个动作的持续时间是一个随机变量状态转移转移概率仅依赖于当前状态和动作转移概率不仅依赖于当前状态和动作还与动作的持续时间有关适用场景适用于固定时间步的决策问题如机器人每秒更新状态适用于动作持续时间不固定的复杂任务如无人机在目标区域盘旋复杂度相对简单适合短时间跨度的任务更复杂适合长时间跨度或多步策略的任务分层结构通常不涉及分层常用于分层强化学习高层策略选择长期目标低层策略执行具体动作
二、HRL
分层强化学习 的核心是通过层次化分解复杂任务以提高学习效率和策略泛化能力。
层次结构分层强化学习中通常存在多个层次每个层次负责不同粒度的决策。高层次负责抽象和长期规划而低层次负责具体操作和短期执行。
可提供的参考资料 《一文看尽系列分层强化学习(HRL)经典论文全面总结》 腾讯云文章 《分层强化学习Hierarchical RL》 华为云 【Hierarchical RL】不允许你不了解分层强化学习总结篇 腾讯云
2.1 Options框架 定义将动作序列抽象为“选项”Option每个选项包含三个部分初始状态集Initiation Set、内部策略Policy和终止条件Termination Condition。上层策略通过调用选项解决半马尔可夫决策过程semi-MDP(SMDP)。 优势缩短时间步长解决长序列任务的稀疏奖励问题。例如导航任务中“移动到某区域”可视为一个选项. 细节 将行动策略视为可选项option每个选项由三个部分组成 初始集Initiation Set定义在哪些状态下可以选择该选项。政策Policy定义在选项被激活期间如何进行行动选择。终止条件Termination Condition定义何时结束该选项。 理论支持由于选项可能会持续不定长时间因此分层强化学习常用SMDP来建模这种模型允许动作即选项具有可变长度的持续时间。 选项Options也被称为技能 或者 宏操作是一种具有终止条件的子策略。它观察环境并输出动作直到满足终止条件为止。终止条件是一类时序上的隐式分割点来表示相应的子策略已经完成了自己的工作且顶层的选项策略Policy-Over-Action需要切换至另一个选项。 给定一个状态集为 S、动作集为 A 的 MDP选项 ω ∈ Ω ω ∈ Ω ω∈Ω被定义为三元组 ( I ω , π ω , β ω ) (I_ω , π_ω , β_ω ) (Iω,πω,βω)其中 I ω ⊆ S I_ω ⊆ S Iω⊆S 为一组初始状态集 π ω : S × A → [ 0 , 1 ] π_ω : S × A → [0, 1] πω:S×A→[0,1] 是一个选项内置策略而 β ω : S → [ 0 , 1 ] β_ω : S → [0, 1] βω:S→[0,1] 是一个通过伯努利分布提供随机终止条件的终止函数。一个选项 ω ω ω只有在 s ∈ I ω s ∈ I_ω s∈Iω 时才能用于状态 s。
一个选项框架由两层结构组成底层的每个元素是一个选项而顶层则是一个选项策略用来在片段开始或上个选项终结时候选择一个选项。选项策略从环境给出的奖励信息学习而选项可通过明确的子目标来学习。
2.2 经典算法Option-Critic Architecture
参考资料
《2 分层强化学习】Option-Critic》 知乎B站视频《Option-Critic框架学习记录》论文《The Option-Critic Architecture》分层强化学习博客园含案例合集似乎很牛逼啊
选项-批判者结构Option-Critic Architecture(Bacon et al., 2017) 将策略梯度定理扩展至选项它提供一种端到端的对选项和选项策略的联合学习。它直接优化了折扣化回报。我们考虑 选项-价值函数(1)状态-选项对 (s, ω) 后执行某个动作的价值(2), 进入一个状态 s′ 时执行 ω 的价值(3) 用于学习选项的随机梯度下降算法的结构如图 10.3 所示其中梯度由定理 10.1 和定理 10.2给出, 图的解析 π Ω \pi_{\Omega} πΩ 表示最顶层的策略确定选择哪个option π ω \pi_{\omega} πω 内置函数, β ω \beta_{\omega} βω终止函数(停止当前的option选项) critic结构中的参数上面3个参数都是需要学习的~在option-critic 结构中对于 s t s_t st由 π Ω \pi_{\Omega} πΩ选定option由critic对其评估。当选定一个option由其输出动作at. at与Environment交互一方面返回即时奖励rt和下一状态 s t 1 s_{t1} st1critic通过gradients指导option内的( π ω \pi_{\omega} πω和 β ω \beta_{\omega} βω)的更新。 2.3 Feudal Reinforcement Learning封建强化学习
封建制网络Feudal NetworksFuNs是一个完全可微模块化的 FRL 神经网络它有两个模块管理者和工作者。管理者在一个潜在状态空间中更低的时间分辨率上设定目标而工作者则学习如何通过内在奖励达到目标.
结构模仿封建等级制度上层智能体Manager设定子目标下层智能体Worker执行具体动作。特征是“奖赏隐藏”和“信息隐层”即下层仅关注局部状态.
2.4 MAXQ值函数分解
《Hierarchical Reinforcement Learning with the MAXQ Value Function Decomposition》
方法将任务分解为子任务三元组动作、终止状态、专属奖励函数通过递归分解实现层次化策略。例如导航任务可分解为“避开障碍”和“寻找奖励”子任务
2.5 HAM分层抽象机)
HAM 全程 Hierarchical of abstraction machine
机制通过状态转换机简化MDP分为行为状态执行动作、调用状态启动子任务、选择状态选择子任务和停止状态
2.6 现代扩展方法
HIRO通过离线策略修正解决层次间非平稳性问题FuN封建网络 自动发现子目标结合LSTM处理长期依赖
HRL与gridworld实践
三、GridWorld环境设计
3.1 地图生成规则
网格结构采用10x10网格水平和垂直墙壁随机生成保证地图连通性任意两点存在可达路径障碍物生成使用泊松圆盘采样算法生成非均匀分布的障碍物确保障碍物之间最小间距为2格避免死胡同奖励机制设置3个奖励点5、3、1分布在障碍物稀疏区域且不与起点重叠动态要素每局游戏随机初始化起点位置若智能体进入奖励点后该点奖励重置为0防止重复刷分参考地图来源于文献
3.2 状态与动作空间
状态表示包含坐标(x,y)、周围8格障碍物掩码0/1、最近奖励点方向向量 Δ x , Δ y \Delta x,\Delta y Δx,Δy。动作空间基础动作为{上,下,左,右}引入30%概率的动作噪声如执行上可能实际向左偏移。观测限制部分可观测设定智能体仅能感知周围5x5区域内的状态
四、分层强化学习HRL算法设计
4.1 分层架构设计
层级输入输出更新频率算法选择Manager全局地图特征Flatten后子目标坐标 ( g x , g y ) (g_x,g_y) (gx,gy)每10步PPO (Actor-Critic)Worker局部观测子目标相对坐标基础动作每步DQN (Dueling Network)
核心机制
子目标修正Manager通过 g t c l i p ( g t − 1 Δ g , 0 , 9 ) g_t clip(g_{t-1} Δg, 0, 9) gtclip(gt−1Δg,0,9)动态调整子目标避免突变。内在奖励Worker获得与子目标距离成反比的奖励 加速子任务完成动态层次当Worker连续5次未完成子目标时Manager强制生成新子目标防止局部震荡
4.2 奖励函数分解
全局奖励 R g l o b a l ∑ r e x t − 0.01 × t ( 到达奖励点 时间惩罚 ) R_{global} \sum r_{ext} -0.01 \times t(到达奖励点时间惩罚) Rglobal∑rext−0.01×t(到达奖励点时间惩罚)分层奖励: R M a n a g e r λ 1 R g l o b a l λ 2 I g o a l r e a c h e d R_{Manager} \lambda_1 R_{global}\lambda_2 \mathbb{I}_{goal_reached} RManagerλ1Rglobalλ2Igoalreached R W o r k e r r i n t − 0.1 × I c o l l i s i o n R_{Worker}r_{int}-0.1 \times \mathbb{I}_{collision} RWorkerrint−0.1×Icollision 其中 λ 1 0.7 , λ 2 0.3 \lambda_10.7,\lambda_20.3 λ10.7,λ20.3为权重系数。
4.3 网络结构