当前位置：首页 > news >正文

做网站选哪个语言网站建设腾

news 2025/12/30 16:53:43

做网站选哪个语言,网站建设腾,山西建设集团网站,创意界面强化学习入门入门学习第一周#xff1a;基础概念经验回放#xff1a; 将sss,agent当前步的action环与境的交互rrr以及下一步的状态st1s_{t1}st1组成的四元组[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wxhVd0dn-1676710992983)(null)] 组…强化学习入门入门学习第一周基础概念经验回放将sss,agent当前步的action环与境的交互rrr以及下一步的状态st1s_{t1}st1组成的四元组[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wxhVd0dn-1676710992983)(null)] 组成序列需要人为指定数组的大小记作 b。数组中只保留最近 b 条数据当数组存满之后删除掉最旧的数据。数组的大小 b 是个需要调的超参数会影响训练的结果。通常设置 b 为 10^5 ∼ 10^6。经验回放的优点经验回放的一个好处在于打破序列的相关性。训练 DQN 的时候每次我们用一个四元组对 DQN 的参数做一次更新。我们希望相邻两次使用的四元组是独立的。然而当智能体收集经验的时候相邻两个四元组有很强的相关性。依次使用这些强关联的四元组训练 DQN效果往往会很差。经验回放每次从数组里随机抽取一个四元组用来对 DQN 参数做一次更新。这样随机抽到的四元组都是独立的消除了相关性。经验回放的另一个好处是重复利用收集到的经验而不是用一次就丢弃这样可以用更少的样本数量达到同样的表现。经验回放的局限性经验回放不适用于同策略。SARSA等学习算法要求当前执行的策略必须为目标策略同策略而经验回放只适用于异策略因为其用到的都是“过时”的策略函数执行的结果。优先经验回放 tldr:给四元组序列加权让不同样本被抽中的概率不一样。如自动驾驶中绝大部分数据四元组都是在正常行驶状态下进行而这些数据价值不大。出意外的时候的数据很宝贵但占比极少。这样正常抽样训练的模型会很难好用。如何自动判断样本权重 TD误差越大将该样本权重设置越高。解释TD误差越大说明该网络的判断与真实估计的差越大说明网络对当前样本的判断越不好需要加强对此类样本的学习。高估问题及解决方法为什么会出现高估自举的高估 tldr:TD误差中等号左右都是Q函数对自己的估计若等号右端已经高估那么等号左端也会高估造成误差的传播让更多的价值被高估。最大化导致的高估如果DQN是完全恒等于真实Q函数的那么没有任何误差然而真实情况不可能如此。只要其有误差即使是无偏的那么依然存在高估。因为往一个随机变量里加入任意量均值为的随机噪声那么新序列的最大值的期望一定是大于等于原序列的。高估的危害废话高估导致智能体导致估计不准确作出错误判断高估的解决办法想要避免 DQN 的高估要么切断自举要么避免最大化造成高估︒注意高估并不是 DQN 自身的属性高估纯粹是算法造成的。想要避免高估就要用更好的算法替代原始的 Q 学习算法。下文详述目标网络想要切断自举可以用另一个神经网络计算 TD 目标而不是用 DQN 自己计算 TD 目标。另一个神经网络被称作目标网络target network。它的神经网络结构与 DQN 完全相同只有其参数 w−不同于ww^- 不同于 ww−不同于w 我的总结用另一个目标网络去预测下一步的最优价值得到目标值原网络的参数更新方式不变新网络的更新是移动平均加权的形式。这种方法实际上只能减缓最大化的高估趋势并不是根除了高估。且该方法对自举的高估没有作用。双Q学习与上文的目标网络Q学习的差异在于双Q将网络进行拆分用DQN选择action用目标网络来求值这样做能够减小高估因为Q函数对于一个确定的a的值显然是小于等于最优价值函数的。体会有点拆东补西中和的意思并不是把根儿拔了。噪声网络将原网络中的每个参数w改写为wua∗bw ua*bwua∗b uuu为均值aaa为正态分布随机变量bbb为方差。 u和bu和bu和b为可学习参数a从正态分布抽样每一步学习需要重新抽样。噪声网络的好处不仅有利于探索还能增强鲁棒性。噪声网络自带有随机性参数的随机性可能使下一步action的输出具有随机性。因此使用了噪声网络即可无需使用其他策略来保证探索的随机性。策略梯度网络更新策略依赖观察到的s从策略网络抽样得到一个a然后计算出随机梯度更新策略网络的参数此处存在的问题是Q函数我们无法知道。因此需要想办法进行估计。 REINFORCE tldr:完成一局游戏将得到的奖励utu_tut作为Q值的蒙特卡洛估计。actor-critic policy网络输入是状态sss输出是一个action的概率分布 value_network:输入(s,a),评价当前动作的好坏训练步骤观测状态sts_tst从随机初始化的策略网络sample出ata_tatagent执行ata_tat,观察st1s_{t1}st1和rrr用TD算法更新value_network的参数w用策略梯度更新policy net 带基线的策略梯度算法 tldr:策略梯度公式中用到的策略梯度网络求导乘上实际奖励对状态价值函数的蒙特卡洛模拟utu_tut作为策略梯度。一个改进方法为在该实际奖励上减去一个Vπ(s)V_\pi(s)Vπ(s)这样能使梯度更稳定当然也引入了一个状态价值网络来作为Vπ(s)V_\pi(s)Vπ(s) 不完全观测问题例子英雄联盟绝地求生等基本思路对于不完全观测的强化学习问题应当记忆过去的观测用所有已知的信息做决策。这正是人类解决不完全观测问题的方式。即使是完全观测问题记忆前面几步的状态也是有意义的如alphago的input记录过去n步的观测,n可能是不定长的因此RNN和transformer是处理此类问题的好方法其满足接受不定长的输入而输出的向量维度不变。 alphaGo 基本设定游戏结束之前所有r均为0游戏结束时获胜r1;失败r-1behavior cloning:模仿学习监督学习的一类棋盘状态的输入是一个三维立体tensor输出是19*19的矩阵在一次训练中人类玩家在该状态下走的比如是第256个格子那么target就是one-hot向量第256个元素为1其余为0策略网络的输出是预测值。二者做损失。一个非常传统的多分类任务。体会该策略应该是只能接近人类水平。论文中说经过该算法策略算法已经能够击败业余水平玩家。bc算法缺陷是对训练数据中出现较少的s,或者没出现过的s;另外只要有一次s未出现过那么此后的状态将均没见过因此错误会累加此后的策略网络基本都在随机游走因为这些状态它都没见过作为人类选手只需要走出一些非常奇怪的状态便很大概率能够找到该策略网络没见过的局面从而将其击败。且考虑到围棋的复杂度这个状态容易撞出来。强化学习策略网络从behavior cloning的SL网络权重初始化对手网络最开始也是如此此后策略网络使用策略梯度进行更新而每轮使用的对手网络是随机从历史策略网络中选取一个。这个trick能防止策略网络在当前策略上过拟合。 alphaGo使用的蒙特卡洛树搜索价值网络能衡量状态好坏人类棋手下棋时会预估未来几步的走势选择使用PUCT算法不断往下搜索节点具体的以下为每个节点的计算方式 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-t5XFXzXV-1676710993087)(null)] 用策略函数选取几个好的动作让策略网络按照选取的动作自我博弈到游戏结束看这个动作是赢还是输 score(a)(vr)/2 其中v是动作做完后价值网络的打分r是游戏结束的reward; 重复很多次能得到每个动作的平均分值选择分数最高的a。体会 alphaGo相当于预先看完了所有的步数机器的自我博弈及其客观而人类的自我对弈很难无偏好奇alphaGo/Zero不使用蒙特卡洛树搜索单纯使用策略网络的对弈水平。蒙特卡洛这招有点儿玩赖靠着远超于人类的算力当场进行模拟如果对手比如柯洁也每走一步都跟顶级高手博弈几千把、模拟几个月再出手ai还能获胜吗?

查看全文

http://www.w-s-a.com/news/309526/