当前位置: 首页 > news >正文

宜春网站开发公司wordpress彩色文章标签

宜春网站开发公司,wordpress彩色文章标签,网站规划和建设方案,关于网站建设的问卷分析最近#xff0c;随着DeepSeek的爆火#xff0c;GRPO也走进了视野中。为了更好的学习GRPO#xff0c;需要对PPO的强化学习有一个深入的理解#xff0c;那么写一篇文章加深理解吧。纵观网上的文章#xff0c;要么说PPO原理#xff0c;各种复杂的公式看了就晕#xff0c;要…        最近随着DeepSeek的爆火GRPO也走进了视野中。为了更好的学习GRPO需要对PPO的强化学习有一个深入的理解那么写一篇文章加深理解吧。纵观网上的文章要么说PPO原理各种复杂的公式看了就晕要么说各种方式命名的模型再要么默认你是个NLPer。这导致RLer和NLPer之间学习大语言模型强化学习产生了巨大的gap。于是我们单纯说说大语言模型里面的PPO吧。 其实PPO也是在训练模型和SFT一样都是为了获得最终一个用于推理部署的模型。SFT训练模型时一般需要一个base【模型】和【损失函数】这里先这么浅显地说因为PPO也需要这些我们通过这些相同的部分来弥补NLP和RL之间的gap吧。 一、模型 SFTOnly one model SFT模型一般是一个已经预训练过的大语言模型例如GPTs、BERT等或者是一个未经训练的小模型LSTM。 PPOFour Models PPO训练时总共有四个模型分别是Policy Model(Actor)、Reward Model、Reference Model、Critic Model。这里和SFT模型相似的也就是Policy Model这个模型也是经过预训练的模型且用于未来实际使用的模型。其他三个模型都是用来辅助Policy Model模型训练的。那么其他三个模型的作用是什么呢Lets talk step by step. Reward Model Fine! 你肯定早就听过这个模型。我们说PPO是根据好的和坏的样本对来进行训练的从来让模型产生输出好样本的偏好那么如何识别好样本和坏样本呢是的依靠Reward Model。让我们看看下边的例子。 s1: 中国的首都是哪里北京。-过于简洁但正确2分 s2: 中国的首都是哪里中国的首都是北京。-比较中肯3分 s3: 中国的首都是哪里中国的首都不是广州和武汉是北京。-很多废话0分 s4: 中国的首都是哪里中国的首都不是广州是北京。-一点点废话1分 上面我按照自己的偏好给每个句子进行了打分。Reward Model在这里的作用就是学习我打分的风格然后产生一个数值或者概率这里可以用各种方法先不说具体咋做可以线按照你想的方法产生一个分数然后我们接着往下走。好了我们现在有一个模型可以产生奖励了我们可以给Policy Model模型产生的输出打分了然后对这个分数进行优化即奖励较大时加大对损失的权重奖励较大时给损失乘以一个较小的权重。这样模型就可以达到L1级别借用自动驾驶等级概念的偏好学习了。 看似我们的方法已经可以work了但仅仅是看似。实际上在模型训练的过程中可能会因为Reward打分不准导致Policy Model训练出现偏差或者Policy Model过于追求奖励大的而出现性能下降的现象。 所以这么不稳定的训练需要再加入另外一个模型Reference Model来维护一下训练的稳定性。 Reference Model Reference Model被用于维持训练的稳定性。我们知道PPO被用在大语言模型是为了维持模型回答的风格这种风格应该是朝着某种方向去的。比如我们需要训练一个模型他的风格需要是安全型的即在特定情况下他应该对用户的输入做出拒答。但是当训练不稳定时模型可能对用户所有的输入都做出拒答。显然这不是我们想要的模型效果。所以我们需要一个基准模型这个模型给Policy Model当作参考告诉他不要在训练的时候偏离基准模型太远即保留基准模型的一些能力。 于是Reference Model参考模型呼之欲出那么这个与Reference Model控制距离的方法如何实现呢我们简单的猜一下控制距离的方法。我这里给出一个简单的猜测我们可以将输入同时送入到Reference Model和Reward Model中然后根据两个句子输出的logits计算距离如果距离过大时应该被拉近距离适当时可以保持。当然作为Reference Model在训练的时候是不需要更新参数的不然就被一起拉着跑偏了。 看着我们的模型可以训练起来了正式进入L2级别。 Critic Model 没错我们的模型其实完全可以训练了至于为什么要多次一举加个Critix Model。我也不是特别的理解。那么让我们问问DeepSeek吧。 DeepSeek告诉我们Critic Model可以降低方差那么为什么呢为什么前面的方法会出现高方差以及Critic Model是如何降低方差的呢 我们打个比方比如我们日常在与人交流的时候可能一不小心说出了话让他人不开心后来通过各种方法找补回来让别人理解了我们的内心想法。先说错话找补回来让对方理解和直接让对方理解我们真实的想法这二者最后的结果是一样的即奖励Reward Model的打分但是过程是不一样的。这个Critic Model的作用可以类比为教我们如何正确的表达而不仅仅是会说的对。 至于优势估计和价值引导可以看到优势估计可以衡量特定动作输出特定token对于平均情况的优势价值引导是提供长期回报即输出某个token的长期回报这两者也都是面向token级别Critic Model而不是句子级别Reward Model给整个句子打分的优化。 至此我们理解了这四个模型的大致作用下面我们从具体说说是PPO如何做的。 二、损失函数 施工中...
http://www.w-s-a.com/news/658418/

相关文章:

  • 自己做的网站怎么链接火车头采集一个网站可以做几级链接
  • 济南网站制作哪家专业做网站怎样投放广告
  • 辽宁网站推广短视频运营培训学费多少
  • 拼多多网站怎么做翻译 插件 wordpress
  • 做网站运营的职业生涯规划wordpress分类显示图片
  • 网站建设与制作总结沈阳百度广告
  • 网站管理系统 手机会员制网站搭建wordpress
  • 做物品租赁网站清新wordpress主题
  • 优秀专题网站家居企业网站建设市场
  • 中山市有什么网站推广wordpress轻应用主机
  • 洗头竖鞋带名片改良授权做网站不贵整个世界
  • 设计电子商务网站建设方案微信如何开发自己的小程序
  • 建设网站公司哪里好相关的热搜问题解决方案做网站要看什么书
  • 网站建设重要性黄岐建网站
  • 做网站电销《电子商务网站建设》精品课
  • 地方商城网站海外网站推广方法
  • 乐山 网站建设安阳给商家做网站推广
  • 网站空间一般多大邢台网站建设有哪些
  • h5网站开发工具有哪些wordpress清空post表
  • 公司开网站干嘛怎么制作一个免费的网站模板
  • 群晖wordpress搭建网站网站建设及管理
  • 中山企业网站建设公司抖音代运营合作模式
  • 南通营销网站开发做网站页面多少钱
  • 桂林生活网官方网站云主机和云电脑的区别
  • 内部网络网站怎么做vue做单页面网站
  • 如何建立网站教程wordpress粘帖图片
  • 广东网站备案要多久网站开发 pdf 文字版
  • 学校网站方案帮别人做钓鱼网站吗
  • 如何加强网站建设和信息宣传wordpress 搜索提示
  • 灰色网站怎么做php yaf 网站开发框架