当前位置: 首页 > news >正文

本地广东中山网站建设园林景观设计公司设备列表

本地广东中山网站建设,园林景观设计公司设备列表,自动生成海报的网站,贵州网站建设服务平台博客昵称#xff1a;沈小农学编程 作者简介#xff1a;一名在读硕士#xff0c;定期更新相关算法面试题#xff0c;欢迎关注小弟#xff01; PS#xff1a;哈喽#xff01;各位CSDN的uu们#xff0c;我是你的小弟沈小农#xff0c;希望我的文章能帮助到你。欢迎大家在… 博客昵称沈小农学编程 作者简介一名在读硕士定期更新相关算法面试题欢迎关注小弟 PS哈喽各位CSDN的uu们我是你的小弟沈小农希望我的文章能帮助到你。欢迎大家在评论区唠嗑指正觉得好的话别忘了一键三连哦 SPPO是强化学习的一种据猜测今年9月OpenAI最新的大模型O1使用该方法进行微调。SPPO英文全称Self-Play Preference Optimization中文为自博弈偏好优化。其受到了纳什均衡的冯·诺依曼两人常和博弈公式以及RLHFPPO框架的启发而设计出来。下面本文将讲解SPPO的损失函数、策略梯度更新以及算法框架。 目录 1 策略梯度更新公式 2 损失函数 3 算法流程图 参考文献 1 策略梯度更新公式 常和博弈的纳什均衡公式如下所示 现在让我们一步步从常和博弈的纳什均衡公式的一般形式推导出 SPPO 算法的策略梯度更新公式。 使用Freund和Schapire(1999)建立一个迭代框架该框架可以平均渐进收敛到最优策略。 上面的框架具体后写为 归一化因子为 对上式两边取对数左右平移变化得 为了简化计算使用L2距离公式来近似上面的公式计算得到下面的公式 到这里策略更新公式就推导出来了。不过这是针对连续数据的。下面我们来推导该公式以应用到离散数据上同时进一步简化计算。 可能性估计可以用有限的样本来近似策略更新公式。对于每个提示我们选取个回答作为样本用表示经验分布。有限样本优化问题可以近似为 具体来说和。被视作一种期望可以通过在偏好项的总共个序列中的个新样本来估计。 我们可以用基于人类偏好模型的常数替换来进一步简化计算。具体来说用替换。假设在任意给定的对中赢的概率是同等机会的1或者0当我们能得到。 至此SPPO的策略更新公式推导完成。 下面让我们来得到策略梯度更新公式。 改写上面的公式为 RLHF的策略梯度更新公式为 对比发现上面的公式本质上是策略梯度更新公式至此推导完成。 2 损失函数 SPPO的损失函数如下 公式通过胜者策略得分与输者策略得分的平方和能更全面地评价模型。我们可以进一步简化公式我们令胜者对输者的胜率为1输者对胜者的胜率为0则损失函数可以简化为 3 算法流程图 参考文献 《Self-Play Preference Optimization for Language Model Alignment》
http://www.w-s-a.com/news/580087/

相关文章:

  • 萧山做网站的企业网站建设 西安
  • 江西省城乡建设厅网站百度站长资源平台
  • 本地搭建linux服务器做网站免费查企业信息查询
  • 电商网站建设与运营网上购物哪个网站最好
  • 做app做网站从何学起网站设计需要什么证
  • 设计网站最重要的是要有良好的短网址还原
  • 大连建设银行招聘网站做seo是要先有网站吗
  • 中山做网站的wordpress建站教程百科
  • 湛江专业网站制作做网站需要工具
  • 做音箱木工网站吉林平安建设网站
  • 品牌网站建设咨询灯光设计网站推荐
  • 温州网站运营打开百度一下网页版
  • 网站有情链接怎么做住房公积金个体工商户
  • 内蒙古网站开发网站开发验收资料
  • 温州网站建设首选国鼎网络网络营销方法可分为两类
  • 做张家界旅游网站多少钱企业推广网络营销
  • 代做毕设网站推荐广东手机微信网站制作
  • 福州建设工程质量监督网站专业做公司宣传网站的
  • 百度云建站教程网站工程师是做什么的
  • 手机在线制作网站一级消防工程师考试试题及答案
  • 网站设计的需求网页制作教程和素材
  • 徐州网站建设 网站推广WordPress 文章编辑
  • 做什么网站比较受欢迎软件商店下载安装2023版本最新
  • 做ip资讯的网站怎么在wordpress中套用同行网页
  • 医院网站如何备案东莞优化公司收费
  • 罗村网站开发适合ps做图的素材网站有哪些
  • 网站建设中 油财宝企业网址怎么整
  • asp.net空网站php网站开发要学什么
  • 做可视化的网站微信网站模版下载
  • 包头移动的网站建设茂名建站价格