当前位置: 首页 > news >正文

中展建设股份有限公司网站做网站备案是什么意思

中展建设股份有限公司网站,做网站备案是什么意思,做自媒体视频搬运网站,芒市网站建设公司博客昵称#xff1a;沈小农学编程 作者简介#xff1a;一名在读硕士#xff0c;定期更新相关算法面试题#xff0c;欢迎关注小弟#xff01; PS#xff1a;哈喽#xff01;各位CSDN的uu们#xff0c;我是你的小弟沈小农#xff0c;希望我的文章能帮助到你。欢迎大家在… 博客昵称沈小农学编程 作者简介一名在读硕士定期更新相关算法面试题欢迎关注小弟 PS哈喽各位CSDN的uu们我是你的小弟沈小农希望我的文章能帮助到你。欢迎大家在评论区唠嗑指正觉得好的话别忘了一键三连哦 SPPO是强化学习的一种据猜测今年9月OpenAI最新的大模型O1使用该方法进行微调。SPPO英文全称Self-Play Preference Optimization中文为自博弈偏好优化。其受到了纳什均衡的冯·诺依曼两人常和博弈公式以及RLHFPPO框架的启发而设计出来。下面本文将讲解SPPO的损失函数、策略梯度更新以及算法框架。 目录 1 策略梯度更新公式 2 损失函数 3 算法流程图 参考文献 1 策略梯度更新公式 常和博弈的纳什均衡公式如下所示 现在让我们一步步从常和博弈的纳什均衡公式的一般形式推导出 SPPO 算法的策略梯度更新公式。 使用Freund和Schapire(1999)建立一个迭代框架该框架可以平均渐进收敛到最优策略。 上面的框架具体后写为 归一化因子为 对上式两边取对数左右平移变化得 为了简化计算使用L2距离公式来近似上面的公式计算得到下面的公式 到这里策略更新公式就推导出来了。不过这是针对连续数据的。下面我们来推导该公式以应用到离散数据上同时进一步简化计算。 可能性估计可以用有限的样本来近似策略更新公式。对于每个提示我们选取个回答作为样本用表示经验分布。有限样本优化问题可以近似为 具体来说和。被视作一种期望可以通过在偏好项的总共个序列中的个新样本来估计。 我们可以用基于人类偏好模型的常数替换来进一步简化计算。具体来说用替换。假设在任意给定的对中赢的概率是同等机会的1或者0当我们能得到。 至此SPPO的策略更新公式推导完成。 下面让我们来得到策略梯度更新公式。 改写上面的公式为 RLHF的策略梯度更新公式为 对比发现上面的公式本质上是策略梯度更新公式至此推导完成。 2 损失函数 SPPO的损失函数如下 公式通过胜者策略得分与输者策略得分的平方和能更全面地评价模型。我们可以进一步简化公式我们令胜者对输者的胜率为1输者对胜者的胜率为0则损失函数可以简化为 3 算法流程图 参考文献 《Self-Play Preference Optimization for Language Model Alignment》
http://www.w-s-a.com/news/141407/

相关文章:

  • 石家庄网站建设接单wordpress功能小工具
  • 有没有专门做网站的网站镜像上传到域名空间
  • 网站建设中 windows买域名自己做网站
  • 设计英语宁波seo做排名
  • 奉贤网站建设上海站霸深圳几个区
  • c#做网站自已建网站
  • 成都地区网站建设网站设计类型
  • 如何做网站结构优化北京响应式网站
  • 出售源码的网站威海住房建设局网站
  • 网站建设补充报价单网站建设 技术指标
  • 做网站费用分摊入什么科目做网络网站需要三证么
  • 房屋备案查询系统官网杭州排名优化软件
  • 网站地图html网络营销的流程和方法
  • 注册好网站以后怎么做wordpress 获取插件目录下
  • 南京做网站dmooo地方网站需要什么手续
  • 网站开发合同有效期omeka wordpress对比
  • 杭州设计网站的公司广州网站改版领军企业
  • 网站备案系统苏州网站设计网站开发公司
  • 怎么样做微网站著名企业vi设计
  • 三分钟做网站网页设计心得体会100字
  • 网站建设支付宝seo建站是什么
  • 常州做网站的 武进学雷锋_做美德少年网站
  • 怎样建网站赚钱贵州seo和网络推广
  • 创建网站的工具站内seo优化
  • 网站特效 站长查询网网站
  • 百度移动端网站网站建设设计思想
  • 青岛建设官方网站南宁制作企业网站
  • 校园网站建设管理工作制度大网站开发费用
  • 做logo赚钱的网站分类网站 模板
  • 网站建设完成报告织梦网站怎么做备份