本地广东中山网站建设,园林景观设计公司设备列表,自动生成海报的网站,贵州网站建设服务平台博客昵称#xff1a;沈小农学编程 作者简介#xff1a;一名在读硕士#xff0c;定期更新相关算法面试题#xff0c;欢迎关注小弟#xff01; PS#xff1a;哈喽#xff01;各位CSDN的uu们#xff0c;我是你的小弟沈小农#xff0c;希望我的文章能帮助到你。欢迎大家在… 博客昵称沈小农学编程 作者简介一名在读硕士定期更新相关算法面试题欢迎关注小弟 PS哈喽各位CSDN的uu们我是你的小弟沈小农希望我的文章能帮助到你。欢迎大家在评论区唠嗑指正觉得好的话别忘了一键三连哦 SPPO是强化学习的一种据猜测今年9月OpenAI最新的大模型O1使用该方法进行微调。SPPO英文全称Self-Play Preference Optimization中文为自博弈偏好优化。其受到了纳什均衡的冯·诺依曼两人常和博弈公式以及RLHFPPO框架的启发而设计出来。下面本文将讲解SPPO的损失函数、策略梯度更新以及算法框架。 目录
1 策略梯度更新公式
2 损失函数
3 算法流程图
参考文献 1 策略梯度更新公式
常和博弈的纳什均衡公式如下所示 现在让我们一步步从常和博弈的纳什均衡公式的一般形式推导出 SPPO 算法的策略梯度更新公式。
使用Freund和Schapire(1999)建立一个迭代框架该框架可以平均渐进收敛到最优策略。 上面的框架具体后写为 归一化因子为 对上式两边取对数左右平移变化得 为了简化计算使用L2距离公式来近似上面的公式计算得到下面的公式 到这里策略更新公式就推导出来了。不过这是针对连续数据的。下面我们来推导该公式以应用到离散数据上同时进一步简化计算。
可能性估计可以用有限的样本来近似策略更新公式。对于每个提示我们选取个回答作为样本用表示经验分布。有限样本优化问题可以近似为 具体来说和。被视作一种期望可以通过在偏好项的总共个序列中的个新样本来估计。
我们可以用基于人类偏好模型的常数替换来进一步简化计算。具体来说用替换。假设在任意给定的对中赢的概率是同等机会的1或者0当我们能得到。 至此SPPO的策略更新公式推导完成。
下面让我们来得到策略梯度更新公式。
改写上面的公式为 RLHF的策略梯度更新公式为 对比发现上面的公式本质上是策略梯度更新公式至此推导完成。 2 损失函数
SPPO的损失函数如下 公式通过胜者策略得分与输者策略得分的平方和能更全面地评价模型。我们可以进一步简化公式我们令胜者对输者的胜率为1输者对胜者的胜率为0则损失函数可以简化为 3 算法流程图 参考文献
《Self-Play Preference Optimization for Language Model Alignment》