搜索引擎网站推广法怎么做,杭州做网站的网络公司有哪些,wordpress中文破解主题,定制高端网站的公司这个研究挑战了强化学习仅能放大现有模型输出能力的传统观点#xff0c;通过实验证明长期强化学习训练#xff08;ProRL#xff09;能够使基础模型发现全新的推理策略。ProRL方法体系包含KL散度控制机制、参考策略重置技术以及多元化任务训练集。
ProRL核心方法论
基于GR…这个研究挑战了强化学习仅能放大现有模型输出能力的传统观点通过实验证明长期强化学习训练ProRL能够使基础模型发现全新的推理策略。ProRL方法体系包含KL散度控制机制、参考策略重置技术以及多元化任务训练集。
ProRL核心方法论
基于GRPO的强化学习算法
ProRL采用组相对策略优化Group Relative Policy Optimization, GRPO作为核心强化学习算法。相较于传统的近端策略优化Proximal Policy Optimization, PPOGRPO移除了价值函数模型转而采用基于组分数的基线估计方法。该算法的优化目标函数定义如下
其中τ表示从当前策略πθ中采样得到的响应序列rθ(τ) πθ(τ) / πold(τ)表示每次参与者更新前当前策略与旧策略之间的概率比值。
GRPO算法中的优势函数摒弃了PPO中的评论家模型设计而是直接从组分数{Ri}中估计基线值
熵坍塌问题的缓解策略
长期策略优化过程中的关键挑战是熵坍塌现象即模型输出分布在训练早期阶段变得过于集中导致熵值急剧下降。当熵坍塌发生时策略会过早地固化在一组有限的输出模式上严重限制了模型的探索能力。这种现象对于GRPO等依赖多样化采样输出来有效估计相对优势的方法尤其有害。缺乏充分探索将导致策略更新产生偏差最终使训练过程陷入停滞。
传统的缓解策略通过在推理阶段增加采样温度来解决这一问题。然而这种方法只能延缓熵坍塌的发生时间无法根本阻止其发生因为熵值在训练过程中仍会持续稳定下降。尽管存在这些局限性本研究仍采用了较高的推理温度设置。
解耦裁剪与动态采样策略优化
为了从根本上解决熵坍塌问题本研究采用了动态采样策略优化Dynamic Sampling Policy Optimization, DAPO算法中的多个关键组件这些组件专门设计用于维持探索能力和输出多样性。
DAPO首先引入了解耦裁剪机制将PPO目标函数中的下裁剪边界和上裁剪边界视为独立的超参数进行优化
通过为ϵhigh设置更高的数值该算法实现了高阈值裁剪效果提升了先前概率较低的标记的出现概率从而鼓励更广泛的探索行为。这种修改有效地维持了系统熵并减少了过早的模式坍塌现象。
此外DAPO采用动态采样技术自动过滤那些模型持续完全成功或完全失败准确率为1或0的提示样本因为这些样本无法提供有效的学习信号。通过专注于中等难度的示例这种方法进一步有助于在训练过程中维持多样化的学习信号。
KL正则化与参考策略重置机制
虽然DAPO和温度调整技术有助于减缓熵坍塌速度但通过KL散度惩罚进行的显式正则化提供了更加稳健和稳定的解决方案。具体而言本研究在当前策略πθ和参考策略πref之间引入了KL散度惩罚项
这种惩罚机制不仅有助于维持系统熵还充当正则化器的角色防止在线策略偏离稳定参考点过远从而稳定学习过程并减轻对虚假奖励信号的过拟合风险。
近期研究倾向于移除KL惩罚项其理由是模型在思维链推理任务的训练过程中会自然发散。这种观点通常适用于从任何监督微调之前的基础模型开始训练的情况。相比之下当从一个已经能够生成连贯思维链输出的良好初始化检查点开始训练时保留KL惩罚项对于维持稳定性和持续熵仍然具有重要意义。
随着训练进程的推进KL项可能在损失函数中占据主导地位导致策略更新幅度减小。为了缓解这一问题本研究引入了一种简单而有效的技术参考策略重置。系统会周期性地将参考策略πref硬重置为在线策略πθ的最新快照同时重新初始化优化器状态。这种机制使得模型能够在保持KL正则化优势的同时继续改进性能。参考策略重置技术在整个训练过程中持续应用以避免过早收敛并促进长期训练的有效性。
Nemotron-Research-Reasoning-Qwen-1.5B模型
Nemotron-Research-Reasoning-Qwen-1.5B是基于DeepSeek-R1-Distill-Qwen-1.5B通过强化学习训练得到的通用推理模型。该模型的训练数据集包含13.6万个跨越数学、编程、STEM学科、逻辑谜题和指令遵循等多个领域的可验证问题。
训练数据集构成
训练数据集涵盖广泛的任务类型旨在提供可靠的验证奖励信号。这些任务不仅包括数学问题求解和代码生成等传统推理领域还扩展到更复杂和开放式的领域包括STEM相关问题求解、逻辑推理谜题和指令遵循任务。
数学领域采用DeepScaleR提供的高质量、社区策划数据集包含来自国内外数学竞赛的4万个数学问题。系统采用DeepScaleR的原始验证器并结合改进的math-verify4工具进行答案验证。奖励机制采用二元信号设计正确答案获得奖励1错误或格式不正确的答案获得奖励0。模型通过让我们逐步思考并在\boxed{}中输出最终答案的提示格式生成回答。
编程领域使用公开可用的强化学习数据集包含来自编程竞赛的2.4万个编程问题。系统改进了代码执行环境能够运行所有测试用例而不是在首次错误时终止并根据通过测试用例的比例分配奖励以支持连续性奖励反馈。编译失败、包含语法错误或总执行时间超过5秒的提交将被分配零奖励。系统指示大语言模型使用三个反引号将最终代码响应包围。
STEM学科利用SCP-116K数据集这是一个包含27.4万个科学问题-解决方案对的大规模数据集涵盖物理、化学、生物和数学等多个学科领域。每个问题都配有从原始源文本中提取的相应解决方案以及由DeepSeek-R1生成的模型响应和推理路径。系统应用了严格的数据过滤标准包括删除缺乏可检索真实解决方案的问题并使用GPT-4o评估DeepSeek-R1响应与标准答案的一致性最终将数据集规模缩减至2.5万个高质量样本。
逻辑谜题Reasoning Gym利用Reasoning Gym项目资源该项目提供跨越不同领域的约100个推理任务。涵盖领域包括代数、算术、计算科学、认知科学、几何学、图论、逻辑学和流行游戏等。数据集包含3.7万个合成训练样本和9600个验证样本覆盖96个不同任务类型。系统采用Reasoning Gym存储库提供的验证器进行模型评估和强化学习训练信号生成使用推荐的默认提示格式指示模型将答案包含在标签之间。
指令遵循利用来自Llama-Nemotron的合成生成数据设计类似于IFEval的评估格式。数据集包含将具体任务与随机选择的指令进行配对的合成提示。模型在进行思考过程通过标记分隔后生成最终响应。
训练实施方案
系统采用Verl框架进行强化学习训练实现了DAPO提出的GRPO算法增强功能。训练过程中解耦了裁剪超参数设置将ϵlow设置为0.2ϵhigh设置为0.4并使用动态采样技术过滤过于简单或困难准确率等于1和0的提示样本。在推理阶段系统为每个提示采样n16个响应上下文窗口限制为8096个标记并使用1.2的高采样温度。
验证监控机制系统使用混合验证数据集监控训练进度包含来自AIME2024、Codeforces、GPQA-diamond、IFEval以及Reasoning Gym中逻辑谜题graph_color任务的子集样本。
参考模型和优化器重置策略当验证指标出现下降或停滞时系统对参考模型和优化器执行硬重置操作。这些重置操作还允许调整超参数设置以及引入新的训练数据和奖励塑形机制。
上图展示了训练过程中KL散度的变化情况。
训练阶段1初始阶段不包含指令遵循数据响应长度限制为8k标记基础模型的序列长度为128k。在训练后期观察到验证性能的不稳定性和下降趋势。
训练阶段2对参考策略执行硬重置操作以与阶段1相同的设置恢复训练过程最大响应长度维持在8k标记。
训练阶段3将指令遵循数据纳入训练数据混合中训练持续进行直至观察到响应长度突然增加的现象这是由于模型出现重复答案且未能正确以标记终止。
训练阶段4和5通过惩罚未正确终止的响应引入奖励塑形机制这种方法促进了正确的生成行为从而适度减少了响应长度。
训练阶段6和7将推理计数从16增加到32执行了两次硬重置操作。随着验证指标的改善响应长度再次开始增加。
训练阶段8将上下文窗口扩展至16k标记同时将推理计数减少至16。模型迅速适应了扩展的上下文窗口设置。在AIME等困难数学任务中观察到边际性改进而在其他领域则实现了更显著的性能提升。
实验评估结果 上图展示了数学领域基准测试的性能pass1比较结果。Nemotron-Research-Reasoning-Qwen-1.5B模型在数学领域持续优于基础模型DeepSeek-R1-Distill-Qwen-1.5B平均性能提升达15.7%。
上图展示了编程基准测试的性能pass1比较结果。该模型在竞争性编程任务中超越了基础模型pass1准确率提高了14.4%。
上图展示了STEM推理GPQA Diamond、指令遵循IFEval和逻辑谜题Reasoning Gym任务的性能比较结果。
主要性能指标
模型在STEM推理和指令遵循方面取得了显著进展在GPQA Diamond测试中实现了25.9%的性能提升在IFEval测试中实现了22.0%的性能提升。在Reasoning Gym逻辑谜题测试中取得了高准确率奖励分数提高了54.8%。
该模型在多个领域展现出与更大规模模型DeepSeek-R1-Distill-Qwen-7B相当或更优的性能表现。在Reasoning Gym的分布外Out-of-Distribution, OOD任务中表现出显著改进展示了更强的泛化能力。
与领域特定模型DeepScaleR-1.5B和DeepCoder-1.5B相比该模型在数学基准测试中取得了4.6%的pass1分数提升在编程基准测试中取得了6.5%的pass1分数提升。
论文 https://avoid.overfit.cn/post/49b5f8e62762480ba9a10b783e8f039f
作者Ritvik Rastogi