专门做婚庆的网站有哪些,网站开发都用什么,软件技术有学做网站吗,广告开户南京seoTL;DR
2025 年 kimi 发表的 k1.5 模型技术报告#xff0c;和 DeepSeek R1 同一天发布#xff0c;虽然精度上和 R1 有微小差距#xff0c;但是文章提出的 RL 路线也有很强的参考意义
Paper name
Kimi k1.5: Scaling Reinforcement Learning with LLMs
Paper Reading Note…TL;DR
2025 年 kimi 发表的 k1.5 模型技术报告和 DeepSeek R1 同一天发布虽然精度上和 R1 有微小差距但是文章提出的 RL 路线也有很强的参考意义
Paper name
Kimi k1.5: Scaling Reinforcement Learning with LLMs
Paper Reading Note
Paper URL:
https://arxiv.org/abs/2501.12599
Project URL:
https://github.com/MoonshotAI/Kimi-k1.5 Introduction
背景
语言模型的预训练通过预测下一个词有效地扩展了计算能力但受限于可用训练数据的数量。强化学习RL的扩展为人工智能的持续改进提供了新方向且大语言模型LLM可以通过奖励学习来扩展其训练数据。
本文方案 介绍了 Kimi k1.5多模态 LLM使用强化学习RL进行训练Kimi k1.5 有以下特点 长上下文扩展将 RL 的上下文窗口扩展到 128k并观察到随着上下文长度的增加性能持续提升。我们的方法核心是使用部分回合来提高训练效率即通过重用大量先前轨迹来采样新的轨迹避免从头开始重新生成新轨迹。我们观察到上下文长度是RL与LLM持续扩展的关键维度。改进的策略优化我们推导出结合长-CoT的 RL 公式并采用一种在线镜像下降算法进行稳健的策略优化。该算法通过有效的采样策略、长度惩罚和数据配方优化进一步得到改进。简洁框架结合长上下文扩展和改进的策略优化方法我们建立了一个简洁的 RL 框架来与 LLM 共同学习。由于能够扩展上下文长度学习到的 CoT 展现了规划、反思和修正等特性。增加上下文长度有效地增加了搜索步骤数量因此我们证明强大的性能可以在不依赖蒙特卡罗树搜索、值函数和过程奖励模型等复杂技术的情况下实现。多模态我们的模型在文本和视觉数据上联合训练具备在这两种模态上共同推理的能力 还提出了有效的 long2short 方法利用长-CoT技术改进短-CoT模型。具体来说我们的方法包括应用长度惩罚和长-CoT激活、以及模型合并。 精度评测我们的长-CoT版本在多个基准和模态上达到了最先进的推理性能例如AIME 77.5、MATH 500 96.2、Codeforces 94-th、MathVista 74.9达到了 OpenAI 的 o1 水平。我们的模型还在短-CoT推理上取得了最先进的成果例如AIME 60.8、MATH500 94.6、LiveCodeBench 47.3远超现有的短-CoT模型如 GPT-4o 和 Claude Sonnet 3.5提升幅度最高可达550%。 放一个 deepseek R1 的评测精度Kimi k1.5 在大部分数据集上确实和 R1 有一定差距
基于强化学习的LLM训练
Kimi k1.5 的开发包括多个阶段预训练、传统监督微调SFT、长-CoT 监督微调和强化学习RL本报告重点讨论 RL 部分
RL提示集构建
发现 RL 提示集的质量和多样性很重要高质量的 RL 提示集具备以下三个关键特性 多样性覆盖提示应涵盖广泛的学科如 STEM、编程和一般推理以增强模型的适应性并确保其在不同领域的广泛适用性。 使用自动筛选器选择需要丰富推理且容易评估的问题数据集包括来自 STEM 领域、竞赛和一般推理任务的问题涵盖了文本和图像-文本问答数据。还开发了一个标签系统根据领域和学科对提示进行分类以确保不同学科之间的平衡性 平衡难度提示集应包括易、中、难三个层次的问题以促进逐步学习并防止过拟合到特定的复杂度水平。对于每个提示一个 SFT 模型使用相对较高的采样温度生成十次答案。然后计算通过率并将其作为提示难度的代理——通过率越低难度越高。 采用基于模型的方法利用模型自身的能力自适应评估每个提示的难度 准确可评估性提示应能通过验证器进行客观可靠的评估确保模型表现是基于正确的推理过程而非表面模式或随机猜测 一些复杂的推理问题可能有相对简单且容易猜测的答案导致错误的验证结果——即模型通过错误的推理过程得出正确答案。为了解决这个问题我们排除了容易出错的问题如多项选择、对错题和证明类问题。此外对于一般问答任务我们提出了一种简单而有效的方法来识别和去除容易被滥用的提示。具体而言我们提示模型在没有任何 CoT 推理步骤的情况下猜测可能的答案。如果模型在 N 次尝试内预测出正确答案则认为该提示过于容易滥用应当移除。我们发现设置 N8 可以移除大部分易滥用的提示。开发更高级的验证模型仍然是未来研究的开放方向。
长-CoT 监督微调
通过精炼的RL提示集我们采用提示工程构建了一个小巧但高质量的长-CoT预热数据集包含了经过准确验证的推理路径涵盖文本和图像输入。类似于拒绝采样RS但侧重于通过提示工程生成长-CoT 推理路径。生成的预热数据集旨在概括对类人推理至关重要的关键认知过程例如 规划模型在执行前系统性地列出步骤评估对中间步骤进行关键性评估反思允许模型重新考虑并改进其方法探索鼓励考虑替代解决方案。 通过在这个预热数据集上进行轻量级的SFT训练我们有效地将这些推理策略内化到模型中
强化学习
由于思维步骤和反馈都可以视为中间推理步骤规划算法使用的搜索树中的所有信息被“扁平化”并作为完整的上下文提供给算法。这为生成高质量CoT提供了一个有趣的视角我们不需要显式构建搜索树并实现规划算法而是可以训练一个模型来近似这一过程。在这种方法中思维的数量即语言令牌的数量类似于传统规划算法中分配的计算预算。给定一个问题模型通过采样过程生成 CoT 和答案生成的CoT的质量通过它是否能引导出正确的最终答案来评估。为了评估生成答案的正确性我们使用一个奖励模型来根据真实答案对生成答案进行评估。 对于可验证的问题奖励直接由预定义的标准或规则决定。对于自由形式的真实答案问题我们训练一个奖励模型来预测答案是否与真实答案匹配 通过扩展 RL 训练我们的目标是训练一个模型充分利用简单的基于提示的 CoT 和规划增强的 CoT 的优势。模型仍然通过自回归采样语言序列进行推理从而避免了部署时复杂规划算法所需的并行化。然而和简单提示方法的关键区别在于模型不仅仅是按步骤执行推理还需要学习关键的规划技能包括错误识别、回溯和解决方案优化利用所有探索过的思维作为上下文信息。
策略优化
采用在线策略镜像下降Online Policy Mirror Descent, OPMD的变体作为训练算法
长度惩罚
观察到在 RL 训练过程中模型的响应长度会显著增加。尽管这会带来更好的性能但过长的推理过程在训练和推理时非常昂贵而且过度思考通常不是人类所偏好的。为了解决这个问题我们引入了长度奖励来限制 token 长度的快速增长从而提高模型的 token 效率。本质上我们鼓励较短的响应并在正确答案中惩罚较长的响应同时明确惩罚错误答案中的长响应。这个基于长度的奖励然后与原始奖励加权结合。在我们的初步实验中长度惩罚可能会在训练初期减慢训练速度。为了解决这个问题我们建议在训练过程中逐渐增强长度惩罚。具体来说我们首先在没有长度惩罚的情况下进行标准策略优化然后在训练的其余部分中引入常数长度惩罚。
采样策略
尽管强化学习RL算法本身具有相对较好的采样特性更困难的问题提供更大的梯度但其训练效率仍然有限。因此一些经过良好定义的先验采样方法可能会带来更大的性能提升。我们利用多个信号来进一步优化采样策略。 我们收集的强化学习训练数据天然带有不同的难度标签。例如数学竞赛题比小学数学题更难由于强化学习训练过程中会对同一个问题进行多次采样我们可以跟踪每个问题的成功率作为难度度量标准。 提出了两种利用这些先验知识来提高训练效率的采样方法 课程式采样Curriculum Sampling 我们从较简单的任务开始训练并逐步过渡到更具挑战性的任务。由于初始的强化学习模型性能有限在非常困难的问题上花费有限的计算预算通常只会产生少量正确样本从而降低训练效率。同时我们收集的数据天然包含年级和难度标签因此基于难度的采样是一种直观且有效的提升训练效率的方法。优先级采样Prioritized Sampling 除了课程式采样我们还采用了一种优先级采样策略以重点关注模型表现不佳的问题。我们跟踪每个问题 的成功率 并按比例 1− 进行采样使得成功率较低的问题被采样的概率更高。这使得模型的训练更集中于其最薄弱的部分从而加速学习提高整体性能。
训练细节
代码测试用例生成
由于许多网络上的编程题目缺少测试用例我们设计了一种自动生成测试用例的方法以作为奖励信号用于强化学习训练。我们的重点主要是那些不需要特殊评测器special judge的题目并假设这些题目有可用的标准解答以利用这些解答生成高质量的测试用例。
我们采用了广泛认可的测试用例生成库 CYaRon 来增强该方法并使用基础模型 Kimi k1.5 根据题目描述生成测试用例。具体流程如下
CYaRon 的使用声明及题目描述被输入到测试用例生成器。对于每个问题我们首先使用生成器生成 50 个测试用例并随机抽取 10 份真实提交ground truth submissions。运行这些提交并筛选出至少 7/10 份提交输出一致的测试用例。经过这一轮筛选后获得最终的测试用例集合。若某个问题的测试用例集合能够通过至少 9/10 份真实提交则该问题及其测试用例被加入训练数据集。
从 1,000 道网络竞赛题目中我们统计发现
约 614 道题目不需要特殊评测器我们为 463 道题目生成了至少 40 个有效测试用例最终 323 道题目被纳入训练数据集。
数学奖励建模Reward Modeling for Math
数学问题评估的一个挑战是不同的书写形式可能表示相同的答案。例如 a 2 − 4 a^2 - 4 a2−4 和 ( a 2 ) ( a − 2 ) (a 2)(a - 2) (a2)(a−2) 可能都是真正的解答。为此我们采用两种方法来提高奖励模型的评分准确性 经典奖励模型Classic RM 受到 InstructGPTOuyang et al. 2022的启发我们实现了一个基于 value-head 的奖励模型并收集了约 80 万 条数据进行微调。该模型的输入包括 “题目”question“参考答案”reference answer“模型回答”response 输出是一个单一的标量指示该回答是否正确。 链式思维奖励模型Chain-of-Thought RM 最新研究Ankner et al. 2024; McAleese et al. 2024表明结合 链式思维Chain-of-Thought, CoT 推理的奖励模型在数学任务上远胜于传统方法尤其是对需要精细判断正确性的任务。因此我们收集了同样规模80 万 条的 CoT 标注数据 来微调 Kimi 模型。 该方法基于与 经典奖励模型 相同的输入但在最终判断前会先生成 逐步推理过程step-by-step reasoning。评分结果以 JSON 格式 输出使得奖励信号更健壮且可解释。
在人工抽查中经典奖励模型的准确率约为 84.4%而 链式思维奖励模型的准确率达到 98.5%。在强化学习训练过程中我们采用 链式思维奖励模型 以确保更准确的反馈。
视觉数据Vision Data
为了提升模型在现实世界中的图像推理能力并实现视觉输入与大语言模型LLMs之间的有效对齐我们的视觉强化学习Vision RL 训练数据主要来自三大类别 真实世界数据Real-world Data 包含 科学问题涵盖各个年级水平涉及图表理解与推理地理定位任务需要视觉感知与推理能力数据分析涉及复杂图表理解等。 这些数据集增强了模型在实际场景中的视觉推理能力。 合成视觉推理数据Synthetic Visual Reasoning Data 采用程序化生成procedural generation的方法创建图片和场景以提升特定的视觉推理能力如 空间关系理解几何模式识别物体交互推理 等。 这些合成数据提供了可控的测试环境并且能够生成无限量的训练样本。 文本渲染数据Text-rendered Data 通过将 文本内容转换为图像使模型在处理跨模态文本查询时保持一致性。例如 文本文档代码片段结构化数据 被转换成图片以确保模型能够在纯文本输入和 图像化文本输入(如截图、照片) 两种模式下保持一致的响应能力。 这也有助于提升模型对**以文本为主的图像text-heavy images**的理解能力。
通过整合上述三类数据我们构建了一个综合性的视觉语言模型Vision-Language Model能够有效应对各种现实世界应用并在不同输入模态之间保持稳定的性能。
2.4 Long2short: 短-CoT 模型的上下文压缩
尽管 长链式思维Long-CoT 模型在推理任务中表现优异但相比标准的 短链式思维Short-CoT 大模型其在测试时消耗的 token 量更大。然而我们可以将 长-CoT 模型 中的推理先验知识迁移到 短-CoT 模型从而在有限的 token 预算下提高性能。我们针对这个 long2short 问题提出了几种方法包括 模型合并Model MergingYang et al. 2024、最短拒绝采样Shortest Rejection Sampling、直接偏好优化DPO, Rafailov et al. 2024 以及 long2short 强化学习RL。以下是这些方法的详细描述
模型合并Model Merging
模型合并已被证明在保持泛化能力方面非常有效我们也发现它在提高 token 效率方面具有良好的效果。 该方法通过合并长-CoT 模型与短-CoT 模型来得到一个新的模型而无需额外训练。具体而言我们采用简单的权重平均来合并两个模型。
最短拒绝采样Shortest Rejection Sampling
我们观察到同一个问题的模型输出可能存在较大长度差异。因此我们设计了一种最短拒绝采样方法
该方法针对同一个问题采样 ( n ) 次实验中 ( n 8 )。选择其中最短的正确答案并将其用于监督微调SFT。
直接偏好优化DPO
DPO 方法与最短拒绝采样类似它利用 长-CoT 模型 生成多个答案并筛选出 最短的正确答案 作为正样本。 同时我们将较长的答案包括
错误的长答案比正样本长 1.5 倍的正确答案视为负样本。 这些正-负对构成了DPO 训练的偏好数据用于指导模型优化。
Long2short 强化学习RL
在标准强化学习RL训练阶段结束后我们会选择在性能和 token 效率之间取得最佳平衡的模型作为基础模型然后再进行一个单独的 long2short RL 训练阶段
这一阶段应用 长度惩罚length penalty。显著减少最大 rollout 长度从而对超出预期长度的答案进行额外惩罚即使这些答案是正确的。
其他训练细节
预训练Pretraining
基础模型 Kimi k1.5 训练于一个多样化的高质量多模态语料库。其中语言数据涵盖五个主要领域
英语English中文Chinese代码Code数学推理Mathematics Reasoning知识Knowledge
此外多模态数据涵盖
图像字幕Captioning图文交错Image-text InterleavingOCR光学字符识别知识问答Knowledge QA
这一多模态数据使模型具备 视觉-语言理解能力。同时我们通过严格的质量控制确保数据集的相关性、丰富性和均衡性。
预训练分为 三个阶段
视觉-语言预训练Vision-language Pretraining 先建立强大的语言基础再逐步引入多模态能力。 冷却阶段Cooldown 采用精选数据合成数据进一步巩固推理能力和知识任务的表现。 长上下文激活Long-context Activation 将序列长度扩展至 131,072 tokens 以增强长文本处理能力。详细的预训练策略见附录 B。
标准监督微调Vanilla Supervised Finetuning, SFT
我们构建了一个覆盖多个领域的标准 SFT 语料库
数据构造 非推理任务如问答、写作、文本处理 先由人工标注构建种子数据集seed dataset。训练种子模型seed model。采集大量用户输入prompts并让种子模型生成多个答案。由人工标注员对答案进行排序并改进最优答案最终得到高质量数据。 推理任务如数学、编程 由于数学和编程任务的正确性比人工判断更适合规则验证/奖励建模我们使用 拒绝采样Rejection Sampling 来扩展数据集。
数据统计
SFT 语料库总计约 100 万 条文本示例其中
50 万通用问答QA。20 万编程Coding。20 万数学与科学Math Science。5 千创意写作Creative Writing。2 万长文本任务如文档问答Doc-QA、翻译、摘要、长文写作。
此外我们还构建了 100 万 条文本-视觉数据涵盖
图表解读Chart InterpretationOCR光学字符识别图像对话Image-grounded Conversations视觉代码Visual Coding视觉推理Visual Reasoning带视觉信息的数学/科学题目Math/Science Problems with Visual Aids
训练策略
第一阶段序列长度 32k tokens训练 1 轮epoch 学习率从 2 × 1 0 − 5 2 \times 10^{-5} 2×10−5 逐步衰减至 2 × 1 0 − 6 2 \times 10^{-6} 2×10−6。 第二阶段序列长度 128k tokens再训练 1 轮epoch 学习率重新热启动至 1 × 1 0 − 5 1 \times 10^{-5} 1×10−5最终衰减至 1 × 1 0 − 6 1 \times 10^{-6} 1×10−6。 训练加速 多个训练示例打包至单个训练序列提高计算效率。
强化学习RL基础设施
大规模强化学习训练系统RL Training System for LLM
在人工智能领域强化学习RL已成为 大型语言模型LLM 的重要训练方法Ouyang et al. 2022Jaech et al. 2024。这一方法的成功案例包括
AlphaGoSilver et al. 2017——围棋AlphaStarVinyals et al. 2019——星际争霸 IIOpenAI Dota FiveBerner et al. 2019——Dota 2
Kimi k1.5 采用迭代同步 RL 框架通过持续学习和适应增强模型的推理能力。其中的核心创新之一是 Partial Rollout 技术用于优化复杂推理轨迹的处理。
该强化学习训练系统见图 3a遵循 迭代同步iterative synchronous 流程每次迭代包含 Rollout 阶段 Rollout workers执行采样的计算节点在中央主控central master的协调下与模型交互生成 rollout 轨迹模型对输入的响应序列。这些轨迹被存储至 Replay Buffer用于去除时间相关性确保训练数据的多样性与无偏性。 训练阶段Training Phase 训练节点Trainer workers从 Replay Buffer 读取 rollout 轨迹并进行梯度更新gradient update优化模型参数。
在整个 RL 过程中
中央主控Central Master 负责协调数据流、管理 rollout workers、训练 workers、奖励模型Reward Model及 Replay Buffer确保系统高效运作。奖励模型Reward Model 用于评估模型的输出质量并提供反馈指导训练过程。代码执行服务Code Execution Service 用于处理代码类任务确保模型在真实编程环境中的表现。
Partial Rollouts 技术用于 Long CoT RL
本研究的核心目标之一是扩展长上下文Long-contextRL 训练。Partial Rollouts 技术解决了处理 长-CoTLong-CoT 任务的挑战使长短轨迹的 rollout 处理更加高效。
Partial Rollouts 工作机制
固定 token 预算即 rollout 轨迹长度有上限。超出 token 限制的未完成轨迹将被存入 Replay Buffer并在下一次迭代继续完成避免单个超长轨迹占用系统资源。异步计算Asynchronous Processing 部分 workers 处理长轨迹部分 workers 处理短轨迹最大化计算效率确保所有计算资源得到充分利用。
Replay Buffer 的优化
如 图 3b 所示
长轨迹被分段存储在 Replay Buffer 中。仅当前迭代iter n需要 on-policy 计算而前几轮iter n-m 至 n-1的数据可重复使用避免重复 rollout减少计算开销。
其他优化机制
减少计算开销只需处理最新的 token 片段而非完整的长响应。防止重复内容Repeat Detection 识别重复模式并提前终止计算。给予额外惩罚penalty避免生成冗余内容。
训练与推理的混合部署Hybrid Deployment of Training and Inference 强化学习训练流程包括三个阶段 训练阶段Training Phase MegatronShoeybi et al. 2020 和 vLLMKwon et al. 2023 在独立容器中运行。Checkpoint Engine 负责管理训练流程 Megatron 执行训练任务。训练完成后Megatron 释放 GPU 内存并将当前模型权重传输到 vLLM。 推理阶段Inference Phase vLLM 先加载 占位模型权重dummy model weights。然后 通过 MooncakeQin et al. 2024 更新最新权重。推理任务完成后Checkpoint Engine 停止所有 vLLM 进程。 后续训练阶段Subsequent Training Phase 释放 vLLM 内存后Megatron 重新加载 GPU 内存并启动下一轮训练。
关键挑战
复杂并行计算策略 Megatron 和 vLLM 可能使用不同的并行策略共享训练权重存在挑战。 最小化 GPU 资源空闲 传统 RL 训练如 SGLangL. Zheng et al. 2024可能预留部分 GPU导致资源闲置。本系统允许训练与推理共享相同 GPU 设备提升利用率。 动态扩展Dynamic Scaling 可动态调整推理节点数量在保持训练规模不变的情况下加速推理。
混合部署策略
采用 Kubernetes Sidecar 容器共享所有 GPU 资源将训练和推理任务部署在同一个 pod。优势 防止 GPU 资源空闲避免因训练等待推理资源而浪费计算能力。独立更新训练/推理镜像实现高效迭代。兼容多种推理框架如 vLLM可扩展性强。
Checkpoint Engine
负责管理 vLLM 进程生命周期通过 HTTP API 触发不同操作。etcd 全局元数据系统管理操作广播确保系统一致性和可靠性。
代码沙箱Code Sandbox
我们开发了一个安全环境sandbox用于用户提交代码的执行与评测优化代码推理任务的强化学习RL训练。
支持多种评测平台
沙箱支持多种代码评测框架包括
MultiPL-ECassano et al. 2023DMOJ Judge Server 2LeanJupyter Notebook
主要功能
提供一致且可重复的评测机制确保训练数据的可靠性。多阶段反馈系统 代码执行反馈代码仓库级repo-level编辑保持统一上下文确保跨语言的公平性。
技术优化
运行时优化 使用 Crun 作为容器运行时比 Docker 启动更快。 Cgroup 复用 预创建 Cgroups优化高并发场景避免频繁创建/销毁 Cgroup 的性能瓶颈。 磁盘优化 使用 OverlayFS tmpfs实现高效磁盘缓存适用于短期计算任务。
可扩展性
Kubernetes 部署 自动重启、滚动更新保障高可用性。 HTTP API 外部系统可直接调用支持灵活集成。
实验Experiments
评估Evaluation
由于 Kimi k1.5 是一个多模态模型我们在不同模态的多个基准测试benchmark上进行了全面评估。我们的评估基准主要包括以下三大类别
1. 文本评测Text Benchmark
MMLUHendrycks et al. 2020IF-EvalJ. Zhou et al. 2023CLUEWSCL. Xu et al. 2020C-EVALY. Huang et al. 2023
2. 推理评测Reasoning Benchmark
HumanEval-MulLiveCodeBenchJain et al. 2024CodeforcesAIME 2024MATH500Lightman et al. 2023
3. 视觉评测Vision Benchmark
MMMUYue, Ni, et al. 2024MATH-VisionK. Wang et al. 2024MathVistaLu et al. 2023
主要实验结果Main Results
K1.5 长链式思维Long-CoT模型 Kimi k1.5 长-CoT 模型的实验结果见 表 2。 通过
长-CoT 监督微调Supervised Fine-tuning详见 2.2 节视觉-文本联合强化学习Vision-Text Joint RL详见 2.3 节
该模型的长程推理能力显著增强。此外测试时计算扩展Test-time computation scaling 进一步提升了模型性能使其在多种模态上达到了 最先进state-of-the-art, SOTA 水平。
实验表明Kimi k1.5 在推理、理解、信息综合等方面具有显著提升标志着多模态 AI 能力的进步。
K1.5 短链式思维Short-CoT模型 Kimi k1.5 短-CoT 模型的实验结果见 表 3。 该模型整合了
传统监督微调Supervised Fine-tuning详见 2.5.2 节强化学习Reinforcement Learning详见 2.3 节长短迁移蒸馏Long-to-Short Distillation详见 2.4 节
实验结果表明Kimi k1.5 短-CoT 模型在文本、视觉、推理任务上表现优于或可媲美领先的开源和专有大模型尤其在
自然语言理解NLU数学Mathematics编程Coding逻辑推理Logical Reasoning
等领域表现突出。
长上下文扩展Long Context Scaling 我们使用中等规模的模型研究强化学习在大模型上的扩展性。
图 5 显示了训练准确率与响应长度在训练迭代过程中的变化在数学任务集上训练。实验观察 随着训练进展模型的响应长度与准确率同步提升。难度更高的基准测试harder benchmarks其响应长度增加更陡峭表明模型会针对复杂问题生成更详细的解答。 图 6 表明 输出上下文长度与问题解决能力呈强相关性。最终 Kimi k1.5 训练扩展至 128k 上下文长度并在高难度推理任务上持续取得提升。
Long2short 训练Long2short
我们比较了 long2short RL 方法与
DPODirect Preference Optimization最短拒绝采样Shortest Rejection Sampling, RS模型合并Model Merging
等方法在 long2short 任务中的 token 效率X. Chen et al. 2024。
实验设定
K1.5-longKimi k1.5 长-CoT 模型用于 long2short 训练。K1.5-short w/ RL采用 Long2short RL 训练的短模型。K1.5-short w/ DPO通过 DPO 训练提高 token 效率的短模型。K1.5-short w/ Merge模型合并后得到的短模型。K1.5-short w/ Merge RS在合并模型基础上应用最短拒绝采样得到的短模型。K1.5-shortestlong2short 训练过程中获取的最短模型。
实验结果 图 7 展示了不同方法在 token 效率上的表现
long2short RL 算法K1.5-short w/ RL 取得最高 token 效率优于 DPO 和模型合并。所有 K1.5 系列模型橙色 在 token 效率上显著优于其他模型蓝色。具体数据对比 K1.5-short w/ RL 在 AIME2024 上 Pass1 60.88 次实验平均值。平均使用 token 仅 3,272。 K1.5-shortest 在 MATH500 上 Pass1 88.2但消耗的 token 数量与其他短模型基本相同。
消融实验Ablation Studies
模型规模与上下文长度的扩展Scaling of Model Size and Context Length
本研究的主要贡献在于应用强化学习RL来优化模型的长链式思维Long-CoT能力从而提升推理性能。然而一个自然的问题是这种方法与单纯增大模型规模相比效果如何
实验设定
两个不同规模的模型使用相同的数据集进行训练。记录RL 训练过程中的评估结果及平均推理长度。结果见图 8。
实验结论
较大模型在训练初期表现更好但较小模型通过 RL 训练的长-CoT 生成优化可以达到相似的推理能力。较大模型的 token 使用效率更高表明 如果目标是最优性能则较大模型更长的上下文长度具有更高的上限并且更具 token 效率。如果计算资源受限则训练较小模型但扩展其上下文长度可能是可行方案。
负梯度的影响Effects of Using Negative Gradients
本实验探讨了在策略优化policy optimization中使用 负梯度negative gradients 的影响并评估了 ReSTGulcehre et al. 2023 作为 RL 策略优化算法的有效性。
ReST 方法与本研究的区别
ReST基于当前模型的最优响应进行拟合但不会对错误答案应用负梯度惩罚。本方法使用负梯度来惩罚错误回答从而加速训练收敛。
实验结果 图 10 表明 本方法的样本复杂度sample complexity优于 ReST。负梯度的使用显著提高了长-CoT 训练的效率使得 推理质量更高训练效率更优 实验结论 策略优化算法的选择至关重要负梯度的使用能够显著提升 RL 训练的效果。这一现象在其他领域的 RL 任务Gulcehre et al. 2023中可能不明显但在长链式思维任务上至关重要。
采样策略Sampling Strategies
本实验进一步验证了 课程式采样Curriculum Sampling详见 2.3.4 节的有效性。
实验方法
训练数据集 D 由不同难度的问题组成。两种采样方法对比 课程式采样 初期使用数据集 D 进行热身训练warm-up。后期仅专注于高难度问题强化训练。 基线方法Baseline 不进行难度调整**均匀采样uniform sampling**数据集中的问题。
实验结果 图 9 显示 课程式采样 显著提升了模型性能。其原因 逐步提高挑战性使模型逐渐适应更复杂的问题。初始训练阶段建立基础后期聚焦难题强化推理能力。
实验结论
课程式采样策略能有效提升模型的推理能力比均匀采样更具优势。 结论Conclusions
本研究提出了 Kimi k1.5 的训练方法与系统设计这是一个多模态 LLM基于强化学习RL训练。研究过程中我们得出以下关键结论
1. 长上下文扩展对 LLM 发展至关重要
长上下文扩展Long-context Scaling 是 LLM 持续提升的关键。优化学习算法 基础设施优化如 Partial Rollouts使得长上下文 RL 训练更加高效。未来研究方向 如何进一步提高长上下文 RL 的效率和可扩展性。
2. 提升 RL 策略优化的多种方法
本研究的贡献 结合长-CoT RL 训练推导出在线镜像下降Online Mirror Descent变体实现鲁棒优化。研究采样策略、长度惩罚length penalty 和 数据优化最终达到强 RL 训练性能。 即便不使用复杂的 Monte Carlo 搜索MCTS、值函数value functions或过程奖励模型process reward models本方法仍能取得高性能。
3. 未来研究方向
信用分配Credit Assignment 研究如何改进信用分配使模型在长推理任务中的反馈更合理。 减少过度思考Overthinking 如何减少模型的过度思考但不影响模型的探索能力是一个值得研究的问题。
4. Long2short 方法的潜力
Long2short 方法显著提升短-CoT 模型的性能。未来优化方案 迭代结合 Long2short 训练 和 Long-CoT RL 训练进一步提升 token 效率并在有限的上下文长度内发挥最佳性能。
Thoughts
和 DeepSeek R1 同一天发布虽然精度上和 R1 有些差距但是文章提出的 RL 路线也有很强的参考意义部分实验的结论和 R1 有相似之处可以对照着进行理解。美中不足是 kimi k1.5 模型没有开源期待未来 kimi 带来的模型开源工作