当前位置：首页 > news >正文

关键词代发排名首页seo学徒招聘

news 2025/12/20 19:49:57

关键词代发排名首页,seo学徒招聘,WordPress的固态链接,如何建设网站咨询跳转页面我自己的原文哦~ https://blog.51cto.com/whaosoft/13267449 #Guidance-Free Training (GFT) 无需引导采样#xff0c;清华大学提出视觉模型训练新范式引导采样 Classifier-Free Guidance#xff08;CFG#xff09;一直以来都是视觉生成模型中的关键技术。然而最近清华大学提出视觉模型训练新范式引导采样 Classifier-Free GuidanceCFG一直以来都是视觉生成模型中的关键技术。然而最近清华大学 TSAIL 团队提出了一种极其简单的方法实现了原生无需引导采样视觉模型的直接训练。他们在 Stable DiffusionDiTVARLlamaGenMAR 五个截然不同的视觉架构上进行了验证一致发现新方法性能与 CFG 相当而采样成本减半。算法名称Guidance-Free Training (GFT)论文链接https://arxiv.org/abs/2501.15420 文生图任务中免引导采样算法 GFT 与引导采样算法 CFG 均能大幅提升生成质量而前者更为高效。 GFT 可通过调节采样时的「温度系数」来调节 diversity-fidelity trade-off 与此同时GFT 算法保持了与 CFG 训练流程的高度一致只需更改不到 10 行代码就可轻松实现。视觉引导采样的问题与挑战生成质量和多样性是相互牵制的关系。大语言模型LLMs主要通过将模型输出直接除以一个采样温度系数来权衡二者可明显提高生成质量。然而早期研究却发现这类温度采样方法对视觉生成完全不起作用。如今视觉生成依赖引入一个新的无条件模型用引导采样CFG达到类似温度采样的效果然而CFG 中引入的无条件模型却给视觉模型训练带来了种种掣肘因为在每一个采样步我们都需要进行有条件和无条件两次模型推理导致计算开销倍增。此外在对预训练模型微调或进一步蒸馏时我们也需要分别考虑有条件和无条件两个视觉模型的训练这又增加了模型训练的开销及算法复杂度。为了避免 CFG 引导采样导致的额外计算开销已有的方法大多采用基于一个预训练好的 CFG 教师模型继续蒸馏的手段。但这引入了一个额外的训练阶段可能会带来性能损失。 GFT 算法正是尝试解决这一问题。简单说它实现了原生免 CFG 视觉模型从零训练且有着和 CFG 相当的收敛速度算法稳定性与采样表现。更重要的是它足够简洁、通用。一种算法可同时用于扩散、自回归、掩码三种视觉模型。 Guidance Free Training 算法设计 GFT 完全采用了监督训练中的扩散损失函数。在训练中其和 CFG 最大的不同是GFT 并不显式参数化一个「有条件视觉模型」而是将其表示为一个采样模型和一个无条件模型的线性组合这样在在我们训练这个「隐式」有条件模型时我们本质上在直接训练其背后参数化好的采样模型。论文证明随着线性组合系数 β又称「伪温度系数」的变化其对应的采样模型将和 CFG 算法定义的采样分布一一对应。 GFT 的算法灵魂简单、高效、兼容在实际部署中由于 GFT 算法在设计上可以与 CFG 训练方法保持了高度对齐这使得其可以最低成本被部署实现10 行代码甚至不需要更改已有代码的训练超参数。 GFT 训练也非常高效与 CFG 相比它不需要任何额外的内存开销只需增加约 20% 的训练时间即可节约 50% 的采样成本。此外GFT 高度通用。不仅仅适用于扩散视觉模型对于自回归、掩码这类离散视觉模型也同样适用实验验证 GFT 在扩散模型 DiT、Stable Diffusion自回归模型 VARLlamaGen掩码扩散模型 MAR 五个截然不同的模型上面分别进行了实验验证。首先研究者测试了 GFT 作为一个微调算法把当下已有的 CFG 预训练模型转换为免引导采用模型的能力。发现在 FID 指标上GFT 可以做到无损转换。随后、研究者测试了 GFT 作为一个预训练算法和 CFG 训练的比较相同训练步。结果表明GFT 训练出的免引导采用模型能力与 CFG 模型持平甚至更优。连损失函数收敛曲线也基本重合。最后论文还在不同模型上测试了 GFT 对于采样质量和多样性权衡曲线的控制能力。作者介绍本文有两位共同一作。陈华玉、清华大学计算机系四年级博士生。主要研究方向为强化学习与生成式模型。曾在 ICML/NeurIPS/ICLR 国际会议上发表多篇学术论文。是开源强化学习算法库「天授」的主要作者Github 8k 星标。导师为朱军教授。姜凯、清华大学 TSAIL 团队实习生主要研究方向为视觉生成模型。导师为陈键飞副教授。 #Gold-medalist Performance in Solving Olympiad Geometry with AlphaGeometry2 谷歌AlphaGeometry2攻克IMO几何难题已超越金牌得主平均水准 OpenAI 与 DeepSeek 卷得不可开交的时候谷歌 DeepMind 的数学推理模型又偷偷惊艳了所有人。在最新的一篇论文中谷歌 DeepMind 介绍了全新进化的 AlphaGeometry 2该系统在解决奥林匹克几何问题方面已经超过了金牌得主的平均水准。论文标题Gold-medalist Performance in Solving Olympiad Geometry with AlphaGeometry2论文链接https://arxiv.org/pdf/2502.03544 国际奥林匹克数学竞赛IMO是一项面向全球高中生的著名数学竞赛。IMO 问题以难度大著称解决这些问题需要对数学概念有深刻理解并能创造性地应用这些概念。几何是 IMO 四大题型之一各题型之间最为统一非常适合基础推理研究。因此这项赛事也成为了衡量人工智能系统高级数学推理能力的理想基准。在 2024 年 7 月谷歌 DeepMind 曾经介绍了 AlphaGeometry (AG1)这是一个神经符号系统在 2000-2024 年 IMO 几何问题上的解题率达到 54%距离金牌也只有一步之遥。AG1 将语言模型 (LM) 与符号引擎相结合有效地解决了这些具有挑战性的问题造就了数学领域的「AlphaGo 时刻」。尽管 AG1 取得了成功但它在几个关键领域仍存在局限性。其性能受限于特定领域语言的范围、符号引擎的效率以及初始语言模型的容量。因此在考虑 2000 年至今的所有 IMO 几何问题时AG1 只能达到 54% 的解题率。最新的这篇论文介绍了 AlphaGeometry2AG2它是解决了这些限制的升级版本并显著提高了性能。AG2 利用了更强大的基于 Gemini 的语言模型该模型是在一个更大、更多样化的数据集上训练出来的。团队还引入了速度更快、更强大的符号引擎并进行了优化如减少规则集和增强对二重点的处理。此外团队还扩展了领域语言以涵盖更广泛的几何概念包括轨迹定理locus theorem和线性方程linear equation。为了进一步提高性能他们开发了一种新型搜索算法可探索更广泛的辅助构造策略并采用知识共享机制来扩展和加速搜索过程。最后他们在建立一个用自然语言解决几何问题的全自动可信赖系统方面取得了进展。为此谷歌利用 Gemini 将问题从自然语言翻译成 AlphaGeometry 语言并实施了新的自动图解生成算法。这些改进最终大大提高了性能AG2 在 2000-2024 年 IMO 所有几何问题上的解题率达到了令人印象深刻的 84%这表明人工智能在处理具有挑战性的数学推理任务方面实现了重大飞跃并超越了 IMO 金牌得主的平均水准。核心提升如下扩展领域语言涵盖轨迹型定理、线性方程和非构造性问题陈述更强更快的符号引擎优化了规则集增加了对二重点的处理以及更快的 C 实现先进新颖的搜索算法利用知识共享的多搜索树增强的语言模型利用 Gemini 架构在更大和更多样化的数据集上进行训练。更强、更快的符号引擎符号引擎是 AlphaGeometry 的核心组件谷歌称之为演绎数据库算术推理Deductive Database Arithmetic ReasoningDDAR。它是一种计算演绎闭包的算法即给定一组核心初始事实的所有可演绎事实集合。DDAR 遵循一组固定的演绎规则来构建此演绎闭包并迭代地将新的事实添加到演绎闭包中直到无法再添加。 DDAR 驱动语言模型的训练数据生成以及测试时证明搜索期间的演绎步骤搜索。在这两种情况下速度都至关重要。更快的数据生成可以达成更大规模、更积极的数据过滤而更快的证明搜索可以实现更广泛的搜索从而增加给定时间预算内找到解决方案的可能性。 DDAR 有以下三项主要改进处理二重点double ponit的能力更快的算法更快的实现。处理二重点在重新实现 DDAR 时谷歌试图保持与原始算法大致相同的逻辑强度只是由于实现差异而稍微强一些例如泰勒斯定理被更通用的圆心角定理取代。然而DDAR 缺少一个对解决难题至关重要的关键特性它无法接受两个名称不同但坐标相同的点。例如想象一个问题在点处两条线 , 相交并打算证明位于某个圆上。最合理的方法可能是重构不证明 , 的交点在上而是证明 , 的交点在上。这是等效的但更容易证明因为可以在圆上移动角度。具体可参见图 1。要对双重点推理实现这种重构需要执行以下四个步骤构造一个新点′作为 , 的交点不知道 ′ 是否与重合。这是一个辅助构造必须由语言模型预测证明位于上由于和′都位于,上得出 ′因此位于上。更快的算法 DDAR 算法可以处理一系列规则并尝试将每条规则应用于所有点的组合。此过程涉及以下两个部分候选搜索步骤它的时间复杂度是点数的多项式子句匹配步骤它的时间复杂度是每个前提的子句数的指数。理论上在 AG1 中搜索相似三角形候选的最坏情况是 (^8)这是最耗时的步骤之一。指数级子句匹配是另一个成本高昂的步骤。 DDAR 最耗时的两个部分是搜索相似三角形和搜索圆内接四边形。在 AG2 中谷歌设计了一种改进的 DDAR2 算法。对于相似三角形他们遍历所有的点三元组对它们的「形状」进行哈希处理。如果两次识别出形状则检测出相似的对。对于圆内接四边形谷歌遍历所有对点、线段并对∠的值进行哈希处理。如果这样的三元组重复出现就得到一个圆内接四边形。线段或 ∠ 的「值」是指 AR 子模块计算出的符号范式。该子模块跟踪角度、距离和对数距离之间的已知线性方程了解其代数结果并将任何线性表达式简化为其标准范式。更快的实现虽然新算法已经显著加快了 DDAR 的速度但谷歌使用 C 实现其核心计算高斯消元法从而进一步提升了速度。新的 C 库通过 pybind11 导出到 Python速度是 DDAR1 的 300 多倍。为了对速度改进进行基准测试谷歌选择了一组 25 道 DDAR 无法解决的 IMO 问题见图 8并在配备 AMD EPYC 7B13 64 核 CPU 的机器上运行测试 50 次。结果显示DDAR1 平均可以在 1179.57±8.055 秒内完成计算但 DDAR2 的速度要快得多在 3.44711 ± 0.05476 秒内完成。更好的合成训练数据与 AG1 类似谷歌使用的合成数据生成方法从随机图采样开始并使用符号引擎从中推断出所有可能的事实。并且对于每个推断出的事实他们都使用回溯算法来提取可以证明事实的相应前提、辅助点和推理步骤。谷歌的数据生成方法刻意避免使用人为设计的问题作为初始图种子并严格从随机图开始。这种设计选择消除了数据污染的风险并允许探索可能超出现有人类知识的定理分布。更大、更复杂的图表和更好的数据分布。首先谷歌扩大数据生成的来源并更仔细地重新平衡数据分布。图 2 展示了 AG2 与 AG1 的训练数据比较探索两倍大小的随机图从而提取更复杂的问题生成的定理复杂了两倍即点和前提的数量生成的证明复杂了 10 倍即证明步骤多 10 倍问题类型之间的数据分布更均衡有无辅助点的问题之间的数据分布更均衡。更快的数据生成算法。谷歌还提升了数据生成算法的速度。回想 AG1谷歌首先在随机图上运行演绎闭包然后回溯以获得可以证明闭包中每个事实的最小问题和最小证明。为了获得 AG1 中的最小问题必须从问题中彻底删除不同的点子集然后重新运行 DDAR 以检查可证明性。这样的搜索可以找到基数最小的子集但是作为指数级搜索对于大量的点而言不可行。因此谷歌切换到图 3 所示的贪婪丢弃算法该算法仅使用线性数量的检查来判断一组点是否足以证明目标。只要检查是单调的如果 ⊆ 则 check_provable () ⇒ check_provable ()贪婪算法就保证找到一组关于包含inclusion的最小点集。新颖的搜索算法在 AG1 中谷歌使用简单的束搜索来发现证明。在 AG2 中他们设计了一种新颖的搜索算法可以并行执行多个不同配置的束搜索并允许它们通过知识共享机制互相帮助具体可见图 4。为了提高系统的稳健性谷歌还为每个搜索树配置使用多个不同的语言模型。这种搜索算法被称为搜索树的共享知识集合Shared Knowledge Ensemble of Search TreesSKEST 。该搜索算法的工作原理如下所示在每个搜索树中一个节点对应于一次辅助构造尝试然后是一次符号引擎运行尝试。如果尝试成功所有搜索树都会终止。如果尝试失败节点将把符号引擎设法证明的事实写入共享事实数据库。这些共享事实经过过滤使它们不是特定于节点本身的辅助点而仅与原始问题相关。这样一来这些事实也可以对同一搜索树中的其他节点以及不同搜索树中的节点产生助益。系统设计细节。对于证明搜索谷歌使用 TPUv4 为每个模型提供多个副本并让同一模型内的不同搜索树根据自身的搜索策略来查询同一服务器。除了异步运行这些搜索树之外谷歌还对 DDAR 工作器与 LM 工作器进行异步运算其中 LM 工作器将它们探索的节点内容写入数据库DDAR 工作器异步拾取这些节点并尝试它们。DDAR 工作器之间相互协调以确保它们平等分配工作。单个 DDAR 工作器池在不同问题之间共享如果一次解决多个问题这样先前解决的问题就会为正在解决的其余问题释放自己的 DDAR 计算资源。更好的语言模型 AG2 的最后一项改进是使用新的语言模型。下面将讨论全新的训练和推理设置。训练设置 AG1 是一种定制版 Transformer以无监督方式分两个阶段进行训练先对有无辅助结构的问题进行训练然后仅对包含辅助结构的问题进行训练。对于 AG2谷歌利用了 Gemini 训练流程并将训练简化为一个阶段对所有数据进行无监督学习。他们使用了一种基于稀疏混合专家MoETransformer 的新模型该模型以 Gemini 1.5 为基础并使用 AG2 数据进行训练。谷歌使用以下三种设置来训练不同大小的多个模型 1. 使用领域特定语言中的自定义 tokenizer 从头开始训练AG1 设置 2. 使用自然语言微调已经预训练的自定义专业数学 Gemini 模型 3. 使用额外的图像输入给定几何题的图表从头开始进行多模态训练。谷歌使用 TPUv4并以硬件允许的最大批大小训练模型。学习率计划是先线性预热然后余弦退火。学习率超参由 scaling 定律确定。在图 5 中他们展示了基于参数量的不同大小的 Gemini 的学习曲线。正如预期的那样增加模型大小会降低训练、评估以及特殊 IMO 评估集的困惑度损失。推理设置在 AG2 中谷歌在提出辅助构造之前让 LM 了解 DDAR 所做的推论进而丰富这个神经符号接口。也就是说他们将以下信息输入到 LM 中 _1给定原始问题前提DDAR 可推导出的事实集_2给定原始问题前提并假设目标谓词也为真DDAR 可推导出的事实集_3数字正确的事实集检查图表。竞赛结果本文的主要下游指标是 IMO 几何题的解决率。2000-2024 年 IMO 共有 45 道几何题谷歌将它们转化为了 50 道 AlphaGeometry 问题称该集合为 IMO-AG-50。图 8 展示了主要结果AlphaGeometry2 解决了 2000-2024 年 IMO 所有 50 道几何题中的 42 道从而首次超越了金牌得主平均水平。表 4 中提供了更多详细信息其中将各种 AG2 配置与其他系统进行了比较。可以看到AG2 实现了 SOTA。在图 7 中针对通过前文「经典」树搜索与 DDAR 耦合的一个语言模型谷歌将 IMO 解决率表示为了训练时函数训练期间看到的 tokens。有趣的是AG2 仅在批大小为 256 时的 250 个时间步后或者大约 2 亿 tokens就解决了 50 道几何题中的 27 道。谷歌还对推理设置如何影响整体性能进行了消融实验结果如图 9 所示。他们发现对于单个搜索树最优配置是束大小 128、束深度 4 以及样本 32。 #DALL-E 4 OpenAI内测Sora图像生成器代号「papaya」DALL-E 4即将推出一则非常重要的消息除了已有的视频生成功能OpenAI 似乎还在为 Sora 推出图像生成功能做准备。 OpenAI 正在内部测试这些图像生成功能包括一个新的隐藏切换按钮能允许用户在提示栏中直接在视频和图像生成之间切换。如果切换到图像提示栏的描述会提示你描述一幅图像。 OpenAI 还对 Sora 的视频推送进行了改版将其分为「Best」和「Top」两个类别。「Best」很可能与目前的特色频道类似。不过「Top」类别可能允许按某个时间段进行筛选并可能根据点赞数或其他标准对视频进行排名。 OpenAI 的这个动作让很多人重新兴奋起来因为现有的 DALL-E 3 已经非常过时了 —— 至少和 Midjourney 比起来是这样。该功能目前还未投入使用但左侧导航栏上还有一个「Images Internal」类别。目前它打开的是视频推送。不过将来用户也有可能在这里找到图片推送。目前还不清楚 OpenAI 将添加何种图像生成功能也不清楚将由哪款模型提供。有人猜测我们可能会「在某个时候看到 DALL-E 4」但 OpenAI 官方没有对此进行确认。但 Sora 中的图像生成模型应该不是 DALL-E 4。OpenAI 在去年首次发布 Sora 时就提到了图像生成功能所以一种可能是它将由现有的「sora-turbo」模型驱动。此外有人突然想起我们还没有在 ChatGPT 上看到来自 GPT-4o 的多模态图像生成功能。还有消息说Sora 中的文本到图像生成器代号为「papaya」回想起来OpenAI 发布 DALL-E 3 距今也有一年半了下一代模型会有怎样的创新你有何期待参考链接https://x.com/testingcatalog/status/1888256244063838527 #DeepSeek冲击下奥特曼刚刚给出对AGI的「三个观察」包括成本速降今天凌晨OpenAI CEO 再次发布长文重申自己对于 AGI 的三个观察。核心观点如下 1. 人工智能模型的智能大致等于用于训练和运行该模型的资源的对数。 2. 使用一定水平的人工智能的成本每 12 个月就会下降约 10 倍而较低的价格会带来更多的使用。 3. 线性增长的智能的社会经济价值具有超指数性质。 DeepSeek 等科技公司推出的强大且价格低廉的人工智能模型似乎支持了第一个观点。有证据表明训练和开发成本也在下降。基于第二个观点尽管推动人工智能技术的边界不会变得更便宜但用户将在此过程中获得越来越强大的系统。但奥特曼指出要实现 AGI 甚至更高级别的人工智能仍然需要大量投资。 OpenAI 实际上并不打算通过使用 AGI 一词来在短期内结束与密切合作伙伴兼投资者微软的关系。我们知道微软和 OpenAI 对 AGI 有一个非常具体的定义 —— 可以产生 1000 亿美元利润的人工智能系统。一旦满足这一定义OpenAI 就可以协商更有利的投资条款。这不是奥特曼第一次声称 AGI 即将问世。而博客中的「我们现在已经开始推出 AI 智能体它们最终会给人一种虚拟同事的感觉」更是让人好奇这家公司即将带来怎样的技术突破。与此同时OpenAI 官方的一条新动态引发了人们的猜想莫非这几天要有新发布了这一次OpenAI 将会以何种形式解锁通往 AGI 的新关卡以下是奥特曼博客原文整理我们的使命是确保 AGI 造福全人类。开始指向 AGI 的系统正在进入人们的视野因此我们认为了解我们所处的时刻非常重要。AGI 是一个定义模糊的术语但一般来说我们的意思是它是一个能够在人类水平上解决许多领域日益复杂问题的系统。人是工具的创造者天生就有一种理解和创造的动力这将使我们所有人的世界变得更加美好。每一代人都在前人发现的基础上创造出功能更强大的工具 —— 电力、晶体管、计算机、互联网以及即将出现的人工智能。随着时间的推移人类不断创新带来了前所未有的繁荣改善了人们生活的方方面面。从某种意义上说AGI 只是我们共同搭建的人类进步的脚手架上的又一个工具。从另一种意义上说这是一个开始很难不说「这次不一样」我们眼前的经济增长看起来令人震惊我们现在可以想象这样一个世界我们可以治愈所有疾病有更多的时间与家人享受天伦之乐可以充分发挥我们的创造潜能。十年后也许地球上的每个人都能比今天最有影响力的人取得更大的成就。我们将继续看到人工智能的快速发展。以下是关于人工智能经济学的三点观察 1. 人工智能模型的智能大致等于用于训练和运行该模型的资源的对数。这些资源主要是训练计算、数据和推理计算。看起来你可以花费任意数量的资金获得持续且可预测的收益预测这一点的 Scaling Law 在许多数量级上都是准确的。 2. 使用一定水平的人工智能的成本每 12 个月就会下降约 10 倍而较低的价格会带来更多的使用。从 2023 年初的 GPT-4 到 2024 年中的 GPT-4o 的 token 成本就可以看出这一点在这段时间内每 token 的价格下降了约 150 倍。摩尔定律每 18 个月改变世界的速度达到了 2 倍这简直强得令人难以置信。 3. 线性增长的智能的社会经济价值具有超指数性质。由此产生的一个结果是我们认为指数级增长的投资在不久的将来没有理由停止。如果这三个观点继续成立那么对社会的影响将是巨大的。我们现在已经开始推出 AI 智能体它们最终会给人一种虚拟同事的感觉。让我们来设想一个专注于软件工程的智能体这是我们期望的、特别重要的智能体。想象一下这个智能体最终将能够完成顶级公司中拥有数年经验的软件工程师所能完成的大部分任务而且这些任务可能需要几天时间。可能这些智能体不会有最伟大的新想法需要大量的人工监督和指导在某些事情上表现出色但在另一些事情上却出人意料地糟糕。尽管如此我们还是可以将其想象为一个真实但相对初级的虚拟同事。设想一下有 1000 个这样的虚拟同事或者 100 万个。更进一步的想象一下在每一个知识工作领域都有这样的虚拟同事。在某些方面人工智能在经济上可能会像晶体管一样 — 一个规模巨大的科学发现几乎渗透到经济的每一个角落。我们不会过多地考虑晶体管或晶体管公司而且其收益分布非常广泛。但我们确实期望我们的电脑、电视、汽车、玩具等能够创造奇迹。世界不会一下子改变从来都是如此。在短期内我们的生活将基本保持不变2025 年的人们将以 2024 年的方式度过他们的大部分时间。我们仍然会恋爱、建立家庭、在网上吵架、在大自然中远足等等。但是未来将以一种无法忽视的方式向我们袭来我们的社会和经济将发生巨大的长期变化。我们将找到新的工作、新的互利方式和新的竞争手段但它们可能与今天的工作不太一样。智能化、意志和决心可能会变得极其宝贵。正确决定要做什么以及如何驾驭瞬息万变的世界将具有巨大的价值应变能力和适应能力将是需要培养的有用技能。AGI 将成为人类意志力的最大杠杆使个人的影响力超过以往任何时候。我们预计AGI 的影响将是不均衡的。虽然有些行业的变化很小但科学进步的速度可能会比今天快得多AGI 的这种影响可能会超过其他一切。许多商品的价格最终会大幅下降现在智能成本和能源成本制约了很多东西而奢侈品等少数固有的有限资源的价格可能会更大幅上涨。从技术上讲我们面前的道路看起来相当清晰。但是关于如何将人工智能融入社会的公共政策和集体意见非常重要我们之所以要尽早、频繁地推出产品其中一个原因就是要给社会和技术留出共同发展的时间。人工智能将渗透到经济和社会的各个领域我们将期望一切都变得智能。我们中的许多人预计需要给予人们比以往更多的技术控制权包括更多的开源并接受安全与个人能力之间的平衡这需要权衡利弊。虽然我们永远不想鲁莽行事而且很可能会有一些与 AGI 安全相关的重大决定和限制会不受欢迎但从方向上来说随着我们越来越接近实现 AGI我们认为更趋向于个人赋权是很重要的。确保广泛分配人工智能的好处至关重要。技术进步的历史影响表明我们关心的大多数指标健康结果、经济繁荣等都会在平均水平上长期改善但平等程度的提高似乎并不是由技术决定的要做到这一点可能需要新的想法。特别是资本和劳动力之间的力量平衡似乎很容易被打破这可能需要早期干预。我们对一些听起来很奇怪的想法持开放态度比如给予一定的计算预算让地球上的每个人都能使用大量的人工智能但我们也能看到很多方法只要坚持不懈地尽可能降低智能成本就能达到预期效果。到 2035 年每个人都应该能够调动相当于 2025 年所有人的智力总和每个人都应该拥有无限的智慧可以随心所欲地运用。目前世界上有许多人才因资源不足而无法充分展现自己如果我们改变这一现状全球的创造力将得到极大释放从而为我们所有人带来巨大的利益。参考链接 https://blog.samaltman.com/three-observations https://x.com/sama/status/1888695926484611375 #李飞飞团队26分钟训练即可媲美o1和R1 成本不到150元训练出一个媲美DeepSeek-R1和OpenAI o1的推理模型这不是洋葱新闻而是AI教母李飞飞、斯坦福大学、华盛顿大学、艾伦人工智能实验室等携手推出的最新杰作s1。在数学和编程能力的评测集上s1的表现比肩DeepSeek-R1和o1。而训一个这样性能的模型团队仅仅用了16个英伟达H100训练耗时26分钟。据TechCrunch这个训练过程消耗了不到50美元的云计算成本约合人民币364.61元而s1模型作者之一表示训练s1所需的计算资源在当下约花20美元约145.844元就能租到。怎么做到的 s1团队表示秘诀只有一个蒸馏。简单来说团队以阿里通义团队的Qwen2.5- 32B-Instruct作为基础模型通过蒸馏谷歌DeepMind的推理模型Gemini 2.0 Flash Thinking实验版最终得到了s1模型。为了训练s1研究团队创建了一个包含1000个问题精心挑选那种的数据集且每个问题都附有答案以及Gemini 2.0 Flash Thinking实验版的思考过程。目前项目论文《s1: Simple test-time scaling》已经挂上arXiv模型s1也已在GitHub上开源研究团队提供了训练它的数据和代码。 150元成本训练26分钟 s1团队搞这个花活起因是OpenAI o1展现了Test-time Scaling的能力。即「在推理阶段通过增加计算资源或时间来提升大模型的性能」这是原本预训练Scaling Law达到瓶颈后的一种新Scaling。但OpenAI并未公开是如何实现这一点的。在复现狂潮之下s1团队的目标是寻找到Test-time Scaling的简单方法。过程中研究人员先构建了一个1000个样本的数据集名为s1K。起初在遵循质量、难度、多样性原则的基础上这个数据集收集了来自MATH、AGIEval等诸多来源的59029个问题。经去重、去噪后通过质量筛选、基于模型性能和推理痕迹长度的难度筛选以及基于数学学科分类的多样性筛选最终留下了一个涵盖1000个精心挑选过的问题的数据集。且每个问题都附有答案以及谷歌Gemini 2.0 Flash Thinking实验版的模型思考过程。这就是最终的s1K。研究人员表示Test-time Scaling有2种。第1种顺序Scaling较晚的计算取决于焦躁的计算如较长的推理轨迹。第2种并行Scalingbe like计算独立运行如多数投票任务。 s1团队专注于顺序这部分原因是团队“从直觉上”认为它可以起到更好的Scaling——因为后面的计算可以以中间结果为基础从而允许更深入的推理和迭代细化。基于此s1团队提出了新的顺序Scaling方法以及对应的Benchmark。研究过程中团队提出了一种简单的解码时间干预方法budget forcing在测试时强制设定最大和/或最小的思考token数量。具体来说研究者使用了一种很简单的办法直接添加“end-of-thinking token分隔符”和“Final Answer”来强制设定思考token数量上限从而让模型提前结束思考阶段并促使它提供当前思考过程中的最佳答案。为了强制设定思考过程的token数量下限团队又禁止模型生成“end-of-thinking token分隔符”并可以选择在模型当前推理轨迹中添加“wait”这个词鼓励它多想想反思反思当前的思考结果引导最佳答案。以下是budget forcing这个办法的一个实操示例团队还为budget forcing提供了baseline。一是条件长度控制方法Conditional length-control methods该方法依赖于在提示中告诉模型它应该花费多长时间来生成输出。团队按颗粒度将它们分为Token-conditional控制、步骤条件控制和类条件控制。 Token-conditional控制在提示词中指定Thinking Tokens的上限步骤条件控制指定一个思考步骤的上限。其中每个步骤约100个tokens类条件控制编写两个通用提示告诉模型思考短时间或长时间。二是拒绝抽样rejection sampling。即在抽样过程中若某一生成内容符合预先设定的计算预算就停止计算。该算法通过其长度来捕捉响应的后验分布。而s1模型的整个训练过程只用了不到半个小时—— 团队在论文中表示他们使用Qwen2.532B-Instruct模型在s1K数据集上进行SFT使用16个英伟达H100训练耗时26分钟。 s1研究团队的Niklas Muennighoff斯坦福大学研究员告诉TechCrunch训练s1所需的计算资源在当下约花20美元就能租到。研究新发现频繁抑制思考会导致死循环训出模型后团队选用3个推理基准测试把s1-32B和OpenAI o1系列、DeepSeek-R1系列、阿里通义Qwen2.5系列/QWQ、昆仑万维Sky系列、Gemini 2.0 Flash Thinking实验版等多个模型进行对比。 3个推理基准测试如下 AIME242024年美国数学邀请考试中使用的30个问题MATH500不同难度的竞赛数学问题的基准GPQA Diamond生物、化学和物理领域的198个博士级问题整体来说采用了budget forcing的s1-32B扩展了更多的test-time compute。评测数据显示s1-32B在MATH500上拿到了93.0的成绩超过o1-mini媲美o1和DeepSeek-R1。不过如下图所示团队发现虽然可以用budget forcing和更多的test-time compute来提高s1在AIME24上的性能在AIME24上比 o1-preview最高提升27%。但曲线最终在性能提升6倍后趋于平缓。由此团队在论文中写道过于频繁地抑制思考结束标记分隔符会导致模型进入重复循环而不是继续推理。而如下图所示在s1K上训练Qwen2.5-32B-Instruct来得到s1-32B并为它配备了简单的budget forcing后它采用了不同的scaling范式。具体来说通过多数投票在基础模型上对test-time compute进行Scale的方法训出的模型无法赶上s1-32B的性能。这就验证了团队之前的“直觉”即顺序Scaling比并行Scaling更有效。此外团队提到s1-32B仅仅使用了1000个样本训练在AIME24上的成绩就能接近Gemini 2.0 Thinking是“样本效率最高的开源数据推理模型”。研究人员还表示Budget forcing在控制、缩放和性能指标上表现最佳。而其它方法如Token-conditional控制、步骤条件控制、类条件控制等均存在各种问题。 One More Thing s1模型是在一个1000个精挑细选的小样本数据集上通过SFT让小模型能力在数学等评测集上性能飙升的研究。但结合近期刷爆全网的DeepSeek-R1——以1/50成本比肩o1性能——背后的故事可以窥见模型推理技术的更多值得挖掘之处。模型蒸馏技术加持下DeepSeek-R1的训练成本震撼硅谷。现在AI教母李飞飞等又一次运用「蒸馏」花费低到令人咋舌的训练成本做出了一个能媲美顶尖推理模型的32B推理模型。一起期待大模型技术更精彩的2025年吧 arXivhttps://arxiv.org/pdf/2501.19393 GitHubhttps://github.com/simplescaling/s1 参考链接 https://techcrunch.com/2025/02/05/researchers-created-an-open-rival-to-openais-o1-reasoning-model-for-under-50/ #怎样让 PPO 训练更稳定早期人类征服 RLHF 的驯化经验作为 Reinforcement Learning 中的顶流算法PPO 已经统领这个领域多年。直到 [InstructGPT] 的爆火PPO 开始进军 LLM 领域凭借其 label-free 的特性不断拔高基座的性能在 [Llama2]、[Baichuan] 的工作中都能看到 RLHF 的身影。于是你开始摩拳擦掌跃跃欲试准备利用这项强大的技术来进化自己的基座但当你信心满满地跑通训练任务时你看到的情况很有可能是这样的各种形形色色的失败案例尽管鲁迅先生曾言真的强化敢于直面惨淡的结果敢于正视崩坏的曲线。但日复一复地开盲盒难免会让人心脏承受不了好在前人们留下了宝贵的驯化经验。我们今天一起来看一篇「如何稳定且有效地训练 PPO」的论文在这篇文章中我们将学习哪些技巧能够稳定训练过程、哪些指标能够代表着训练的顺利进行等内容。 Paper 传送门Secrets of RLHF in Large Language Models Part I: PPO Code 地址https://github.com/OpenLMLab/MOSS-RLHF/tree/main 1. Reward Model 训练 RL 的整个训练目标都是围绕着 reward 来进行传统 RM 的训练公式为拉开好/坏样本之间的得分差 y_w 为 selected 样本y_l 为 rejecte 样本但是仅仅是「拉开得分差」这一个目标很有可能让 RM 陷入到「钻牛角尖」的困境中为了保持住 RM 的本质还是一个「语言模型」文章在原本的 loss 中加入了对「好样本」的 LM loss 在原来的 loss 基础上顺便学习写出「优秀样本」保持住模型能写句子的能力值得一提的是文章中的 r 是用了另外一个 RM 来算 loss 的RM 的结构和 RM 一样只不过输出的维度不是 1而是 vocab_size。但其实我认为也可以使用一个带有 ValueHead 的模型来既训练打分又训练写句子毕竟这 2 个任务都需要模型知道什么的句子是「好句子」—— 还能省显存。以下是论文训练 RM 的详细参数一般的我们会使用 prefered sample - disprefered sample 的分差来衡量 RM 的效果图左为在中文标注数据集上的分差分布图右为在英文数据集上的分差分布区分度不如中文完全理想的状况下prefered - disprefered 应该都在 0 的右边好样本的分数更高但考虑到标注中的噪声、模型的拟合能力等存在少小部分 0 左边的样本是合理的拉出来人工评估下即可。此外文中还提到只看 Acc 并不能够很好的衡量 RM 的性能但尚未给出其他可以衡量的指标。 2. PPO 的稳定训练方法 2.1 及时发现训练过程中的异常 PPO 训练中很常见的一个问题是「模式崩溃」其典型特征为长度很长且无意义的文字。而对于这种「崩溃的输出」Reward Model 往往还容易打出一个很高的分数这将导致我们无法在训练过程中及时的发现问题等训完对着一个满意分数的 checkpoint 看生成结果的时候才发现空欢喜一场。对于上述这种问题我们可以通过 3 个指标来监控KL、Response Length、Perplexity。训练过程中的各种指标从约第 420 step 开始: 1. reward 出现骤增。2. KL 出现骤增。3. Perplexity 出现骤降。4. Response Length 出现骤增。5. 训练效果出现骤降图左上红线因此我们可以总结出几种指标异常的情况 Reward 出现骤增很可能 Policy Model 找到了某条 shortcut比如通过模式崩溃来获得更高的分数。KL 出现骤增同上很可能此时的输出模式已经完全崩溃。Perplexity 骤降由于 PPL 是指代模式对当前生成结果的「确定性」一般来讲句子的生成都会带有一定的不确定性当 Policy Model 对某一个生成结果突然「非常确定」的时候无论是什么样的上文都很确定接下来应该输出什么那么它大概率是已经拟合到了一个确定的「崩坏模式」上了。Response Length 骤增这个对应我们之前给的 bad case回复长度的骤增也可能代表当前输出已经崩溃。 2.2 Score Normalization Clipping PPO 的整个训练都是围绕优化 Score 作为目标来进行的和 Score 相关的变量有 2 个 Reward由 RM≈ Human 直接给出的反馈。Advantages由 Reward 和 Critic Model 共同决定的优势值最终用于 loss 计算。对于这 2 个值我们都可以对其进行「归一化」和「裁剪」。 Reward 的处理公式如下 Reward Normalization Clipping 上述式子将 reward 化成了一个均值为 0 的标准分布均值为 0 是为了保证在训练过程中得到的正负奖励能够尽可能的均匀如果一段时间内全为负或全为正从直觉上来讲不太利于模型学习。文中提到使用 clipping 可以限制模型进化的「最终分数」没有那么高鉴于之前「分数越高并不一定有更好的效果」的结论作者认为使用 clipping 对最终的效果是有益的。至于 Advantages在 PPO 的标准流程里已经会对其进行 Normalization而 advantage clipping 和 reward clipping 在本质上其实很相似则只用在 reward 阶段进行截断即可所以对于 Advantage 来讲不需要做太多其他额外的操作。 2.3 Policy Loss 设计在传统的 PPO 流程中我们通常会对 Policy Molde 的 Loss 上做以下 2 种操作 Importance Sampling这是 PPO 中加快 On-Policy 算法训练速度的关键步骤即一次采样的数据可以进行多次更新通过系数补偿。这种方法通常和 KL 惩罚一起使用实验表明这样能够更加稳定 PPO 的训练但对最终的效果会存在一定折损所以最好的还是 1 轮 sample 只做一次 update退化为原始的 PG 流程。Entropy Loss一般为了鼓励 Policy 在进化的同时保留「探索」的能力我们会在 loss 中加入 entropy确定性loss但在 RLHF 中这项设置对超参非常敏感很容易就崩掉。鉴于 KL 和 Entropy 有着相似的效果因此作者更推荐使用 KL 来代替 Entropy Loss。除了上述 2 个传统设置外RLHF 中加入一个新的指标Token Level KL-Penalty。在传统的 RL 流程中agent 每采取一个 action 后都会得到一个 action reward 对比到文本生成任务中每新生成一个 token 就等于做出了一次 action 但实际上我们无法每生成一个 token 就打出一个分数我们只能在一个完整句子Trajectory生成完成之后打出一个 Total Reward。这就比较痛苦了当我们只有一个长序列的最后得分时前面的每一个 step 的得分估计就变得非常困难。因此为了避免「sparse reward」的同时限制 Policy Model 朝着「相对合理的方向」进化我们会通过计算每个生成 token 与参考模型之间的 KL 来作为单个 token 的 reward 分数。式子的前半部分为 rewarddiscounted后半部分为 KL 惩罚分数 2.4 模型初始化 PPO 继承自 Actor-Critic 框架因此算法中一共包含 2 个模型Actor 和 Critic。 Actor ModelPolicy Model Policy Model 是指我们最终训练后使用的生成模型Policy Model 需要具备一定基本的能力才能保证训练的稳定性通常会选用 SFT 之后的模型。这个比较好理解如果我们选用 Pretrained Model 为起点的话探索空间会非常大同时也更加的不稳定对 Reward Model 要求更高。 Critic Model 一种很直觉的想法是同样是「评判任务」我们直接使用 Reward Model 来当作 Critic Model 就好了。但其实这种想法不完全正确从本质上来讲 Critic 需要对每一个 token 的状态进行打分而 RM 是对整个句子进行综合得分评估这两个任务还是存在一定的区别。因此一种更好的方式是先训练 Critic Model一段时间直到 Critic Loss 降的相对较低为止。预先训练能够帮助在正式训练的初期 Critic 能够进行较为正确的 value 预估从而稳定训练过程至于使用 SFT 还是 RM 作为 Critic 的结构实验结果显示并没有非常明显的区别。 2.5 最优策略集合PPO-max 文章的末尾给出了作者汇聚了各种实验结果给出的一套推荐的策略 reward normalize使用历史获得过的所有 reward 的均值和方差进行标准化。token KL penalty限制模型更新方向。Critic Model使用 RM 初始化 Critic并在 PPO 正式训练之前先进行 Critic 预训练。Global Gradient Clipping使用相对较小的 Experience Buffer。Pretrain Loss在 PPO 训练 loss 中加入 Pretrain Language Model Loss和 [InstructGPT] 中保持一致。 PPO-max 所使用的方法合集标星的方法学习率设置这里顺便贴出 [Baichuan 2] 中 PPO 的参数设置 #飞书接入DeepSeek-R1 飞书接入DeepSeek-R1后用一次顶一万次而且再也不「服务器繁忙」了如果你最近经常使用 DeepSeek-R1那你一定很熟悉以下截图了以至于我们人类也祭出奇招非得让 DeepSeek-R1 亲自尝尝服务器繁忙失联的痛苦。巨大的用户需求带来的巨大访问量已经让 DeepSeek 的服务器不堪重负这也极大地影响了用户们的使用体验。于是各种替代官网的客户端和 API 的服务也不断涌现与此同时也不断有各种新服务和应用宣布接入或整合 DeepSeek-R1。前两天DeepSeek 还在 GitHub 专门创建了一个库来收集展示各种整合了 DeepSeek 模型的应用和服务其中既包括 Chatbox、思源笔记、LibreChat 等应用也有一些智能体框架、RAG 框架以及浏览器或 IDE 插件等。这个开源模型的生态系统正在高速稳步地建立起来。 GitHub 地址https://github.com/deepseek-ai/awesome-deepseek-integration 就在不久前飞书也宣布接入了 DeepSeek-R1这相当于在我们日常熟悉的办公软件中又探索出了一种全新的 AI 交互方式。原来我们找 AI 帮忙往往是一次性提供一个 prompt即使 prompt 写得再周全从本质而言也是一对一的单点输入输出。想要一次性批量处理任务就需要掌握一些「思维链」或者批量调用 API 服务的技巧了。以写文献综述为例我们需要从上千份文献中挑出和自己最相关的如果使用 API 批量处理整个流程是这样的 —— 首先需要在 Web of Science 等论文库筛选出备选文献并导出 Excel 格式然后构造合适的指令模板用函数将 Excel 各行数据关联起来再提交给 AI 开放平台处理。等待结果返回后还得抽检一下 AI 的判断是否靠谱。虽然这个过程并不复杂却不如接入了 DeepSeek-R1 的飞书一步到位。现在飞书中的每个表格都相当于一个 prompt 输入框你可以把需求和背景当作一列数据粘贴进去DeepSeek-R1 就能按这个队列全自动处理了。无需根据 API 模版调整、调用函数的过程直接在多维表格中输入提示词即可 DeepSeek-R1 给出了严谨、可以直接参考的评分结果更重要的是调用 API 处理 Excel 表格中间的过程是不可见的我们只能用各种各样的方法增强提示词或者加强结果的筛选来保证 AI 的结果更准确其中没有「偷工减料」但升级版的飞书完全透明每一步操作都清晰可控也进一步省去了调整格式的步骤。社交网络上已有不少用户分享了自己的使用案例。比如用户 nanshanjukr 将 DeepSeek-R1 接入了自己的心理知识库的得到了非常「惊艳」的效果他表示「比 Notion 的好太多了。简介和生平年份都是 R1 生成的。在 AI 的加持下也让自己重新巩固、扩展一下知识面。」来源https://x.com/nanshanjukr/status/1888589518061908105 一个好名字往往更容易被人记住商品名称也不例外如果它恰好蹭上了热搜的快车那搜索的曝光量岂不是蹭蹭往上涨。电商平台就是一座取之不尽的「爆款标题矿」现在只需把这些现成的 SKU 名字导入飞书表格再让 DeepSeek 这位文案大师从中提炼精华一条自动生成 SKU 文案的工作流就开动了来源https://x.com/huangyun_122/status/1888628099119464749 更令编辑们震撼的是把选题打包丢进去DeepSeek-R1 给出的直接是一篇成品文章不仅结构完整、文笔流畅还频频有金句爆出排一下版好像就能发出去了。之前我们尝试过各种 AI 辅助写作的产品即使提供了完整的思路和提纲AI 往往只会简单扩写或者机械拼贴看完飞书和 DeepSeek-R1 神乎其技的组合技在此不得不为自己的职业生涯担心一秒。来源https://x.com/eviljer/status/1888602443954717031/photo/1 短视频时代写视频口播文案也是够烧脑的如果使用飞书 DeepSeek-R1不仅可以少掉许多因动脑失去的头发再仔细看看 DeepSeek 改写的输出结果好像比我写的思路更开阔种草味儿也更正。来源https://x.com/Lchs_11/status/1888571487428419767/photo/1 也做了一些尝试比如让 DeepSeek-R1 批量解答数学题我们也体验了一下 AI 算命通过配置这样的 prompt「你是个全球顶尖的命理大师根据提供的信息描述正缘画像包括长相、身高、出生地、工作地、家庭条件、学历、性格、年纪等。越清楚越好方便我去寻找。」我们很快便得到了 10 个信息的「正缘」最棒的是在我们的体验过程中从没遇到过「服务器繁忙请稍后再试」。看起来飞书使用的 DeepSeek-R1 是字节跳动自己部署托管的版本稳定性非常不错 —— 前些天字节跳动旗下的云服务平台火山引擎宣布已经支持 DeepSeek V3/R1 等不同尺寸的开源模型。如何在飞书中使用 DeepSeek-R1 飞书很早之前就已经接入了不少 AI 模型使用 DeepSeek-R1 的方式与使用这些模型的方法类似。这里我们也简单撰写了一份图文并茂的教程。首先当然你得有一个飞书帐号然后新建一个多维表格。飞书默认的多维表格为避免繁杂我们这里仅保留默认表格的第一列删除其它列。后面我们会将第一列的文本内容用作提示词。接下来我们新建一列用来配置 DeepSeek-R1。这里我们需要在「字段类型」中搜索 DeepSeek便可找到 DeepSeek-R1 模型之后我们需在「选择指令内容」中选择我们之前设置的「提示词」列然后可以选择在「自定义要求」中设置一个全局提示词当然也可以留空。这里我们设置的是「根据我提供的关键词或场景编写一首七言绝句。」设置完成后我们先选择保留配置因为我们的「提示词」列还没有任何信息。由于我们已经设置好了一个全局提示词因此我们只需在「提示词」列填入我们想要的关键词或场景即可。接下来就等待 DeepSeek-R1 完成它的创作吧通过设置「自动更新」还可以让我们在每次修改提示词时自动高效率地自动获取新的输出结果。可以看到飞书分别用一列表格展示了 DeepSeek-R1 的思考过程和输出结果在设置中可选择不展示思考过程而且从表格中出现结果的先后顺序来看飞书并不是按表格的自然顺序逐一将提示词提交给 AI 模型而是并行处理的。这就大大提升了我们使用 DeepSeek-R1 的效率。这首《咏橘猫》还真有趣金丝披身卧椅旁玉爪闲搭自徜徉。呼噜声里求鱼饭日暖酣眠入梦乡。当然在飞书的多维表格中DeepSeek-R1 并非唯一可用的模型其支持的 AI 模型和功能还有很多只需使用相应的关键词在「字段类型」中搜索即可。飞书真是越来越强大了。 #如何优化测试时计算解决「元强化学习」问题优化大模型的测试时计算是提升模型部署效率和节省计算资源的关键一环。前段时间黄仁勋在 CES 2025 的演讲中把测试时 Scaling 形容为大模型发展的三条曲线之一。如何优化测试时计算成为业界关注的重要课题。到目前为止改进大型语言模型 (LLM) 的主要策略是使用越来越多的高质量数据进行监督微调 (SFT) 或强化学习 (RL)。不幸的是这种扩展形式似乎很快就会遇到瓶颈预训练的扩展定律会趋于稳定有报告称用于训练的高质量文本数据可能在 2028 年耗尽特别是对于更困难的任务例如解决推理问题这似乎需要将当前数据扩展约 100 倍才能看到任何显著的改进。LLM 在这些困难任务中的问题上的当前表现仍然不尽如人意。因此迫切需要数据高效的方法来训练 LLM这些方法可以超越数据扩展并解决更复杂的挑战。在这篇文章中我们将讨论这样一种方法通过改变 LLM 训练目标我们可以重用现有数据以及更多的测试时计算来训练模型以做得更好。博客地址https://blog.ml.cmu.edu/2025/01/08/optimizing-llm-test-time-compute-involves-solving-a-meta-rl-problem/ 图 1训练模型以优化测试时计算并学习「如何发现」正确答案而不是学习输出「什么答案」的传统学习范式。当前训练模型的主要原则是监督它们为输入产生特定的输出。例如监督微调尝试匹配给定输入的直接输出 token类似于模仿学习而 RL 微调训练响应以优化奖励函数该函数通常应该在 oracle 响应上取最高值。无论哪种情况我们都在训练模型以产生它可以表示的 y* 的最佳近似值。从抽象上讲这种范式训练模型以产生单个输入输出映射当目标是直接解决给定分布中的一组类似查询时这种方法很有效但无法发现分布外查询的解决方案。固定的、一刀切的方法无法有效适应任务的异质性。我们更希望有一个强大的模型它能够通过尝试多种方法并在不同程度上寻求信息或者在无法完全解决问题时表达不确定性从而推广到新的、未见过的问题。我们如何训练模型来满足这些要求学习「如何回答」为了解决上述问题一个新想法是允许模型在测试时使用计算资源来寻找「元meta」策略或算法这些策略或算法可以帮助它们理解「如何」得出一个好的答案。实现能够赋予模型系统性程序运行能力的元策略应该能够使其在测试时外推和泛化到不同复杂度的输入查询。例如如果一个模型被教了柯西 - 施瓦茨不等式的含义它就应该能够在简单和困难的证明问题上在适当的时候运用它。换句话说给定一个测试查询我们希望模型能够执行包含多个基本推理步骤的策略这可能需要消耗更多的 token。图 2 展示了解决一个给定问题的两种不同策略的例子。我们如何训练模型来做到这一点呢我们将把这个目标形式化为一个学习问题并通过元强化学习的思路来解决它。图 2: 展示了两种算法及其各自生成的 token 流示例。将学习「如何做」形式化为一个目标对于每个问题 x∈X假设我们有一个奖励函数 r (x,⋅):Y↦{0,1}, 可以针对任何输出 token 流 y 进行查询。例如对于数学推理问题 x其 token 输出流为 y奖励 r (x,y) 可以是检查某个 token 子序列是否包含正确答案的函数。我们只获得了训练问题数据集 D_train, 因此也只有奖励函数集合 {r (x,⋅):x∈D_train}。我们的目标是在事先未知的测试问题分布 P_test 上获得高奖励。测试问题的难度可能与训练问题不同。对于未知的测试问题分布 P_test 和有限的测试时计算预算 C我们可以从训练问题数据集 D_train 中学习一个算法 A∈A_C (D_train), 这个算法属于推理计算受限的测试时算法类 A_C。这个类中的每个算法都以问题 x∼P_test 作为输入并输出一个 token 流。在图 2 中我们给出了一些例子来帮助理解这个 token 流可以是什么。例如A_θ(x) 可能首先包含针对问题 x 的某些尝试 token然后是一些用于预测尝试正确性的验证 token如果验证为不正确接着是对初始尝试的一些改进所有这些都以「线性」方式串联在一起。另一个算法 A_θ(x) 可能是以线性方式模拟某种启发式引导搜索算法。算法类 A_C (D_train) 将由上述所有可能的 A_θ(x) 产生的下一个 token 分布组成。注意在这些例子中我们希望使用更多的 token 来学习一个通用但可泛化的程序而不是去猜测问题 x 的解决方案。我们的学习目标是学习由自回归大语言模型参数化的 A_θ(x)。我们将这整个流 (包括最终答案) 称为响应 y∼A_θ(x)。算法 A_θ(x) 的效用由奖励 r (x,y) 衡量的平均正确性给出。因此我们可以将学习算法表述为解决以下优化问题将 (Op-How) 解释为元强化学习问题接下来的问题是我们如何解决由语言模型参数化的、在计算受限算法类 A_c 上的优化问题 (Op-How) 显然我们既不知道测试问题的结果也没有任何监督信息。因此计算外部期望是徒劳的。对问题 x 猜测最佳可能响应的「标准」大语言模型策略似乎也不是最优的因为如果充分利用计算预算 C它可能会做得更好。主要思路是优化 (Op-How) 的算法 A_θ(x)∈A_c类似于强化学习中的自适应策略它使用额外的 token 预算来实现某种算法策略来解决输入问题 x。有了这个联系我们可以从类似问题通常的解决方式中获得启发通过元学习的视角来看待 (Op-How)具体来说是元强化学习「元」是因为我们希望学习算法而不是直接回答给定问题而「强化学习」是因为 (Op-How) 是一个奖励最大化问题。一个非常简短的元强化学习入门通常强化学习训练一个策略来最大化马尔可夫决策过程 (MDP) 中的给定奖励函数。相比之下元强化学习问题设定假设可以访问任务分布 (每个任务都有不同的奖励函数和动态特性)。在这种设定下目标是在来自训练分布的任务上训练策略使其能够在从相同或不同测试分布抽取的测试任务上表现良好。此外这种设定不是根据策略在测试任务上的零样本表现来评估它而是让它通过在测试时执行几个「训练」回合来适应测试任务在执行这些回合之后再评估策略。回到我们的设定你可能会想知道马尔可夫决策过程MDP和多个任务 (用于元强化学习) 是如何体现的。每个问题 x∈X 都会引发一个新的强化学习任务这个任务被形式化为马尔可夫决策过程 (MDP) M_x其中问题 x 中的 token 集合作为初始状态我们的大语言模型 A_θ(x) 产生的每个 token 作为一个动作而简单的确定性动态则通过将新的 token ∈T 与到目前为止的 token 序列连接来定义。注意所有 MDP 共享动作集合和状态集合这些对应于词汇表中可能出现的变长 token 序列。然而每个 MDP M_x 都有一个不同的未知奖励函数由比较器 r (x,⋅) 给出。那么解决 (Op-How) 就对应着找到一个策略该策略能够在计算预算 C 内快速适应测试问题 (或测试状态) 的分布。从认知 POMDP 的视角来看这种测试时泛化的概念是另一种方式这是一个将在 M_x 族上学习策略视为部分观察强化学习问题的构造。这个视角提供了另一种激发自适应策略和元强化学习需求的方式对于那些有强化学习背景的人来说解决 POMDP 等同于运行元强化学习这一点应该不足为奇。因此通过解决元强化学习目标我们正在寻求这个认知 POMDP 的最优策略并实现泛化。适应性策略如何适应测试问题在元强化学习中对于每个测试 MDP M_x策略 A_θ 在通过 A_θ 生成最终响应进行评估之前可以通过消耗测试时计算来获取信息。在元强化学习术语中获得的关于测试 MDP M_x 的信息可以被视为在测试问题 x 引发的 MDP 上收集「训练」回合的奖励然后再在测试回合上进行评估。注意所有这些回合都是在模型部署后执行的。因此为了解决 (Op-How)我们可以将来自 A_θ(x) 的整个 token 流视为分成几个训练回合的流。为了优化测试时计算我们需要确保每个回合都能提供一些信息增益以便在测试 MDP M_x 的后续回合中表现更好。如果没有信息增益那么学习 A_θ(x) 就退化为一个标准的强化学习问题 —— 只是计算预算更高 —— 这样就不清楚学习「如何做」是否有用。可以获得什么样的信息当然如果 token 流中涉及外部接口我们可以获得更多信息。但是如果不涉及外部工具我们是否在利用免费午餐我们指出不是这种情况在 token 流进行过程中不需要涉及外部工具也能获得信息。流中的每个回合都可以有意义地增加更多信息也就是说我们可以将消耗更多的测试时计算视为从模型对最优解的后验近似 P (⋅|x,θ) 中采样的一种方式其中每个回合 (或输出流中的 token) 都在改进这个近似。因此显式地调整先前生成的 token 可以提供一种计算可行的方式用固定大小的大语言模型来表征这个后验。综上所述当被视为元强化学习问题时A (⋅|⋅) 成为一个历史条件 (「自适应」) 策略通过在给定测试问题上花费最多 C 的计算来优化奖励 r。图 3智能体 - 环境交互协议。图源https://arxiv.org/pdf/1611.02779 学习自适应策略的元强化学习图 4A_θ(x) 的响应包括一串 token。我们如何解决这样一个元强化学习问题也许解决元强化学习问题最明显的方法是采用黑盒元强化学习方法。这将涉及最大化输出轨迹 A_θ(x) 中想象的「episodes」的奖励总和。例如如果 A_θ(x) 对应于使用自我纠正策略那么每个 episode 的奖励将对轨迹中出现的单个响应进行评分。如果 A_θ(x) 规定了一种在生成和生成验证之间交替的策略那么奖励将对应于生成和验证的成功。然后我们可以优化一般情况下输出 token 流可能无法清晰地分成生成和验证片段。在这种情况下可以考虑元强化学习问题的更抽象形式直接使用信息增益的某种估计作为奖励。可以通过多轮强化学习方法来解决 (Obj-1) 和 (Obj-2)。实际上只要能够使用某种执行定期在线策略采样的强化学习算法来解决优化问题强化学习方法的选择 (基于价值还是基于策略) 可能并不重要。我们还可以考虑另一种制定元强化学习训练目标的方法只优化测试回合获得的奖励而不是训练回合的奖励从而避免量化信息增益的需要。 #Rethinking External Slow-Thinking: From Snowball Errors to Probability of Correct Reasoning 人大刘勇团队「慢思考」机理分析从雪球误差到正确推理概率在大语言模型LLMs的发展历程中 Scaling Laws [1] 一直是推动性能提升的核心策略。研究表明随着模型规模和训练数据的增长LLMs 的表现会不断优化 [2]。然而随着训练阶段规模的进一步扩大性能提升的边际收益逐渐减小训练更强大的模型需要巨额投入。因此研究重点逐渐从训练阶段的扩展转向推理阶段的扩展 [3]探索在不增加模型参数量的情况下如何提升推理质量。「慢思考」Slow-Thinking也被称为测试时扩展Test-Time Scaling成为提升 LLM 推理能力的新方向。近年来OpenAI 的 o1 [4]、DeepSeek 的 R1 [5] 以及 Qwen 的 QwQ [6] 等顶尖推理大模型的发布进一步印证了推理过程的扩展是优化 LLM 逻辑能力的有效路径。研究发现增加推理时间能够显著提升 LLM 的推理质量 [7]这一发现推动了对「慢思考」方法的深入研究。「慢思考」主要可以分为内部慢思考Internal Slow-Thinking 和外部慢思考External Slow-Thinking 两种方式内部慢思考通过额外的训练使模型在专门的推理任务上优化参数提升自身的推理深度和输出质量。外部慢思考不改变模型本身而是增加计算开销例如通过多次采样、重新生成答案等方式延长推理过程从而提高推理的准确性和可靠性。本文主要关注外部慢思考。在面对复杂问题时人类往往会花费额外的时间思考和完善推理的中间过程以提高准确性。外部慢思考受这一认知过程的启发通过增加推理步骤来提升大语言模型的推理质量 [8]。例如BoNBest-of-N方法会生成多个答案并通过多数投票或排序等策略选出最优解 [9]。此外更前沿的框架如思维链CoT[10]、思维树ToT[11] 以及借鉴 AlphaGo [12] 蒙特卡洛树搜索MCTS 的方法能够在树状结构中探索解答空间寻找更优的答案 [13-14]。然而尽管外部慢思考方法展现出提升推理质量的潜力但仍面临两大核心挑战缺乏理论支撑目前我们对这些方法为何有效的理解仍然有限这阻碍了更先进策略的设计。计算资源需求高复杂的慢思考技术往往需要大量计算资源且优化设计参数的难度较大导致实际应用中的表现不尽如人意。针对这些挑战研究者提出了一种基于信息论的系统性框架建立外部慢思考方法与 LLM 生成正确推理的概率之间的联系。随着「慢思考」方法的深入探索LLM 发展新的转折点正在到来。未来大模型的推理能力优化不再局限于扩大模型规模而是通过优化推理过程实现更智能、更精准的逻辑推理。本研究将深入剖析外部慢思考策略的理论基础、机制解析以及其对 LLM 推理能力的影响为人工智能推理能力的进一步突破提供新的方向。论文标题Rethinking External Slow-Thinking: From Snowball Errors to Probability of Correct Reasoning论文链接http://arxiv.org/abs/2501.15602 此工作主要作出了如下贡献分析了 LLM 推理过程中的雪球误差效应并证明该效应会导致推理错误概率随推理路径的增长而上升强调了慢思考策略在减少错误中的关键作用。提出了一种基于信息论的系统性框架建立外部慢思考方法与推理正确概率之间的数学联系为理解慢思考策略的有效性提供理论支撑。对比了不同的外部慢思考方法包括 BoN 和 MCTS 等揭示它们在推理能力提升方面的差异与内在联系。 1 大模型推理过程中的「雪球误差」想象一下在冬天的雪地上滚动一个雪球。随着滚动的距离增加雪球会以越来越快的速度变大这就是雪球效应Snowball Effect—— 小的变化会随着时间推移不断累积最终带来显著影响。在大规模语言模型LLMs中这一效应最初体现在自回归式Auto-Regressive 的 Next-Token PredictionNTP任务中微小的 token 级错误会不断累积最终导致模型生成的答案偏离预期的正确答案 [15]。然而在更复杂的推理任务中这种错误不再仅限于 token 级而是扩展到句子级使得推理偏差更加难以衡量和控制。为什么推理偏差会逐步放大研究表明LLM 的推理过程可以看作是逐步执行一系列原始任务Primitive Tasks[16]每一步的推理结果都依赖于前面的输出。因此任何早期的微小误差都会在推理链条中不断放大最终导致模型偏离正确答案。为了更直观地理解这一现象研究者借助柏拉图的「洞穴寓言」Plato’s Allegory of the Cave。在这个寓言中人们只能看到投射在墙上的影子而无法直接感知真实世界类似于 LLM 只能从训练数据中学习世界的「投影」。如图 1 (a) 所示训练数据只是现实世界的映射而 LLM 生成的推理结果正如图 1 (b) 所示仅是其内部推理过程的「影子」。图表 1: 大模型推理过程的柏拉图假设换句话说模型的推理输出并非直接反映其思维过程而是受限于它从训练数据中学到的模式和误差导致滚雪球效应的持续累积。例如在 LLM 执行数学推理任务时例如解答「计算 3x 2y」模型并不是直接给出答案而是隐式地执行一系列推理步骤 t₁: 计算 3x → t₂: 计算 2y → t₃: 将 3x 和 2y 相加。然而这些推理步骤是抽象的、不可直接观察的模型的最终输出是这些推理过程的不同表达方式。例如输出序列 r₁ → r₂ → r₃ 可能有多种不同的表达形式但它们并不一定能完全还原对应的推理步骤 t₁ → t₂ → t₃。由于单个输出 r_l 无法完全表达对应的推理步骤 t_l即使初始误差微小也会随着推理链条的延续逐步放大最终导致严重的推理偏差。这种误差的积累正是雪球效应在推理任务中的典型体现。在 LLM 推理过程中雪球误差会导致模型的推理结果逐步偏离正确答案。为了精准衡量这一误差本研究引入互信息Mutual Information, MI这一数学工具来量化隐式推理序列 t 与最终生成的回复序列 r 之间的共享信息量记作 I (t; r)。这一度量帮助评估模型在推理过程中能够保留多少关键信息。具体而言在每个推理步骤中模型的输出可能存在细微偏差这些误差会逐步累积并导致信息损失。研究者将信息损失定义为互信息 I (t; r) 与隐式推理过程的信息熵 H (t) 之间的差值而最终的雪球误差则可以定义为在所有推理步骤上信息损失的累积 2 从「雪球误差」到推理错误的概率在 LLM 的推理过程中推理路径越长雪球误差就会不断累积最终导致严重的事实偏差研究者将其定义为推理错误Reasoning Errors。如何衡量推理错误为了准确评估推理错误研究者首先需要清晰地定义它。由于每个输出 r_l 代表隐式推理步骤 t_l研究者通过检查是否存在一个足够强大的映射函数 f 来从 r_l 还原 t_l。如果这种还原能力较弱说明推理过程中信息损失较大进而导致了推理错误的发生。具体而言研究者将「推理错误」这一事件刻画如下为了更准确地估计 LLM 发生推理错误的概率本研究提出使用信息论方法建立雪球误差与推理错误发生概率之间的数学联系。研究者从一个关键引理出发通过理论推导揭示滚雪球误差如何逐步积累并最终影响模型的推理准确性。基于此引理研究者可以推导出推理错误发生概率的下界此定理表明在推理的第 l 步错误概率的下界受累积信息损失 H_(l) (t|r) 影响由于其累加的定义这一损失至少会随推理步数 l 线性增长。当雪球效应出现时累积信息损失可能超过线性增长导致推理错误概率随推理路径的增加而快速上升。换句话说推理链条越长模型出错的可能性越大这解释了 LLM 在长链推理任务中为何容易出现偏差。图表 2: 不同 LLM 在 GSM8k 数据集上生成回复的估计互信息MI和奖励分数为了实证验证 LLM 推理中的雪球误差效应本研究基于 GSM8k 数据集进行实验并测试了三款先进的推理 LLMsLlama3.1-8B-Instruct、Qwen2.5-7B-Instruct以及 Skywork-o1-Open-Llama-3.1-8B。研究者计算了互信息 I (t; r) 在所有 token 上的平均值并分析其随推理路径长度 L 的变化同时评估生成结果的奖励分数reward结果如图表 2 所示。实验结果表明互信息呈负指数级下降比线性衰减更快随着推理步数 L 的增长信息损失迅速累积由于计算的是平均互信息推理链条靠后的 token 可能损失更多关键信息奖励分数随推理长度增加而下降进一步验证了雪球误差对 LLM 生成质量的影响。这一实验结果不仅验证了雪球误差的存在也表明信息损失的累积速度远超线性衰减直接影响 LLM 生成的推理质量。这一发现与研究者的理论分析一致。 3 外部慢思考中的正确推理概率先前的分析表明推理错误概率 P (e_l) 随着推理步数 l 的增加而上升。然而在实际应用中推理错误通常体现在模型生成结果的奖励分数reward 上。因此本文进一步扩展至现实场景探讨外部慢思考方法为何有效。 3.1 何为正确推理研究者首先定义 LLM 在现实场景中的推理过程。对于一个问题 r_0模型会通过自回归方式生成一个包含 L 个推理步骤的响应序列R [r_1,r_2,…,r_L]。为了评估每一步推理 r_l 的质量研究者引入一个价值函数 φ用于衡量每个步骤的正确性 φ(r_l) 。在实际应用中这一评估可以通过人类反馈或奖励模型来实现。此外研究者假设每个推理步骤都有一个标准答案 r_l^*代表 LLM 应该生成的最准确答案与人类理想推理方式保持一致。基于上述设定研究者利用价值函数 φ 评估推理步骤的正确性并据此量化 LLM 生成回复的质量。具体而言研究者分别将单步推理和整个推理过程的正确性定义如下 3.2 正确推理的概率实验结果图表 2表明平均互信息会随推理步数呈近似指数级下降这意味着雪球误差随着推理长度的增加呈指数级增长。然而由于概率值不能超过 1研究者基于定理 3.3 提出一个假设在实际应用中推理错误的概率可能遵循指数衰减函数即P (e_l) 1 -λe^(-l)这一假设使得后续分析更加直观并进一步帮助推导在第 l 层生成正确推理步骤的概率由此假设研究者推导出在雪球误差存在时最终得到一个正确的完整推理过程的概率 3.3 外部慢思考提升推理质量的机理基于前面的分析研究者首先直观上得出这样的结论由于 LLM 生成的随机性外部慢思考方法的核心目标是引入额外的推理步骤并结合多次重新采样策略从而对冲雪球误差进而提高模型生成结果的正确性。接下来研究者利用理论分析进一步详细阐述这一观点。首先外部慢思考方法从根本上来说主要具有两个特点宽度扩展Width-Expansion对于长度一定的推理序列大多数外部慢思考方法都试图扩展推理空间的宽度。这可以通过简单的重新生成BoN、CoT-SC或更复杂的树搜索方法ToT、MCTS 来实现。生成选择Generation Selection扩展推理空间后还需要从多个候选推理路径中选出最优解。设 Pr (τ_generate) 为生成正确推理的概率Pr (τ_select) 为从候选路径中选出正确推理的概率则最终获得正确推理结果的概率可表示为Pr [ψ(R)≤τ ] Pr (τ_generate )× Pr (τ_select )。外部慢思考通过扩展推理空间来提升 LLM 生成正确答案的概率 Pr (τ_generate)但与此同时额外的推理步骤也会增加选择最优推理路径的难度从而降低 Pr (τ_select)。这意味着在提升推理正确性的同时也带来了更复杂的决策挑战。如何量化这种权衡为了更直观地分析这一现象研究者以 Beam Search 作为基准的宽度扩展策略。Beam Search 广泛应用于树搜索算法其核心机制如下在每一层推理生成 k 个子节点以扩展搜索树的宽度仅保留 b 个最优候选解以减少计算复杂度。研究者将分析结果形式化为一个数学引理进一步揭示了推理空间扩展与最优路径选择之间的平衡关系。基于推理过程的基本假设这一概率上界可以被进一步简化为引理 4.5 和定理 4.6 阐述了外部慢思考技术的本质机理并支撑了如下结论获得正确推理的概率主要受以下三个关键因素影响每层生成的候选数 k 决定了推理空间的扩展宽度每层筛选的最优候选数 b 影响正确推理路径的选择精度正确性阈值 τ 衡量推理结果的质量要求。宽度扩展 vs. 选择可靠性如何找到平衡 Pr (τ_select) 选择正确推理的概率依赖于价值函数的可靠性即 ϵ_b 相关的参数。Pr (τ_generate) 生成正确推理的概率受推理路径长度 L 和扩展宽度 k 影响。通过增加推理步骤可以提升生成正确推理的概率但同时会引入额外的选择代价增加错误概率。慢思考方法的关键优化条件对比引理 4.4 和定理 4.6 发现慢思考方法是否有效还取决于价值函数的可靠性。为了保证推理准确率的上限得到提升价值函数的可靠性必须满足。通过上述分析研究者总结了外部慢思考方法的核心机制。通过增加推理路径的搜索范围这些方法提高了生成正确答案的概率有效减少雪球误差的累积。同时其效果极大依赖于所使用的价值函数的可靠性这一因素直接影响整个方法的最终表现。 4 外部慢思考方法间的对比接下来研究者将对比简单和复杂的外部慢思考框架之间的核心区别并以著名的 BoN 和 MCTS 为例进行分析。 4.1 BoN 与 MCTS 框架下的正确推理概率对于 BoN 来说研究者很方便地将其建模为进行 N 次长度为 L 的推理并最终在 N 个答案中选择一次的过程。因此BoN 的正确推理概率上界为对于 MCTSRAP 模式由于其机制较为复杂研究者考虑其最好和最坏的情况。在最好的情况下MCTS 的每次节点扩展时都发生在最深的叶子节点上则它退化成了一个采样宽度和保留宽度都为 b 的 Beam Search。而在最差情况MCTS 需要遍历所有可能的节点从而形成一棵完全 b - 叉树。 4.2 对比 BoN 与 MCTS 的总推理代价可以看出MCTS 由于需要调用更多次的选择过程一般会比 BoN 对于价值函数有更高的敏感性。除此之外在假设价值函数完美ϵ_b1的情况下研究者对齐概率上界中的其余部分可以计算出当 BoN 和 MCTS 具有相当的正确推理概率上界时所需要具备的总推理代价的规模如图表 3 所示。图表 3: 相同推理正确概率下 BoN 与 MCTS 总推理代价规模对比结果表明当 BoN 与 MCTS 在推理正确率上相当时BoN 的总推理成本与 MCTS 接近。最优情况下BoN 与 MCTS 的推理成本趋近相等最差情况下当推理步数 L 较小时BoN 的成本可能略高于 MCTS但仍保持在合理范围内。当 L 增加BoN 的推理成本甚至可能低于 MCTS。这一结论表明推理成本是决定减少雪球误差效果的关键因素而具体采用哪种慢思考框架如 BoN 或 MCTS对最终结果的影响理论上可能是较小的。 4.3 实验验证在 GSM8k 和 PrOntoQA 两个推理任务上实证对比了 BoN 和 MCTS 的推理准确性。研究者采用 [14] 推荐的 MCTS 优化配置并计算相应的 N 值使 BoN 的推理成本与 MCTS 尽可能接近。由于两种方法生成推理路径的方式不同完全对齐并不现实因此研究者定义合理的 N 值区间 N 合理范围的下界与上界 N ̃_res 对齐推理步数的 N 值N ̃_call 对齐 LLM 调用次数的 N 值研究者测试了 BoN 的三种选择策略 Self-Consistency自洽性选择ORM Vote基于奖励模型的投票选择ORM Max基于奖励模型的最大值选择实验结果如图表 4 所示。图表 4: GSM8k 和 PrOntoQA 上 BoN 与 MCTS 的准确性对比研究者可以得出如下结论不同任务下的 BoN 表现 PrOntoQA二分类任务True/False由于答案固定增加 N 并不会提升 Self-Consistency 策略下的 BoN 性能除非引入奖励模型。GSM8k多步推理任务由于答案多样增加 N 即使在没有奖励模型的情况下也能提升 BoN 的性能。 BoN 与 MCTS 的关键对比 ORM Vote ORM Max 策略结合奖励模型当 N 在 N ̃_res 和 N ̃_call 之间时BoN 能够达到与 MCTS 相当的推理性能N 接近 N ̃_res 时BoN 略低于 MCTS但差距不大N 取更大值时BoN 能够匹敌甚至超越 MCTS进一步验证了 MCTS 在 LLM 推理中的局限性并支持研究者的理论分析。本实验表明在合理的 N 值范围内BoN 通过适当调整推理宽度可以达到甚至超越 MCTS 的推理效果这与研究者的理论分析一致。 5 小结本研究分析了外部慢思考方法的有效性机制并通过信息论建立了 LLM 推理中的雪球误差与推理错误之间的联系。研究表明外部慢思考方法通过扩展推理空间可以减少推理错误但同时增加了推理成本需要在正确性和计算开销之间权衡。对比 BoN 和 MCTS 等方法后研究者发现影响其有效性的核心因素是奖励函数的能力和推理总成本而具体的搜索框架影响较小。因此优化奖励函数和提升策略模型的推理能力是未来改进外部慢思考方法的关键方向。 #TinyLLaVA-Video 北航推出有限计算资源优于部分7B模型代码、模型、训练数据全开源近年来随着多模态大模型的崛起视频理解技术取得了显著进展。但是目前主流的全开源视频理解多模态模型普遍具有 7B 以上的参数量这些模型往往采用复杂的架构设计并依赖于大规模训练数据集。受限于高昂的计算资源成本模型训练与定制化开发对于资源有限的科研人员而言仍存在显著的门槛。近日北京航空航天大学的研究团队基于 TinyLLaVA_Factory 的原项目推出小尺寸简易视频理解框架 TinyLLaVA-Video其模型代码以及训练数据全部开源。在计算资源需求显著降低的前提下训练出的整体参数量不超过 4B 的模型在多个视频理解 benchmark 上优于现有的 7B 模型。同时由于 TinyLLaVA-Video 衍生自 Tinyllava_Factory 代码库因此项目仍然具有组件化与可扩展性等优点使用者可以根据自身需求进行定制与拓展研究。论文地址https://arxiv.org/abs/2501.15513Github 项目https://github.com/ZhangXJ199/TinyLLaVA-Video 全开源项目支持定制与拓展区别于众多仅开源模型权重的项目TinyLLaVA-Video 秉承了 TinyLLaVA_Factory 全面开源的理念。该项目不仅公开了完整的模型权重、训练代码和训练数据集也延续了原有的模块化设计架构研究人员可根据具体实验需求灵活替换语言模型、视觉编码器等核心组件并可自定义训练策略。这种开放性设计不仅降低了小规模研究团队进入视频理解研究领域的门槛还为未来的轻量级视频理解模型的训练范式与架构创新探索提供了实验平台。在模型架构方面TinyLLaVA-Video 沿用 LLaVA 类多模态模型常见的 Vision TowerConnectorLLM 框架并同样保持预训练对齐与监督微调的两阶段训练策略。项目中采用的所有预训练模型组件均遵循开源协议包括如 Qwen2.5-3B 等语言模型和 SigLIP 等视觉编码器此类核心模块确保了实验的可复现性为研究者提供了可靠的基准参考。同时研究人员可以方便地替换模型组件更改训练策略定制符合自身需求的视频理解模型。在训练数据方面TinyLLaVA-Video 基于开源的 LLaVA-Video-178K 和 Valley 数据集进行实验。同时为进一步精简数据集提高训练数据的质量并控制计算资源成本项目对训练数据进行了多步筛选与过滤最终得到 397k 的预训练数据与 491k 的监督微调数据。这使得研究者即便仅具备有限的计算资源也能在合理的训练时间内复现实验结果并开展进一步研究。经过处理的数据标注信息annotation也已经完整公开于 HuggingFace 平台这也为后续研究提供了高质量的数据基础。小尺寸简易框架依然保持高性能以往的视频理解方法受限于语言模型的输入长度限制往往面临两难选择要么通过设计复杂的模型架构来处理长序列信息要么牺牲视频信息的完整性而限制采样帧数。因此如何处理长时序视觉序列并平衡计算资源与性能之间的矛盾成为轻量级视频理解模型亟待解决的问题。为在保持模型结构轻量化的同时解决长序列信息处理的问题TinyLLaVA-Video 对于经过 Vision Tower 处理后的整体视频序列使用简单的视频级 Resampler 作为 Connector 来对齐视觉和语言从而能极大地减少输入至语言模型的 Visual Token 的数量。这种处理方式可以使得模型支持灵活的视频采样策略研究者可以根据视频类型与使用需求进行 fps 采样或均匀帧采样设置不同的视频采样帧数。虽然简化模型架构并控制训练数据的规模但是 TinyLLaVA-Video 的表现依然非常可观。实验结果表明整体参数不超过 4B 的模型在包含 MLVU、Video-MME 在内的多个视频理解基准测试集上的表现优于同等训练数据量级下的 7B 模型充分验证了该框架的有效性。此外该研究也进行了大量实验系统性地探索了不同配置下的模型性能包括选择不同的语言模型、视觉编码器以及采样不同的帧数等设置的影响实验设置与结果详见技术报告。这些实验结果揭示了在不同参数设定下模型在视频理解任务中的表现为研究者提供了优化模型结构的实证数据。这些探索不仅提升了 TinyLLaVA-Video 的适用性也为后续研究提供了重要的参考依据。 TinyLLaVA-Video 的研究表明小尺寸视频理解模型在计算成本有限的环境下仍具有广阔的发展空间。未来计算资源有限的研究者们可以基于该工作进一步优化模型结构和训练策略以推动小尺寸视频理解模型的持续发展为资源受限环境下的多模态研究提供更多可能性。 TinyLLaVA 系列项目始终致力于在有限计算资源下研究小尺寸模型的训练与设计空间坚持完全开源原则完整公开模型参数、源代码及训练数据。同时项目采用模块化设计理念确保项目的可拓展性方便资源有限的研究者们通过实践来理解与探索多模态大模型。 #Deepseek R1 Zero成功复现全过程三阶段RLResponse长度涨幅超50%涌现语言混杂 Deepseek R1 Zero模型通过三阶段强化学习RL成功复现的过程记录模型在测试集上的准确率从0.2提升到0.41输出长度增长超过50%并涌现出多语言混杂、迟疑、多路径探索等能力展示了强化学习在提升模型性能和推理能力方面的潜力。项目代码可见Unakar/Logic-RL(https://github.com/Unakar/Logic-RL)欢迎关注和star! 我们将开源完整的wandb曲线和训练日志wandb report(https://wandb.ai/ustc_ai/GRPO_logic_KK/reports/GRPO-Zero--VmlldzoxMTIwOTYyNw?accessTokengnbnl5mu5pwfww7gtwxymohg85w7d7vthvjvbl4w8yxg0a99vf1k22m11e61cvv8) 在大四的最后一个寒假和AdusTinexl ShadeCloak 两个小伙伴捣鼓出了点有意思的东西非常开心欢迎各位合作指导先展示一下结果基座模型Qwen 7B在测试集上只会基础的step by step逻辑。无 Long CoT冷启动蒸馏三阶段Rule Based RL后约400steps模型学会了迟疑 (标记当前不确定的step等后续验证)多路径探索 (Lest test both possibilities),回溯之前的分析 (Analyze .. statement again)阶段性总结 Lets summarize, Now we have determinedAnswer前习惯于最后一次验证答案(Lets verify all statements),Think时偶尔切换多语言作答训练数据纯英文的情况下思考部分是中文最后answer又切回英文测试集上性能也一举超越了gpt4o 的0.3达到了 0.41的准确率相比自身初始0.2 acc翻了一倍非常漂亮的回复 demo1:迟疑回溯总结verify。训练后期模型总是倾向于在最后输出answer前优先全部verify一遍。这些能力是RL训练涌现的未加任何引导偶尔的多语言现象 demo2: 多语言的例子思考忽然说中文最后为了格式奖励用英文做最终回答回复是对的 demo3训练前模型原本的输出作为参考, 笨笨的也很可爱看得出来是一点verify之类的基本思考单元也没有 Response长度增长 Demo 4, Settings: prompt mean 276 tokens, origin response mean 400 tokens 据我所知这是第一个稳定实现输出长度大幅超越原始模型平均长度的数据集prompt长度全部小于300 tokens相比于基座模型原本输出的平均长度 400 tokens 训练后期平均长度稳定在650 tokens约50%的涨幅 Reward曲线我们设置了严苛的format reward和Answer Reward。 Reward只有这两部分构成避免任何reward hacking。我们编写了不少if else逻辑和正则。刚开始模型总能以匪夷所思的方式绕过我的预想在和它一次次的斗智斗勇里完善了rule的编写我们发现模型在学习format的时候其实是一个快速收敛--逐渐崩坏--又忽然找回format的形式,与我们三阶段RL训练设置吻合。还有一个有趣的小发现在中间阶段模型似乎认为格式反而阻碍了它的思考日志里看到不少例子模型在tag开始后意识到自己犯错了想重回进入思考模式可惜被format reward狠狠惩罚了 Demo 5, 依次是平均reward, 全对的比例格式错误比例答案做错的比例基本Settings 训练数据合成其实只有2K不到的训练数据集完全由程序合成确保对基座模型是OOD数据。其中逻辑问题类似老实人和骗子的益智题老实人总说真话骗子总说假话下面N个人各有各的表述请判断谁是骗子。我们以此为例讲解实验细节。可控性也不错可以人为设置难度分级。测试下来gpt4o的acc在0.3左右而3epoch的RL训练后我们成功让qwen-7B达到了0.41。 gpt4o和claude sonnet在这种逻辑题上的准确率出乎意料的低。我们选了一个合适的人数来控制难度确保它高于qwen 7B当前的能力但又不会过难(在8个人的情况下qwen完全不能作答RL训练曲线也堪比蜗牛爬。我们最后选取了5人作为基线) 模型基座选取我们注意到deepseek官方开了一系列distill模型测试下来感觉有点矫枉过正了小参数量承载了超越其自身的推理能力。回复里的wait, alternatively这种字眼频率过高。 Deepseek distill系列选了qwen-math-7B作为基座。我们本来也是这个后来发现这个模型有坑: 首先它指令跟随能力比较一般很难学会format其次它说话老爱用python code解题训练很难克服移除system prompt后还是习惯用\box{}包裹answer还是format不行Markdown味道太重一板一眼的Reasoning模型本应思想跳脱一些才是我们训了几版RL效果始终不好最后决定放弃Qwen Math系列Qwen 7B 1M就好 RL基本设置我们初始还是PPO训练确实稳定就是太慢了。Reinforce系列测试下来又快又好显存还低强烈推荐。为了和deepseek对齐我这里放出的所有结果都是GRPO Setting下的。由于我只有四卡A100跑实验相当费劲坐等来个大佬资助我跑实验 () Train batch size只有8Rollout先大后小 (32-64-16) 三阶段RL 我的经验是高温采样超大rollout Matters Step1: 课程学习与格式遵循为了训练的平稳过渡我们先用少量3人逻辑题做预热使用默认采样设置。此阶段主要是学的格式只要不遵守该规则我们就施加很大的负面奖励。模型在10step训练里很快就能学会把format error降到0.1的占比伪变长此阶段观察到极少量的response length 主要提升的是最短response的长度max response长度基本没变是反馈到mean length上是一个变长的过程。以及此阶段确实验证了Pure Rule Based RL有效性Val acc一直在涨不过不如SFT来收益来的快 Step2高温采样与大量rollout 数据集过渡到正式的5人谜题此阶段训练持续最长。也是最容易崩溃的时候。我训了14版超参都是崩坏的泪目下面讲讲一些好玩的崩坏demo。尝试将采样温度设置为1.2附近。(实测1.5会崩1.5什么鸟语言都蹦出来了)。topp和topk也调了一下主要目的是紊乱模型回复格式破坏其markdown的输出风格增加token多样性。下图是截取的模型一个很有意思的repeat现象可以看得出来RL极大地增加了verify token被chosen的概率这纯粹是自发形成的。数据集没有任何verify相关的思考token。 1. 模型的呓语它想verify, 要precise, 注意consistent执念很深 2. Retrying too late但没有后悔药可以吃模型已经到达最后需要输出结果的answer阶段了忽然意识到自己前面犯了错想重回think模式但是retry太晚了这样的行为会被给予严厉的负format惩罚 3. 忽然学会了正确地verify以及先总结初步结论再做进一步探索但思考过程还是比较简陋这里有很多有意思的设置小细节和中间输出的观察非常值得深入探索请等后续几周内我们会写好完整文章~ Step3: 漫长的退火采样设置里逐步回归正规比如温度从1.2慢慢降到0.9。此阶段模型的输出如demo1所示非常的成熟有verify有反思有回溯有格式要啥有啥我很满意的。整体思考并不冗长废话也不多比distill模型的回复看起来正常多了。学习率也逐级递减到了2e-7。此阶段模型收敛速度贼慢但多等一会会有很多惊喜。还是让它训着吧。奇怪的想法语言混杂的现象非常迷人。手动查找log似乎后期每个语言混杂的response都是对的难道对模型来说混合语言作答是更有利于它reasoning的pattern?进一步地谁说thinking porcess一定要是人类可读的只要answer看得懂就行。如果答案对我宁可中间全是乱码也无所谓(bushi只要能从模型输出里恢复出人类要的答案answer format其实也是不必要的只是测试验证的难度大大增加了。看上去又回到了某种ORM的老路..Response增加是合理的。此前模型只会一路走到黑多了几次verify和check后自然长度增加泛化性当前模型的思考能力实测是可以迁移到GSM8K的。由此展开或许可以跑一堆实验...此外本地存了一堆ckpt坐等后续可解释性分析哈哈哈。之前一直想做Long CoT的可解释性现在手头终于有一些ckpt随便测了启动最后扯一句Deepseek真是越来越强了眼睁睁看着从deepseek v2开始成长到过年期间发现街头巷尾都在讨论它。逐渐变成了攀不上的模样(可能最早期我bar也不够。欸真想去deepseek实习看看。春节最快乐的事情就是看着zero模型RL曲线嘎嘎地涨 #DeepSeek是中国最好AI模型但没任何科学进步诺奖得主DeepMind CEO放话 xAI、谷歌DeepMind和Anthropic的CEO们纷纷对DeepSeek的技术创新性提出质疑认为其并未带来实质性的科学突破。AI大佬纷纷泼冷水到底是技术讨论还是各怀目的就在今天谷歌DeepMind的首席执行官Demis Hassabis对DeepSeek进行了一番「捧杀」—— 「它可能是中国最好的工作但没有展示任何新的科学进展。」 Hassabis首先称DeepSeek的模型是「一项令人印象深刻的工作」然后便一改口风说道「从技术角度来看这并不是一个重大变革」同时还特别强调「炒作有点夸大了」。「尽管炒作很多但实际上并没有新的科学突破它使用的都是已知的AI技术。」 Hassabis同时表示谷歌本周向所有人开放的Gemini 2.0 Flash模型比DeepMind的模型更加高效。所以Hassabis对DeepSeek的种种质疑也就不难理解DeepSeek事实上已经成为了DeepMind的强劲对手。马斯克xAI很快就会发布更好的模型不只是Hassabis马斯克也在前几天举行的WELT经济峰会访谈中表达了类似观点。这次访谈中当被问道DeepSeek R1是否是AI领域的一次彻底革命时马斯克明确表示「不是xAI和其他一些公司很快就会发布比DeepSeek更好的模型」。 X上已经有网友开始爆料马斯克所口中的「更好的模型」很可能就是即将发布的Grok 3。据传新的Grok 3模型在代码和创造力方面比上一代模型要好得多。其中代号为「chocolate」的版本感觉像是完整版而另一个代号是「kiwi」的版本像是迷你版或者是量化的版本。马斯克在访谈中还表示「中国有很多非常聪明、非常有驱动力的工程师。你应该预料到中国会创造出许多伟大的东西而且他们已经创造出了许多伟大的东西。」他强调在人类历史的大部分时间里中国一直是世界上最强大的国家。在谈到AI的开源问题时马斯克认为开源模型通常落后于商业模型。但他同时强调今天商业上强大的模型可能再过一年或更短的时间内就会开源。「我预计这种趋势会持续下去。所以基本上每个人都将拥有AI。」马斯克已经为Grok 3造势好长一段时间了所以此次对DeepSeek的点评也不排除是继续为Grok 3造势。 Anthropic CEO长篇檄文DeepSeek缺乏研究价值不过要说对DeepSeek恶意最大的还要属在春节期间发出「万字檄文」的Anthropic CEO Dario Amodei。在他看来根据历史趋势LLM的成本每年都会下降约4倍这意味着现在应该有比GPT-4/Claude 3.5便宜3-4倍的模型出现。相比之下DeepSeek-V3的性能比目前的美国顶级模型低约2倍训练成本比一年前的美国模型低约8倍这符合行业正常发展预期。因此DeepSeek-V3并不构成根本性突破或创新。还不如Claude 3.5对GPT-4实现的10倍价格差。 DeepSeek-R1的研究价值甚至连V3都不如——增加的第二阶段训练强化学习仅仅是对OpenAI在o1的复制。 Amodei表示由于我们仍处于模型「扩展曲线」的早期所以只要以一个强大的预训练模型为基础很多公司都有可能开发出这类模型。 AGI五年内可期作为这段时间AI圈顶级大佬们的「例行项目」Hassabis也对AGI何时到来做了预测。他表示AI行业「正在通向AGI的道路上前进」他将其描述为「一个具备人类所有认知能力的系统」。「我认为我们现在已经很接近了也许我们只需要大约5年就能实现这样一个系统这将是非常非凡的」Hassabis说。「我认为社会需要为此做好准备思考这将带来什么影响。我们要确保能从中获益让整个社会都能从中受益但同时也要减轻相关风险。」 Hassabis的评论与业内其他人的观点相呼应他们也暗示AGI可能离现实更近了。 OpenAI的CEOSam Altman今年就表示他「相信我们知道如何构建我们传统理解中的AGI」。不过业内许多人也指出了与AGI相关的多重风险最大的担忧之一是人类将失去对他们创造的系统的控制著名AI科学家Max Tegmark和Yoshua Bengio最近在接受CNBC采访时也表达了他们对这种形式AI的担忧。结语 DeepSeek的横空出世无疑在全球AI领域掀起了一场风暴。不仅在国内一直霸榜现在全球的大佬也都将目光关注于此。在未来随着各大科技巨头的持续投入与竞争AI领域的格局将愈发复杂多变而AGI的到来或许也将比我们想象的更近。参考资料 https://www.cnbc.com/amp/2025/02/09/DeepSeeks-ai-model-the-best-work-out-of-china-google-deepmind-ceo.html https://www.youtube.com/watch?vQVbRG2J1Saw #数据集偏差的十年之战何恺明和刘壮提出我们在消除数据集偏差的战斗中真的取得了胜利吗 MIT新晋副教授何恺明新作新鲜出炉瞄准一个横亘在AI发展之路上十年之久的问题数据集偏差。该研究为何恺明在Meta期间与刘壮合作完成他们在论文中指出尽管过去十多年里业界为构建更大、更多样化、更全面、偏差更小的数据集做了很多努力但现代神经网络似乎越来越善于”识破”并利用这些数据集中潜藏的偏差。这不禁让人怀疑我们在消除数据集偏差的战斗中真的取得了胜利吗数据集偏差之战在2011年由知名学者Antonio Torralba和Alyosha Efros提出—— Alyosha Efros正是Sora两位一作博士小哥Tim Brooks和William Peebles的博士导师而Antonio Torralba也在本科期间指导过Peebles。当时他们发现机器学习模型很容易“过拟合”到特定的数据集上导致在其他数据集上表现不佳。十多年过去了尽管我们有了更大、更多样化的数据集如ImageNet、YFCC100M、CC12M等但这个问题似乎并没有得到根本解决。反而随着神经网络变得越来越强大它们“挖掘”和利用数据集偏差的能力也越来越强了为了分析这个问题何恺明团队设计了一个虚构的”数据集分类”任务。听名字你可能就猜到了给定一张图像模型需要判断它来自哪个数据集。通过看模型在这个任务上的表现就可以了解它们捕捉数据集偏差的能力。现代AI轻松识破不同数据集在实验中团队发现各种现代神经网络架构如AlexNet、VGG、ResNet、ViT等在数据集分类任务上表现出惊人的一致性它们几乎都能以超过80%的准确率区分不同数据集的图像更令人吃惊的是这个发现在各种不同的条件下都非常稳健不管是不同的数据集组合、不同的模型架构、不同的模型尺寸、不同的训练数据量还是不同的数据增强方法神经网络始终能轻松”一眼识破”图像的数据集来源。那么神经网络是如何做到这一点的呢是靠单纯的记忆还是学到了一些更普适的规律为了揭开谜底团队做了一系列对比实验。他们发现如果把不同的数据集随机混在一起神经网络就很难再区分它们了准确率下降到了33%。这说明神经网络并不是在单纯地记忆每一张图像而是真的学到了一些数据集特有的模式。更有趣的是即使在自监督学习的设置下神经网络也展现出了惊人的”数据集辨识力”。在这种设置下模型在训练时并没有用到任何数据集的标签信息但当在这些自监督学习到的特征上训练一个简单的线性分类器时它依然能以超过70%的准确率区分不同的数据集通过这一系列的实验何恺明、刘壮等人的研究给我们敲响了警钟尽管这十年我们一直在努力构建更大、更多样化的数据集但数据集偏差这个问题似乎并没有得到根本解决。相反现代神经网络越来越善于利用这些偏差来获得高准确率但这可能并不代表它们真正学到了鲁棒、普适的视觉概念。论文的最后作者呼吁整个AI社区重新审视数据集偏差这个问题并重新思考如何在算法和数据两个层面上来应对这一挑战。 CVPR最佳论文作者的通力合作本文是何恺明在Meta期间与Meta研究科学家刘壮合作完成。现在何恺明已经正式在MIT上岗担任电气工程与计算机科学系的助理教授。他的“开学第一课”开课即火爆在youtube上已经有2.9万的播放量。和何恺明一样刘壮本科毕业自清华并且也是CVPR最佳论文奖得主——他是CVPR2017最佳论文DenseNet的第一作者。 2017年刘壮从清华姚班毕业进入加州大学伯克利分校攻读博士学位师从Trevor Darrell是贾扬清的同门师弟。博士毕业后刘壮进入Meta AI Research工作。在此之前他已经在Meta实习了一年多时间期间和谢赛宁合作发表了ConvNeXt。论文地址 https://arxiv.org/abs/2403.08632 参考链接 https://twitter.com/liuzhuang1234/status/1768096508082008289 #DeepSeek蒸馏的不是白酒而是一个学神学生最近很多芯片厂商都官宣了适配DeepSeek在其中非常高频出现的一个词汇是“蒸馏模型”。而在DeepSeek的一些深度解析中也提到了“蒸馏”这一概念。那么“蒸馏”到底指的是什么模型蒸馏技术的基本原理模型蒸馏Knowledge Distillation是一种知识迁移技术旨在将复杂且高性能的教师模型知识迁移至简单、小巧的学生模型。教师模型如同知识渊博但需庞大资源支持的“学霸”而学生模型则像是期望在资源有限条件下达到相似能力的“学神”。传统学生模型训练依赖“硬标签”如同“死记硬背”。而模型蒸馏采用“软标签”让学生模型学习教师模型的“解题思路”。例如对于“22”的问题硬标签直接给出答案“4”软标签则会告知“3”和“5”也有一定可能性概率较低学生模型借此不仅学到答案还掌握了教师模型的思考方式泛化能力更强。模型蒸馏过程通常分为三步首先训练强大的教师模型接着教师模型对训练数据生成软标签学生模型通过模仿软标签进行训练最后学生模型成为轻量级且性能接近教师模型的存在。 DeepSeek蒸馏技术的创新实践一数据蒸馏与模型蒸馏结合 DeepSeek将数据蒸馏与模型蒸馏相结合显著提升模型性能并降低计算成本。数据蒸馏通过优化训练数据助力小模型高效学习如利用教师模型生成或优化数据包括数据增强、伪标签生成和优化数据分布。在模型蒸馏方面DeepSeek运用监督微调SFT将教师模型的知识迁移到学生模型且不涉及额外强化学习RL阶段提升了蒸馏效率。这种结合方式让DeepSeek的蒸馏模型在推理基准测试中成绩斐然如DeepSeek - R1 - Distill - Qwen - 7B在AIME 2024上实现了55.5%的Pass1超越了QwQ - 32B - Preview。二高效知识迁移策略 DeepSeek采用基于特征的蒸馏和特定任务蒸馏等策略实现高效知识传递和模型优化。基于特征的蒸馏将教师模型中间层特征信息传递给学生模型帮助其捕捉数据本质特征特定任务蒸馏针对不同任务如机器翻译、文本生成对蒸馏过程优化。这些策略使DeepSeek的蒸馏模型在多个基准测试中表现卓越DeepSeek - R1 - Distill - Qwen - 32B在AIME 2024上实现了72.6%的Pass1在MATH - 500上实现了94.3%的Pass1 。三蒸馏模型架构与训练优化 1. 架构设计教师模型选择自主研发的671B参数的DeepSeek - R1其强大推理能力和广泛知识覆盖为蒸馏提供基础。学生模型基于Qwen和Llama系列架构在计算效率和内存占用上表现出色。蒸馏模型采用层次化特征提取机制让学生模型学习教师模型多层特征表示理解数据结构和模式设计多任务适应性机制使学生模型针对不同任务优化运用参数共享与压缩技术减少参数数量和存储需求引入轻量化模块设计降低计算复杂度。 2. 训练过程与优化训练数据主要来自教师模型生成的推理数据样本并采用数据增强技术提高数据多样性。训练时采用监督微调将教师模型知识迁移到学生模型设计混合损失函数结合软标签损失和硬标签损失。优化方法上引入温度参数调整软标签分布采用动态学习率调整策略确保训练稳定性和收敛速度使用正则化技术如L2正则化项避免过拟合。蒸馏模型的性能优势一推理效率提升 DeepSeek蒸馏模型在推理效率上显著提升。参数量大幅减少如DeepSeek - R1 - Distill - Qwen - 7B仅7B参数计算复杂度降低减少推理所需计算资源内存占用减少DeepSeek - R1 - Distill - Llama - 8B内存占用仅为原始模型的1/80左右推理速度大幅提高DeepSeek - R1 - Distill - Qwen - 32B处理复杂推理任务时推理速度比原始模型提高约50倍。二性能与原始模型对比通过高效知识迁移策略DeepSeek蒸馏模型在性能上接近甚至超越原始大型模型。采用监督微调将教师模型推理数据样本用于学生模型训练使其学习关键知识和推理模式。在多个基准测试中DeepSeek蒸馏模型表现出色DeepSeek - R1 - Distill - Qwen - 7B在AIME 2024基准测试中超越QwQ - 32B - PreviewDeepSeek - R1 - Distill - Qwen - 32B在AIME 2024和MATH - 500上也取得优异成绩。模型蒸馏技术面临的挑战一突破蒸馏的“隐性天花板” 尽管模型蒸馏技术取得显著成效但仍面临“隐性天花板”挑战。学生模型性能难以超越教师模型固有能力在多模态数据处理等复杂任务中学生模型推理能力受教师模型固有模式限制难以实现深层次创新。二多模态数据的蒸馏挑战多模态数据图像、文本、语音等的蒸馏面临诸多难题。不同模态数据特征和结构差异大数据融合难度高语义对齐困难需确保不同模态数据在语义层面准确对应计算资源需求大处理多模态数据增加蒸馏过程的计算复杂度。模型蒸馏技术作为模型优化的重要手段在提升模型运行效率、降低资源消耗方面成果显著尤其像DeepSeek在技术创新和应用上取得了突出成绩。然而面对“隐性天花板”和多模态数据蒸馏等挑战未来还需更多研究与探索以推动模型蒸馏技术进一步发展拓展其在更多领域的应用。 #关于 DeepSeek 的深度答疑深入探讨DeepSeek的技术突破及其对AI行业的影响。 Ben Thompson 是科技领域最具洞察力的分析师之一他的博客 Stratechery 以其对科技行业的深度分析和前瞻性预测而闻名。 Q为什么你还没写关于DeepSeek的文章 Ben Thompson我写了我上周二就写了关于R1的内容。我依然认可那篇文章的观点包括我强调的两个关键点通过纯强化学习实现的涌现链式思维以及知识蒸馏的强大威力。我也提到了低训练成本以及芯片禁令的影响。但我当时的观察过于局限于当前AI技术的发展而我完全没有预见到这条新闻在更宏观的讨论层面特别是在美中关系方面会引发如此广泛的影响。 Q有过类似的误判吗不明白为什么此处发不了.....

查看全文

http://www.w-s-a.com/news/750573/