当前位置：首页 > news >正文

长安做外贸网站电子商务这个专业好吗

news 2025/12/21 12:12:19

长安做外贸网站,电子商务这个专业好吗,网站空间域名免费,php做的网站怎么打开构建和改进推理模型的方法与策略本文描述了构建推理模型的四种主要方法#xff0c;以及我们如何增强大型语言模型#xff08;LLM#xff09;的推理能力。我希望这能为你提供有价值的见解#xff0c;并帮助你了解这一领域快速发展的文献和热潮。在2024年#xff0c;LLM… 构建和改进推理模型的方法与策略本文描述了构建推理模型的四种主要方法以及我们如何增强大型语言模型LLM的推理能力。我希望这能为你提供有价值的见解并帮助你了解这一领域快速发展的文献和热潮。在2024年LLM领域的专业化趋势愈发明显。除了预训练和微调之外我们见证了从RAG到代码助手等专门应用的发展。我预计这种趋势将在2025年进一步加速对特定领域和应用程序的优化将更加突出即“专业化”。阶段1至3是开发LLM的通用步骤。阶段4则是针对特定应用场景对LLM进行专业化处理。推理模型的发展就是这一专业化的体现之一。这意味着我们通过改进使LLM在需要中间步骤解决复杂任务如谜题、高级数学和编程挑战方面表现得更好。然而这种专业化并不能取代其他LLM应用。因为将LLM转变为推理模型也会带来一些缺点我将在后续内容中讨论这些问题。为了让你对以下内容有一个初步的了解在本文中将 1.解释“推理模型”的含义 2.讨论推理模型的优点和缺点 3.概述DeepSeek R1的方法论 4.描述构建和改进推理模型的四种主要方法 5.分享关于DeepSeek V3和R1发布后大语言模型领域的看法 6.提供在预算有限的情况下开发推理模型的建议希望本文对您有用随着人工智能在今年继续快速发展我们如何定义“推理模型” 如果您从事AI或一般机器学习工作您可能熟悉模糊且备受争议的定义。术语“推理模型”也不例外。最终某人会在论文中对其进行正式定义但在接下来的一篇论文中又会被重新定义。在这篇文章中我将“推理”定义为回答需要复杂多步骤生成的问题的过程并包含中间步骤。例如“法国的首都是什么”这样的事实性问题问答并不涉及推理。相反像“如果火车以每小时60英里的速度行驶3个小时它走了多远”这样的一道题则需要一些简单的推理过程。比如在得出答案之前必须认识到距离、速度和时间之间的关系。一个普通的LLM可能只会提供简短的答案如图左所示而推理模型通常会包含揭示部分思维过程的中间步骤。请注意许多未专门开发用于推理任务的大语言模型也可以在答案中提供中间推理步骤。大多数现代大型语言模型LLM能够进行基本的推理并能回答诸如“如果一列火车以60英里/小时的速度行驶3小时它会走多远”这样的问题。因此今天当我们提到推理模型时通常指的是那些擅长更复杂的推理任务的LLM例如解谜题、猜谜语和数学证明。此外当今大多数被标榜为推理模型的LLM在其响应中包含一个“思维”或“思考”过程。LLM是否以及如何真正“思考”是另一个讨论的话题。在推理模型中的中间步骤可以以两种方式出现。首先它们可能明确地包含在响应中如前所述图表所示。其次一些推理LLM例如OpenAI的o1会进行多次迭代并且这些中间步骤不会显示给用户。 “推理”在两个不同的层面使用 1通过多个中间步骤处理输入并生成输出 2作为对用户响应的一部分提供某种形式的推理。我们何时应该使用推理模型既然我们已经定义了推理模型我们现在可以进入更有趣的部分如何构建和改进LLM以进行推理任务。然而在深入技术细节之前考虑实际需要推理模型的情况是很重要的。我们何时需要一个推理模型推理模型设计用于处理复杂任务如解谜、高级数学问题和具有挑战性的编码任务。然而对于摘要生成、翻译或基于知识的问题回答等较为简单的任务而言并不需要使用推理模型。事实上为所有任务都使用推理模型可能会导致效率低下且成本高昂。例如推理模型通常使用起来更昂贵表述更为冗长在某些情况下还可能因为“过度思考”而更容易出错。在这里有一个简单的原则适用为任务选择合适的工具或类型的大型语言模型。推理模型的关键优势和局限性总结如下图所示。推理模型的关键优势和劣势。对DeepSeek训练流程的简要概述在下一节讨论构建和完善推理模型的四种主要方法之前我想先简要介绍DeepSeek R1管道这是根据DeepSeek R1技术报告描述的。该报告既是一个有趣的案例研究也是一个开发推理大型语言模型的设计蓝图。需要注意的是DeepSeek并没有发布单一版本的R1推理模型而是引入了三个不同的变体DeepSeek-R1-Zero、DeepSeek-R1和DeepSeek-R1-Distill。根据技术报告中的描述我总结了这些模型的发展过程如下图所示。在下面的图中 DeepSeeks三种不同的推理模型的开发过程这些模型在DeepSeek R1技术报告中有所讨论。接下来让我们简要回顾一下上面图表所示的过程。更多细节将在下一节中介绍在那里我们将讨论构建和改进推理模型的四种主要方法。 (1) DeepSeek-R1-Zero: 该模型基于2024年12月发布的671B预训练DeepSeek-V3基础模型进行开发研究团队通过强化学习RL对其进行训练并使用两种类型的奖励。这种方法被称为“冷启动”训练因为它没有包括通常作为人类反馈强化学习RLHF的一部分的监督微调SFT步骤。 (2) DeepSeek-R1: 这是DeepSeek的主要推理模型在DeepSeek-R1-Zero的基础上构建而成。团队进一步通过额外的SFT阶段和更多的RL训练对其进行改进从而优化了“冷启动”的R1-Zero模型。 (3) DeepSeek-R1-Distill: 利用前一步骤生成的SFT数据DeepSeek团队对Qwen和Llama模型进行了微调以增强其推理能力。虽然这并非传统意义上的蒸馏过程但该流程涉及使用较小规模的模型如8B版、70B版的Llama以及1.5B至30B版的Qwen来训练大型DeepSeek-R1 671B模型产生的输出。构建和改进推理模型的主要四种方法在本节中我将概述当前用于提升LLM大语言模型推理能力并构建类似DeepSeek-R1、OpenAI的o1 o3等专用推理模型的关键技术。注意o1 和 o3 的具体运作方式目前外界尚不清楚但据说它们结合了推理和训练技术。 1) 推理时间扩展提高大型语言模型LLM的推理能力或一般能力的一种方法是推理时间扩展。这个术语可以有多种含义但在这种情况下它指的是在推理过程中增加计算资源以改善输出质量。一个粗糙的类比是人类在解决复杂问题时如果给予更多思考时间往往会生成更好的回答。同样地我们可以应用鼓励 LLM 在生成答案时“思考”更多的技术。虽然LLM是否真的能够“思考”是一个不同的讨论推理时间扩展的一个直接方法就是巧妙的提示工程。一个经典例子是_链式思维CoT提示法_其中输入提示中包括诸如 “逐步思考”之类的短语。这鼓励模型在生成最终答案之前产生中间推理步骤而这通常但并非总是会导致更复杂问题上的结果更加准确。需要注意的是在处理如“法国的首都是什么”的简单知识性问题时这种方法是不合适的这也是一条很好的规则来判断某个推理模型是否适用于您的输入查询。 **来自 2022 年《大型语言模型是零样本推理者》论文 https://arxiv.org/abs/2205.11916的经典 CoT 提示法示例。**上述CoT方法可以视为推理时的扩展因为它通过生成更多的输出令牌使推理变得更昂贵。另一种推理时扩展的方法是使用投票和搜索策略。一个简单的例子就是多数表决法即让大模型生成多个答案并通过多数表决来选择正确的答案。同样地我们也可以利用束搜索和其他搜索算法生成更好的响应。我强烈推荐我在《2024年值得关注的AI研究论文第二部分》一文中提到的论文——优化LLM推理时计算资源分配的有效性可能超过扩展模型参数以获取有关这些不同策略的更多细节。《DeepSeek R1技术报告》指出其模型不使用推理时的扩展。然而这种技术通常在大模型之上以应用程序层的形式实现因此DeepSeek有可能在其应用中使用这种方法。我怀疑OpenAI的o1和o3模型使用了推理时间扩展这可以解释为什么它们相对于像GPT-4o这样的模型来说相对昂贵。除了推理时间扩展外o1和o3很可能使用类似于DeepSeek R1所使用的强化学习RL管道进行训练。更多关于强化学习的内容请参见下面的两个部分。 2) 纯粹的强化学习RL 《DeepSeek R1论文》中我个人的一个亮点是他们发现纯粹的强化学习RL可以产生推理行为。让我们更详细地探讨这意味着什么。如前所述DeepSeek开发了三种类型的R1模型。第一种是DeepSeek-R1-Zero它是基于在2024年12月发布的标准预训练大语言模型DeepSeek-V3基础模型构建的。与典型的RL管道不同在典型的RL管道中监督微调SFT会先于RL进行应用而DeepSeek-R1-Zero完全使用强化学习进行训练并没有初始的SFT阶段如下面的图所示。 DeepSeek-R1-Zero模型的开发过程。仍然这种强化学习RL过程与常用的基于人类反馈的强化学习RLHF方法类似通常用于调整大语言模型的偏好。然而如上所述在DeepSeek-R1-Zero 中的关键区别在于他们跳过了用于指令微调的监督微调SFT阶段。这就是为什么他们称其为“纯粹”的RL。对于奖励机制他们没有使用基于人类偏好的训练奖励模型而是采用了两种类型的奖励准确性奖励和格式化奖励。准确性奖励使用LeetCode编译器来验证编程答案并采用确定性系统评估数学回答。格式化奖励依赖于大型语言模型裁判确保回复遵循预期的格式例如将推理步骤放在标签中。令人惊讶的是这种方法足以使大型语言模型发展出基本的推理能力。研究人员观察到了一个“啊哈”时刻在这个时刻尽管没有被明确训练过这样做该模型开始在其响应中生成推理痕迹如下面的图所示。 A figure from the DeepSeek R1 technical report (https://arxiv.org/abs/2501.12948) showing the emergence of the “Aha” moment. 虽然R1-Zero不是一款高性能的推理模型但它确实展示了通过生成中间“思考”步骤来体现推理能力如上图所示。这证实了仅使用纯粹的强化学习RL方法也可以开发出一个推理模型并且DeepSeek团队是第一个展示这种方法或至少公开发表这种方法的团队。 3) 监督微调与强化学习SFT RL 接下来让我们看看DeepSeek-R1的发展历程这是DeepSeek旗舰级推理模型为构建推理模型提供了蓝图。该模型在DeepSeek-R1-Zero的基础上通过加入额外的监督微调SFT和强化学习RL来提升其推理性能。需要注意的是在标准的RLHF管道中通常会在强化学习之前包含一个监督微调阶段。OpenAI的o1可能也是使用类似的方法开发出来的。 DeepSeek-R1模型的发展过程。如上图所示DeepSeek团队使用DeepSeek-R1-Zero生成了他们所谓的“冷启动”SFT数据。“冷启动”是指这些数据是由未经过任何监督微调SFT训练的DeepSeek-R1-Zero产生的。使用这些冷启动SFT数据DeepSeek然后通过指令微调训练模型并随后进入另一个强化学习RL阶段。这一RL阶段保留了在DeepSeek-R1-Zero的RL过程中使用的相同准确性和格式奖励。然而他们添加了一致性奖励以防止语言混用现象的发生即当模型在一个回复中切换使用多种语言时的情况。在完成RL阶段后又进行了一轮SFT数据收集。在此阶段使用最新的模型检查点生成了60万条链式思考CoTSFT示例而额外的20万个基于知识的SFT示例则是利用DeepSeek-V3基础模型创建的。这些共计60万加20万的SFT样本随后被用于另一轮RL。在这个阶段他们再次采用规则方法为数学和编程问题提供准确性奖励而对于其他类型的问题则使用人类偏好标签进行训练。最终的模型DeepSeek-R1相较于DeepSeek-R1-Zero有了显著的性能提升这得益于额外的SFT和RL阶段如下面的表格所示。 4) 纯监督微调SFT和蒸馏到目前为止我们已经介绍了构建和完善推理模型的三种关键方法 1.推理时间扩展一种在不训练或修改底层模型的情况下提高推理能力的技术。 2.纯粹的强化学习RL如DeepSeek-R1-Zero所示证明了在没有监督微调的情况下推理可以作为学习行为出现。 3.监督微调SFT加上RL这导致了DeepSeek旗舰推理模型DeepSeek-R1的诞生。那么还剩下什么呢就是“蒸馏”模型。令人惊讶的是DeepSeek也发布了通过他们称之为“蒸馏”的过程训练的小型模型。然而在大型语言模型LLM的背景下“蒸馏”并不一定遵循深度学习中传统的知识蒸馏方法。相反在这里“蒸馏”指的是对较小的语言模型例如Llama 8B、70B以及Qwen 2.5等模型[0.5B到32B]进行指令微调这些小型语言模型由更大的LLM生成的SFT数据集进行训练。具体来说这里的大型LLM包括DeepSeek-V3和DeepSeek-R1的一个中间检查点。事实上在这个蒸馏过程中使用的SFT数据是与之前描述中用于训练DeepSeek-R1的数据相同的。为了更清晰地解释这一过程我在下面的图表中标明了“蒸馏”部分。 DeepSeek-R1-Distill模型的发展过程。他们为什么要开发这些蒸馏后的模型呢在我看来主要有两个关键原因 1.较小的模型更加高效。这意味着它们运行成本更低而且可以在低端硬件上运行这对于许多研究人员和爱好者来说尤其有吸引力。 2.一个纯粹监督微调SFT的案例研究。这些蒸馏后的模型作为有趣的基准展示了在没有强化学习的情况下纯监督微调可以将模型提升到什么程度。下表比较了这些蒸馏后模型与其他流行模型以及DeepSeek-R1-Zero和DeepSeek-R1的性能表现。蒸馏模型与非蒸馏模型的基准对比。DeepSeek-R1 技术报告中的注释图表https://arxiv.org/abs/2501.12948。从上图可以看出蒸馏后的模型明显弱于 DeepSeek-R1但相对于 DeepSeek-R1-Zero 而言却相当强大尽管其大小要小得多。此外值得一提的是这些模型与 o1 mini 的性能对比也非常出色我怀疑 o1-mini 本身可能也是一个类似的蒸馏版本。在本节的结论部分结束之前还有一个有趣的比较值得提及。DeepSeek 团队测试了 DeepSeek-R1-Zero 中出现的突发推理行为是否也存在于较小规模的模型中。为此他们直接将与 DeepSeek-R1-Zero 相同的纯 RL 方法应用于 Qwen-32B 进行探究。该实验的结果总结如下表所示其中QwQ-32B-Preview是基于Qwen团队开发的Qwen 2.5 32B模型的一个参考推理模型我认为训练细节从未披露过。这种比较提供了一些额外的见解即纯RL是否足以在比DeepSeek-R1-Zero小得多的模型中诱导出推理能力。在较小的32B模型上进行基准测试比较蒸馏和RL。来自DeepSeek-R1技术报告中的注释图表https://arxiv.org/abs/2501.12948。有趣的是结果显示对于较小的模型来说蒸馏比纯RL更有效。这与这样一种观点一致即仅靠RL可能不足以在这一规模的模型中诱导出强大的推理能力而基于高质量推理数据的SFT策略可能会对小模型更为有效。为了完整性在表格中看到以下额外比较会很有用 1.使用SFTRL训练Qwen-32B类似于DeepSeek-R1的开发方式。这将有助于确定与纯RL和纯SFT相比当结合使用SFT时可以取得多少改进。 2.仅通过SFT训练DeepSeek-V3类似于蒸馏模型的创建方法这样可以直接比较RLSFT与纯SFT的效果。结论在本节中我们探讨了四种不同的策略用于构建和改善推理模型 1.推理时间缩放不需要额外的训练但会增加推理成本在用户数量或查询量增长时使得大规模部署更加昂贵。然而它仍然是改进已经强大的模型性能的一种明智选择。我强烈怀疑o1利用了推理时间缩放这有助于解释为什么与DeepSeek-R1相比它的每令牌费用更高。 2.从研究角度来看纯强化学习RL很有意思因为它能提供关于作为涌现行为的推理的一些见解。然而在实际模型开发中RLSFT是更受欢迎的方法因为这种方法可以生成更强的推理模型。我强烈怀疑o1也是使用了RLSFT进行训练。更加精确地说我认为o1从一个比DeepSeek-R1弱小的基础模型开始但通过RLSFT和推理时间缩放来进行弥补。 3.如上所述RLSFT是构建高性能推理模型的关键方法。DeepSeek-R1是一个很好的蓝本展示了如何做到这一点。 4.蒸馏是一种很有吸引力的方法尤其是在创建更小、更高效的模型时尤为如此。然而其限制在于蒸馏不能驱动创新或产生下一代的推理模型。例如蒸馏总是依赖于一个现有的更强模型来生成监督微调SFT数据。我期待接下来看到的一个有趣方面是将RLSFT方法3与推理时间缩放方法1结合使用。这很可能就是OpenAI o1正在做的事情除了它可能是基于比DeepSeek-R1更弱的基础模型这也解释了为什么DeepSeek-R1在性能上如此出色而同时保持相对较低的推理成本。关于DeepSeek R1 的思考令人着迷的一个收获是纯粹基于强化学习RL的行为推理是如何出现的。并且令人大为赞赏的是DeepSeek在其模型下使用了一个宽松的开源MIT许可证进行开源这甚至比Meta的Llama模型的限制还要少。与o1相比如何 DeepSeek-R1是否优于o1我认为两者大致处于同一水平线上。然而显而易见的是DeepSeek-R1在推理阶段更加高效。这意味着DeepSeek可能更多地投入到了训练过程中而OpenAI则可能更依赖于o1的推理时间扩展。话虽如此由于OpenAI对o1披露的信息不多因此直接比较两者存在困难。例如 o1是否也是一个专家混合模型MoE o1有多大 o1仅仅是GPT-4o的一个稍微改进版本并且仅通过最小限度的强化学习和大量推理时间扩展得到吗在不了解这些细节的情况下这种对比犹如将苹果与橙子相比。训练DeepSeek-R1的成本另一个讨论的话题是开发DeepSeek-R1所需的成本。有些人提到了大约600万美元的培训成本但他们可能混淆了DeepSeek-V3去年十二月发布的基础模型和DeepSeek-R1之间的区别。该估计值基于每GPU小时2美元以及完成DeepSeek-V3最终训练所需的GPU小时数这一数据最初是在2024年十二月讨论的。然而DeepSeek团队从未公开过R1的确切GPU时长或开发成本因此任何成本估算都只是纯粹的猜测。无论如何最终DeepSeek-R1是开放权重推理模型中的一个重要里程碑其在推断时的效率使其成为OpenAI的o1的一个有趣的替代选择。在有限预算下开发推理模型开发一个像DeepSeek-R1这样的推理模型可能需要数十万到数百万美元的资金即使是从像DeepSeek-V3这样的开源基础模型开始。这可能会让资金有限的研究人员或工程师感到沮丧。好消息蒸馏可以带来很大的帮助幸运的是模型蒸馏提供了一种更具成本效益的替代方案。DeepSeek团队通过他们的R1蒸馏模型展示了这一点这些模型虽然比DeepSeek-R1小得多但推理性能却非常强。然而即使这种方法也不是完全便宜的。他们的蒸馏过程使用了80万条SFT样本这需要大量的计算资源。有趣的是在DeepSeek-R1发布前几天我遇到了一篇关于Sky-T1的文章https://novasky-ai.github.io/posts/sky-t1/这是一个令人惊叹的项目一个小型团队仅使用17,000个SFT样本就训练了一个开放权重的32B模型。总成本是多少只有450美元这比大多数AI会议的注册费还要低。这个例子表明虽然大规模训练仍然很昂贵但较小、有针对性的微调工作仍可以在极低的成本下取得令人印象深刻的结果。图片来自“Sky-T1在450美元内训练自己的O1预览模型”文章https://novasky-ai.github.io/posts/sky-t1/根据他们的基准测试Sky-T1 的性能大致与 o1 相当这在考虑到其低训练成本的情况下令人印象深刻。预算有限的纯粹强化学习TinyZero 虽然 Sky-T1 专注于模型蒸馏我也发现了一些有趣的“纯 RL”领域的工作。一个值得注意的例子是 TinyZero这是一个参数量为30亿的小型模型它复制了 DeepSeek-R1-Zero 的方法顺便说一下它的训练成本不到 30 美元。令人惊讶的是即使只有 30 亿个参数TinyZero 也展现了一些自发的自我验证能力这支持了纯粹通过 RL 方式在小模型中也可以产生推理这一观点。 TinyZero 存储库提到一份研究报告仍在进行中我肯定会密切关注进一步的细节更新。来自 TinyZero 存储库 (https://github.com/Jiayi-Pan/TinyZero) 的一个图表显示模型具备自我验证的能力。与基础模型相比其反应将会更有趣。上述两个项目表明即使在有限的预算下研究推理模型也是可能的。虽然两种方法都复制了 DeepSeek-R1 的方法一种专注于纯 RLTinyZero另一种则专注纯 SFTSky-T1探索这些想法如何进一步拓展会非常令人着迷。

查看全文

http://www.w-s-a.com/news/462493/