当前位置: 首页 > news >正文

怎么建设两个大淘客网站成品短视频软件大全下载手机版

怎么建设两个大淘客网站,成品短视频软件大全下载手机版,网站建设开发模式h5,园林景观设计公司设计理念注#xff1a;此文章内容均节选自充电了么创始人#xff0c;CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》#xff08;人工智能科学与技术丛书#xff09;【陈敬雷编著】【清华大学出版社】 文章目录 DeepSeek大模型技术系列三DeepSeek大模型技术系列三》DeepSeek-…注此文章内容均节选自充电了么创始人CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》人工智能科学与技术丛书【陈敬雷编著】【清华大学出版社】 文章目录 DeepSeek大模型技术系列三DeepSeek大模型技术系列三》DeepSeek-R1通过强化学习激发大语言模型的推理能力更多技术内容 总结 DeepSeek大模型技术系列三 DeepSeek大模型技术系列三》DeepSeek-R1通过强化学习激发大语言模型的推理能力 摘要 DeepSeek-R1推理模型包括 DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是通过大规模强化学习RL训练的模型无需将监督微调SFT作为初始步骤展现出卓越的推理能力。通过强化学习DeepSeek-R1-Zero 自然涌现出众多强大且有趣的推理行为。然而它也面临一些挑战如可读性差和语言混杂等问题。为解决这些问题并进一步提升推理性能我们推出了 DeepSeek-R1它在强化学习之前融入了多阶段训练和冷启动数据。DeepSeek-R1 在推理任务上的性能与 OpenAI-o1-1217 相当。为支持研究社区我们开源了 DeepSeek-R1-Zero、DeepSeek-R1以及基于 Qwen 和 Llama 从 DeepSeek-R1 中提炼出的六个密集模型15 亿、70 亿、80 亿、140 亿、320 亿、700 亿参数。 图 1 DeepSeek-R1 的基准测试性能 目录 1.引言 3 2.方法 5 2.1 概述 5 2.2 DeepSeek-R1-Zero基于基础模型的强化学习 5 2.2.1 强化学习算法 5 2.2.2 奖励建模 6 2.2.3 训练模板 6 2.2.4 DeepSeek-R1-Zero 的性能、自我进化过程和顿悟时刻 6 2.3 DeepSeek-R1冷启动强化学习 9 2.3.1 冷启动 9 2.3.2 面向推理的强化学习 10 2.3.3 拒绝采样和监督微调 10 2.3.4 全场景强化学习 11 2.4 蒸馏赋予小模型推理能力 11 3.实验 11 3.1 DeepSeek-R1 评估 13 3.2 蒸馏模型评估 14 4.讨论 14 4.1 蒸馏与强化学习 14 4.2 失败尝试 15 5.结论、局限性和未来工作 16 附录 A 贡献和致谢 20 1. 引言 近年来大语言模型LLMs经历了快速的迭代和演进Anthropic, 2024; Google, 2024; OpenAI, 2024a与通用人工智能AGI的差距逐渐缩小。 最近后训练已成为完整训练流程的重要组成部分。研究表明后训练能提高推理任务的准确性使模型符合社会价值观并适应用户偏好同时与预训练相比所需的计算资源相对较少。在推理能力方面OpenAI 的 o1OpenAI, 2024b系列模型率先通过增加思维链推理过程的长度来进行推理时缩放。这种方法在数学、编码和科学推理等各种推理任务中取得了显著改进。然而如何在测试时进行有效缩放仍然是研究界面临的一个开放性问题。此前有多项研究探索了各种方法包括基于过程的奖励模型Lightman 等人2023; Uesato 等人2022; Wang 等人2023、强化学习Kumar 等人2024以及蒙特卡洛树搜索和束搜索等搜索算法Feng 等人2024; Trinh 等人2024; Xin 等人2024。然而这些方法中没有一种能在通用推理性能上与 OpenAI 的 o1 系列模型相媲美。 在本文中我们迈出了使用纯强化学习RL提升语言模型推理能力的第一步。我们的目标是探索大语言模型在不依赖任何监督数据的情况下发展推理能力的潜力重点关注它们如何通过纯强化学习过程实现自我进化。具体来说我们使用 DeepSeek-V3-Base 作为基础模型并采用 GRPOShao 等人2024作为强化学习框架以提高模型在推理任务中的性能。在训练过程中DeepSeek-R1-Zero 自然涌现出众多强大且有趣的推理行为。经过数千步的强化学习训练DeepSeek-R1-Zero 在推理基准测试中表现出色。例如在 2024 年美国数学邀请赛AIME上其单次通过率pass1从 15.6% 提升到了 71.0%通过多数投票这一分数进一步提高到 86.7%与 OpenAI-o1-0912 的性能相当。 然而DeepSeek-R1-Zero 也面临着诸如可读性差和语言混杂等挑战。为解决这些问题并进一步提升推理性能我们推出了 DeepSeek-R1它结合了少量冷启动数据和多阶段训练流程。具体而言我们首先收集数千条冷启动数据来微调 DeepSeek-V3-Base 模型。之后我们像训练 DeepSeek-R1-Zero 一样进行面向推理的强化学习。在强化学习过程接近收敛时我们通过对强化学习检查点进行拒绝采样结合来自 DeepSeek-V3 在写作、事实性问答和自我认知等领域的监督数据创建新的监督微调SFT数据然后重新训练 DeepSeek-V3-Base 模型。用新数据微调后检查点再进行一轮强化学习同时考虑所有场景的提示。经过这些步骤我们得到了一个名为 DeepSeek-R1 的检查点其性能与 OpenAI-o1-1217 相当。 我们进一步探索了从 DeepSeek-R1 到较小密集模型的知识蒸馏。以 Qwen2.532BQwen, 2024b为基础模型直接从 DeepSeek-R1 进行蒸馏的效果优于在其基础上应用强化学习。这表明较大基础模型发现的推理模式对于提升推理能力至关重要。我们开源了经过蒸馏的 Qwen 和 LlamaDubey 等人2024系列模型。值得注意的是我们蒸馏得到的 140 亿参数模型在性能上大幅超越了之前最先进的开源模型 QwQ-32B-PreviewQwen, 2024a而蒸馏得到的 320 亿和 700 亿参数模型在密集模型的推理基准测试中创下了新纪录。 1.1 贡献 后训练基于基础模型的大规模强化学习 我们直接在基础模型上应用强化学习而不依赖监督微调SFT作为初始步骤。这种方法使模型能够探索思维链CoT来解决复杂问题从而开发出 DeepSeek-R1-Zero。DeepSeek-R1-Zero 展现出自我验证、反思和生成长思维链等能力为研究界树立了重要的里程碑。值得注意的是这是首次通过公开研究验证大语言模型的推理能力可以纯粹通过强化学习激发而无需监督微调。这一突破为该领域未来的发展铺平了道路。 我们介绍了开发 DeepSeek-R1 的流程。该流程包含两个强化学习阶段旨在发现更好的推理模式并符合人类偏好还包含两个监督微调阶段为模型的推理和非推理能力奠定基础。我们相信这一流程将有助于创建更优秀的模型使整个行业受益。 蒸馏小模型也能强大 我们证明了可以将大模型的推理模式蒸馏到小模型中与小模型通过强化学习发现的推理模式相比能带来更好的性能提升。开源的 DeepSeek-R1 及其 API 将有助于研究社区在未来蒸馏出更出色的小模型。 我们使用 DeepSeek-R1 生成的推理数据对研究社区中广泛使用的几个密集模型进行微调。评估结果表明蒸馏得到的较小密集模型在基准测试中表现优异。DeepSeek-R1-Distill-Qwen-7B 在 2024 年 AIME 上的得分为 55.5%超过了 QwQ-32B-Preview。此外DeepSeek-R1-Distill-Qwen-32B 在 2024 年 AIME 上的得分达到 72.6%在 MATH-500 上达到 94.3%在 LiveCodeBench 上达到 57.2%。这些结果显著优于之前的开源模型与 o1-mini 相当。我们向社区开源了基于 Qwen2.5 和 Llama3 系列的 15 亿、70 亿、80 亿、140 亿、320 亿和 700 亿参数的蒸馏检查点。 1.2 评估结果总结 推理任务1DeepSeek-R1 在 2024 年 AIME 上的单次通过率Pass1达到 79.8%略高于 OpenAI-o1-1217。在 MATH-500 上它取得了令人瞩目的 97.3% 的分数与 OpenAI-o1-1217 表现相当显著超越其他模型。2在与编码相关的任务中DeepSeek-R1 在代码竞赛任务中展现出专家级水平在 Codeforces 上获得 2029 的 Elo 评级超过了竞赛中 96.3% 的人类参与者。对于工程相关任务DeepSeek-R1 的表现略优于 DeepSeek-V3这对实际工作中的开发者有帮助。 **知识**在 MMLU、MMLU-Pro 和 GPQA Diamond 等基准测试中DeepSeek-R1 取得了出色的成绩在 MMLU 上得分为 90.8%在 MMLU-Pro 上为 84.0%在 GPQA Diamond 上为 71.5%显著超越 DeepSeek-V3。虽然在这些基准测试中其性能略低于 OpenAI-o1-1217但 DeepSeek-R1 超过了其他闭源模型在教育任务中展现出竞争优势。在事实性基准测试 SimpleQA 上DeepSeek-R1 的表现优于 DeepSeek-V3证明了它处理基于事实查询的能力。在这个基准测试中OpenAI-o1 也超过了 GPT-4o呈现出类似的趋势。 其他DeepSeek-R1 在广泛的任务中也表现出色包括创意写作、通用问答、编辑、总结等。它在 AlpacaEval 2.0 上的长度控制胜率达到 87.6%在 ArenaHard 上的胜率为 92.3%展示了其智能处理非考试类查询的强大能力。此外DeepSeek-R1 在需要长上下文理解的任务中表现突出在长上下文基准测试中大幅超越 DeepSeek-V3。 2. 方法 2.1 概述 以往的工作严重依赖大量监督数据来提升模型性能。在本研究中我们证明了即使不使用监督微调SFT作为冷启动通过大规模强化学习RL也能显著提升推理能力。此外加入少量冷启动数据可以进一步提高性能。在接下来的部分我们将介绍1DeepSeek-R1-Zero它直接在基础模型上应用强化学习不使用任何监督微调数据2DeepSeek-R1它从用数千条长思维链CoT示例微调后的检查点开始应用强化学习3将 DeepSeek-R1 的推理能力蒸馏到小密集模型中。 2.2 DeepSeek-R1-Zero基于基础模型的强化学习 强化学习在推理任务中已显示出显著的有效性我们之前的工作Shao 等人2024; Wang 等人2023已证明了这一点。然而这些工作严重依赖监督数据而收集监督数据非常耗时。在本节中我们探索大语言模型在不依赖任何监督数据的情况下发展推理能力的潜力重点关注它们如何通过纯强化学习过程实现自我进化。我们首先简要介绍我们的强化学习算法然后展示一些令人兴奋的结果希望能为研究社区提供有价值的见解。 2.2.1 强化学习算法组相对策略优化 为节省强化学习的训练成本我们采用组相对策略优化GRPOShao 等人2024。该方法摒弃了通常与策略模型大小相同的价值评估模型而是从组得分中估计基线。具体来说对于每个问题 qGRPO 从旧策略中采样一组输出然后通过最大化以下目标来优化策略模型 其中和是超参数是优势值通过计算每组输出对应的一组奖励得到 ——————————————————————————————— 用户与助手进行对话。用户提出问题助手进行解答。助手先在脑海中思考推理过程然后为用户提供答案。推理过程和答案分别包含在 和 标签内即 此处为推理过程 此处为答案 。用户提示。助手 ——————————————————————————————— **表 1 DeepSeek-R1-Zero 的模板。**训练期间提示将被具体的推理问题替换。 2.2.2 奖励建模 奖励是训练信号的来源决定了强化学习的优化方向。为训练 DeepSeek-R1-Zero我们采用基于规则的奖励系统主要包含两种类型的奖励 准确率奖励准确率奖励模型用于评估回答是否正确。例如对于有确定答案的数学问题模型需要按照指定格式如在框内给出最终答案以便基于规则可靠地验证正确性。同样对于 LeetCode 问题可以使用编译器根据预定义的测试用例生成反馈。 格式奖励除了准确率奖励模型我们还采用格式奖励模型要求模型将其思考过程放在‘’和‘’标签之间。 在开发 DeepSeek-R1-Zero 时我们没有应用结果或过程神经奖励模型因为我们发现神经奖励模型在大规模强化学习过程中可能会出现奖励作弊问题而且重新训练奖励模型需要额外的训练资源会使整个训练流程变得复杂。 2.2.3 训练模板 为训练 DeepSeek-R1-Zero我们首先设计了一个简单的模板引导基础模型遵循我们指定的指令。如表 1 所示该模板要求 DeepSeek-R1-Zero 首先生成推理过程然后给出最终答案。我们有意将约束限制在这种结构格式上避免任何特定内容的偏差例如强制要求反思性推理或推广特定的问题解决策略以确保我们能准确观察模型在强化学习过程中的自然发展。 2.2.4 DeepSeek-R1-Zero 的性能、自我进化过程和顿悟时刻 DeepSeek-R1-Zero 的性能图 2 展示了 DeepSeek-R1-Zero 在 2024 年 AIME 基准测试中整个强化学习训练过程的性能变化轨迹。可以看出随着强化学习训练的推进DeepSeek-R1-Zero 的性能稳步提升。值得注意的是2024 年 AIME 上的平均单次通过率pass1显著提高从最初的 15.6% 跃升至令人瞩目的 71.0%达到了与 OpenAI-o1-0912 相当的性能水平。这一显著改进凸显了我们的强化学习算法在优化模型性能方面的有效性。 **表 2 对 DeepSeek-R1-Zero 和 OpenAI 的 o1-0912 模型在各种推理相关基准测试中的表现进行了对比分析。**结果显示强化学习使 DeepSeek-R1-Zero 在无需任何监督微调数据的情况下获得了强大的推理能力。这是一项值得关注的成就它强调了该模型仅通过强化学习就能有效学习和泛化的能力。此外通过多数投票DeepSeek-R1-Zero 的性能还能进一步提升。例如在 AIME 基准测试中采用多数投票时其性能从 71.0% 提升到 86.7%超过了 OpenAI-o1-0912 的性能。无论是否采用多数投票DeepSeek-R1-Zero 都能取得具有竞争力的性能这突出了其强大的基础能力以及在推理任务中进一步提升的潜力。 图 2 DeepSeek-R1-Zero 在训练期间 AIME 准确率。对于每个问题我们采样 16 个回答并计算总体平均准确率以确保评估稳定。 DeepSeek-R1-Zero 的自我进化过程DeepSeek-R1-Zero 的自我进化过程充分展示了强化学习如何驱动模型自主提升推理能力。通过直接从基础模型启动强化学习我们可以在不受监督微调阶段影响的情况下密切监测模型的发展。这种方法清晰地呈现了模型随时间的演变尤其是在处理复杂推理任务的能力方面。如图 3 所示DeepSeek-R1-Zero 的思考时间在整个训练过程中持续改善。这种改善并非外部调整的结果而是模型内部自然发展的体现。DeepSeek-R1-Zero 通过利用更长的测试时计算自然而然地获得了解决日益复杂推理任务的能力。其计算过程能够生成数百到数千个推理标记使模型能够更深入地探索和完善其思维过程。这种自我进化中最显著的特点之一是随着测试时计算量的增加复杂行为的出现。例如模型会进行反思 —— 回顾并重新评估之前的步骤还会自发地探索解决问题的替代方法。这些行为并非预先编程设定而是模型与强化学习环境交互的结果。这种自发发展显著提升了 DeepSeek-R1-Zero 的推理能力使其能够更高效、准确地处理更具挑战性的任务。 图 3 DeepSeek-R1-Zero 在强化学习过程中训练集上每个回复的平均长度。DeepSeek-R1-Zero 自然学会用更多思考时间来解决推理任务。 DeepSeek-R1-Zero 的顿悟时刻在训练 DeepSeek-R1-Zero 期间一个特别有趣的现象是 “顿悟时刻” 的出现。如表 3 所示这个时刻出现在模型的一个中间版本中。在这个阶段DeepSeek-R1-Zero 学会了通过重新评估初始方法为一个问题分配更多思考时间。这种行为不仅证明了模型推理能力的不断提升也是强化学习能够带来意外且复杂结果的生动例证。这个时刻对于模型和观察其行为的研究人员来说都是一个 “顿悟时刻”。它凸显了强化学习的力量与魅力我们无需明确教导模型如何解决问题只需给予正确的激励模型就能自主开发出先进的问题解决策略。“顿悟时刻” 有力地提醒我们强化学习具有在人工系统中解锁新智能水平的潜力为未来开发更自主、更具适应性的模型铺平了道路。 表 3 | DeepSeek-R1-Zero 中间版本一个有趣的 “顿悟时刻”。该模型学会了以拟人化的语气进行反思。这对我们来说也是一个顿悟时刻让我们见证了强化学习的力量与美妙之处。 DeepSeek-R1-Zero 的缺点尽管 DeepSeek-R1-Zero 展现出强大的推理能力并且自主发展出了意想不到的强大推理行为但它也面临一些问题。例如DeepSeek-R1-Zero 存在可读性差和语言混杂等挑战。为了使推理过程更易读并与开放社区分享我们探索了 DeepSeek-R1这是一种利用包含人类友好型冷启动数据的强化学习方法。 2.3 DeepSeek-R1冷启动强化学习 受 DeepSeek-R1-Zero 有前景的结果启发两个自然的问题出现了1通过纳入少量高质量数据作为冷启动能否进一步提高推理性能或加速收敛2我们如何训练一个对用户友好的模型使其不仅能生成清晰连贯的思维链CoT还能展示出强大的通用能力为了解决这些问题我们设计了一个训练 DeepSeek-R1 的流程。该流程包含四个阶段具体如下。 2.3.1 冷启动 与 DeepSeek-R1-Zero 不同为了避免强化学习训练从基础模型开始时早期不稳定的冷启动阶段对于 DeepSeek-R1我们构建并收集了少量长思维链数据用于微调模型作为初始强化学习的起始点。为了收集此类数据我们探索了几种方法使用带有长思维链示例的少样本提示、直接提示模型生成带有反思和验证的详细答案、收集格式易读的 DeepSeek-R1-Zero 输出以及通过人工标注进行后处理来优化结果。在这项工作中我们收集了数千条冷启动数据对 DeepSeek-V3-Base 进行微调作为强化学习的起点。与 DeepSeek-R1-Zero 相比冷启动数据的优势包括 可读性DeepSeek-R1-Zero 的一个关键限制是其内容通常不适合阅读。回复可能会混合多种语言或者缺少用于突出答案的 Markdown 格式不方便用户查看。相比之下在为 DeepSeek-R1 创建冷启动数据时我们设计了一种易读模式在每个回复的结尾包含一个总结并过滤掉不便于阅读的回复。这里我们将输出格式定义为 | 特殊标记 |推理过程| 特殊标记 | 总结 其中推理过程是针对查询的思维链总结用于概括推理结果。 潜力通过结合人类先验知识精心设计冷启动数据的模式我们观察到其性能优于 DeepSeek-R1-Zero。我们认为迭代训练对于推理模型来说是一种更好的方式。 2.3.2 面向推理的强化学习 在冷启动数据上对 DeepSeek-V3-Base 进行微调后我们采用与 DeepSeek-R1-Zero 相同的大规模强化学习训练过程。这个阶段专注于提升模型的推理能力特别是在编码、数学、科学和逻辑推理等推理密集型任务中这些任务具有定义明确的问题和清晰的解决方案。在训练过程中我们观察到思维链经常出现语言混杂的情况尤其是当强化学习提示涉及多种语言时。为了缓解语言混杂问题我们在强化学习训练中引入了语言一致性奖励它计算为思维链中目标语言单词的比例。尽管消融实验表明这种调整会导致模型性能略有下降但该奖励符合人类偏好使思维链更易读。最后我们将推理任务的准确率和语言一致性奖励直接相加形成最终奖励。然后我们对微调后的模型进行强化学习训练直到它在推理任务上达到收敛。 2.3.3 拒绝采样和监督微调 当面向推理的强化学习收敛时我们利用得到的检查点为下一轮收集监督微调SFT数据。与最初主要关注推理的冷启动数据不同这个阶段纳入了来自其他领域的数据以增强模型在写作、角色扮演和其他通用任务中的能力。具体来说我们按如下方式生成数据并微调模型 推理数据我们整理推理提示并通过对上述强化学习训练的检查点进行拒绝采样来生成推理轨迹。在之前的阶段我们只纳入了可以使用基于规则的奖励进行评估的数据。然而在这个阶段我们通过纳入更多数据来扩展数据集其中一些数据使用生成式奖励模型将真实答案和模型预测输入 DeepSeek-V3 进行判断。此外由于模型输出有时混乱且难以阅读我们过滤掉了语言混杂的思维链、冗长的段落和代码块。对于每个提示我们采样多个回复只保留正确的回复。总共我们收集了约 60 万个与推理相关的训练样本。 非推理数据对于非推理数据如写作、事实性问答、自我认知和翻译我们采用 DeepSeek-V3 的流程并复用 DeepSeek-V3 的部分监督微调数据集。对于某些非推理任务在回答问题前我们通过提示调用 DeepSeek-V3 生成潜在的思维链。然而对于像 “你好” 这样简单的查询我们不提供思维链作为回复。最后我们总共收集了约 20 万个与推理无关的训练样本。 我们使用上述整理的约 80 万个样本的数据集对 DeepSeek-V3-Base 进行两个轮次的微调。 2.3.4 全场景强化学习 为了进一步使模型符合人类偏好我们实施了第二个强化学习阶段旨在提升模型的有用性和无害性同时优化其推理能力。具体来说我们使用奖励信号和多样化的提示分布来训练模型。对于推理数据我们遵循 DeepSeek-R1-Zero 中概述的方法利用基于规则的奖励来指导数学、代码和逻辑推理领域的学习过程。对于通用数据我们采用奖励模型来捕捉复杂和微妙场景中的人类偏好。我们基于 DeepSeek-V3 的流程采用类似的偏好对和训练提示分布。对于有用性我们仅关注最终总结确保评估强调回复对用户的实用性和相关性同时尽量减少对底层推理过程的干扰。对于无害性我们评估模型的整个回复包括推理过程和总结以识别并减轻生成过程中可能出现的任何潜在风险、偏差或有害内容。最终奖励信号和多样化数据分布的整合使我们能够训练出一个在推理方面表现出色同时优先考虑有用性和无害性的模型。 2.4 蒸馏赋予小模型推理能力 为了让更高效的小模型具备类似 DeepSeek-R1 的推理能力我们使用在 2.3.3 节中整理的 80 万个样本直接对 QwenQwen, 2024b和 LlamaAIMeta, 2024等开源模型进行微调。我们的研究结果表明这种简单的蒸馏方法显著提升了小模型的推理能力。这里我们使用的基础模型有 Qwen2.5-Math-15 亿、Qwen2.5-Math-70 亿、Qwen2.5-140 亿、Qwen2.5-320 亿、Llama-3.1-80 亿和 Llama-3.3-700 亿 - Instruct。我们选择 Llama-3.3 是因为其推理能力略优于 Llama-3.1。 对于蒸馏后的模型我们仅应用监督微调不包括强化学习阶段尽管加入强化学习可以大幅提升模型性能。我们这里的主要目标是展示蒸馏技术的有效性将强化学习阶段的探索留给更广泛的研究社区。 3. 实验 3.1 DeepSeek-R1 评估 表 4 | DeepSeek-R1 与其他代表性模型的对比 我们在多个基准测试中对模型进行评估包括 MMLUHendrycks 等人2020、MMLU-ReduxGema 等人2024、MMLU-ProWang 等人2024、C-EvalHuang 等人2023、CMMLULi 等人2023、IFEvalZhou 等人2023、FRAMESKrishna 等人2024、GPQA DiamondRein 等人2023、SimpleQAOpenAI, 2024c、C-SimpleQAHe 等人2024、SWE-Bench VerifiedOpenAI, 2024d、Aider 1、LiveCodeBenchJain 等人20242024 年 8 月 - 2025 年 1 月、Codeforces 2、中国高中数学奥林匹克竞赛CNMO 20243 和美国数学邀请赛 2024AIME 2024MAA, 2024。除了标准基准测试我们还使用大语言模型作为评判者在开放式生成任务中评估我们的模型。具体来说我们遵循 AlpacaEval 2.0Dubois 等人2024和 Arena-HardLi 等人2024的原始配置它们使用 GPT-4-Turbo-1106 作为评判者进行两两比较。这里我们仅将最终总结输入评估以避免长度偏差。对于蒸馏模型我们报告在 AIME 2024、MATH-500、GPQA Diamond、Codeforces 和 LiveCodeBench 上的代表性结果。 3.2 蒸馏模型评估 表 5 | DeepSeek-R1 蒸馏模型与其他可对比模型在推理相关基准测试中的比较 评估提示遵循 DeepSeek-V3 的设置MMLU、DROP、GPQA Diamond 和 SimpleQA 等标准基准测试使用 simpleevals 框架中的提示进行评估。对于 MMLU-Redux我们在零样本设置下采用 Zero-Eval 提示格式Lin, 2024。对于 MMLU-Pro、C-Eval 和 CLUE-WSC由于原始提示是少样本的我们将提示略微修改为零样本设置。少样本中的思维链可能会损害 DeepSeek-R1 的性能。其他数据集遵循其原始评估协议使用创建者提供的默认提示。对于代码和数学基准测试HumanEval-Mul 数据集涵盖八种主流编程语言Python、Java、C、C#、JavaScript、TypeScript、PHP 和 Bash。在 LiveCodeBench 上模型性能使用思维链格式进行评估数据收集于 2024 年 8 月至 2025 年 1 月之间。Codeforces 数据集使用 10 场 Div.2 竞赛的问题以及专家精心设计的测试用例进行评估之后计算预期评级和参赛者百分比。SWE-Bench verified 的结果通过无代理框架Xia 等人2024获得。AIDER 相关基准测试使用 “diff” 格式进行测量。每个基准测试中DeepSeek-R1 的输出最多限制为 32768 个标记。 基线我们与几个强大的基线模型进行全面评估对比包括 DeepSeek-V3、Claude-Sonnet-3.5-1022、GPT-4o-0513、OpenAI-o1-mini 和 OpenAI-o1-1217。由于在中国内地访问 OpenAI-o1-1217 的 API 具有挑战性我们根据官方报告来呈现其性能。对于蒸馏模型我们还与开源模型 QwQ-32B-PreviewQwen, 2024a进行比较。 评估设置我们将模型的最大生成长度设置为 32768 个标记。我们发现使用贪心解码评估长输出推理模型会导致较高的重复率并且不同检查点之间差异显著。因此我们默认采用 passk 评估Chen 等人2021并使用非零温度报告 pass1。具体来说我们使用 0.6 的采样温度和 0.95 的 top-P 值为每个问题生成 k 个回复通常在 4 到 64 之间具体取决于测试集大小。然后pass1 的计算方式为其中表示第 i 个回复的正确性。这种方法能提供更可靠的性能估计。对于 2024 年 AIME我们还报告使用 64 个样本的共识多数投票结果Wang 等人2022表示为 cons64。 4. 讨论 4.1 蒸馏与强化学习 表 6 | 蒸馏模型和强化学习模型在推理相关基准测试中的比较 在 3.2 节中我们可以看到通过蒸馏 DeepSeek-R1小模型能取得令人瞩目的结果。然而仍有一个问题模型能否通过本文中讨论的大规模强化学习训练在不进行蒸馏的情况下达到可比的性能为了回答这个问题我们使用数学、代码和 STEM 数据对 Qwen-32B-Base 进行大规模强化学习训练训练步数超过 10000 步得到 DeepSeek-R1-Zero-Qwen-32B。实验结果如表 6 所示经过大规模强化学习训练的 320 亿参数基础模型性能与 QwQ-32B-Preview 相当。然而从 DeepSeek-R1 蒸馏得到的 DeepSeek-R1-Distill-Qwen-32B 在所有基准测试中的表现都明显优于 DeepSeek-R1-Zero-Qwen-32B。 因此我们可以得出两个结论第一将更强的模型蒸馏到小模型中能产生出色的效果而依赖本文中提到的大规模强化学习的小模型需要巨大的计算资源甚至可能无法达到蒸馏的性能。第二虽然蒸馏策略既经济又有效但要突破智能的边界可能仍然需要更强大的基础模型和大规模强化学习。 4.2 失败尝试 在开发 DeepSeek-R1 的早期阶段我们也经历了失败和挫折。我们在此分享这些失败经验以提供见解但这并不意味着这些方法无法开发出有效的推理模型。 过程奖励模型PRM过程奖励模型是引导模型采用更好的方法解决推理任务的合理手段Lightman 等人2023; Uesato 等人2022; Wang 等人2023。然而在实践中PRM 存在三个主要限制可能会阻碍其最终成功。第一在一般推理中明确界定细粒度的步骤具有挑战性。第二判断当前中间步骤是否正确是一项艰巨的任务。使用模型进行自动标注可能无法获得令人满意的结果而手动标注不利于大规模应用。第三一旦引入基于模型的 PRM不可避免地会导致奖励作弊Gao 等人2022重新训练奖励模型需要额外的训练资源并且会使整个训练流程变得复杂。总之虽然 PRM 在对模型生成的前 N 个回复进行重新排序或辅助引导搜索方面Snell 等人2024表现出良好的能力但在我们的实验中与大规模强化学习过程中引入的额外计算开销相比其优势有限。 蒙特卡洛树搜索MCTS受 AlphaGoSilver 等人2017b和 AlphaZeroSilver 等人2017a的启发我们探索使用蒙特卡洛树搜索MCTS来提高测试时计算的可扩展性。这种方法将答案分解为较小的部分使模型能够系统地探索解空间。为了实现这一点我们提示模型生成多个与搜索所需的特定推理 步骤相对应的标签。在训练时我们首先使用收集到的提示通过由预训练价值模型引导的蒙特卡洛树搜索来寻找答案。随后我们使用得到的问答对来训练策略模型和价值模型不断迭代优化这个过程。 然而在扩大训练规模时这种方法遇到了一些挑战。首先与国际象棋不同在国际象棋中搜索空间相对明确而 token 生成的搜索空间呈指数级增大。为了解决这个问题我们为每个节点设置了最大扩展限制但这可能会导致模型陷入局部最优解。其次价值模型直接影响生成的质量因为它指导搜索过程的每一步。训练一个精细的价值模型本身就很困难这使得模型难以通过迭代进行改进。虽然 AlphaGo 的核心成功在于训练价值模型以逐步提升性能但由于 token 生成的复杂性这一原则在我们的设置中难以复制。 总之虽然蒙特卡洛树搜索在与预训练价值模型结合时可以在推理过程中提高性能但通过自我搜索迭代提升模型性能仍然是一个巨大的挑战。 5. 结论、局限性和未来工作 在这项工作中我们分享了通过强化学习提升模型推理能力的研究历程。DeepSeek - R1 - Zero 代表了一种纯粹的强化学习方法不依赖冷启动数据在各种任务中都取得了很强的性能。DeepSeek - R1 则更强大它利用冷启动数据以及迭代的强化学习微调。最终DeepSeek - R1 在一系列任务上的性能与 OpenAI - o1 - 1217 相当。 我们进一步探索了将推理能力蒸馏到小密集模型中。我们使用 DeepSeek - R1 作为教师模型生成 80 万个训练样本并对几个小密集模型进行微调。结果很有前景DeepSeek - R1 - Distill - Qwen - 15 亿在数学基准测试中表现优于 GPT - 4o 和 Claude - 3.5 - Sonnet在 AIME 上得分为 28.9%在 MATH 上得分为 83.9% 。其他密集模型也取得了令人瞩目的成绩显著超越了基于相同基础检查点的其他指令微调模型。 未来我们计划在以下几个方向对 DeepSeek - R1 展开研究 通用能力目前DeepSeek - R1 在函数调用、多轮交互、复杂角色扮演和 JSON 输出等任务上的能力不如 DeepSeek - V3。未来我们计划探索如何利用长思维链来提升这些领域的任务表现。 语言混杂DeepSeek - R1 目前针对中文和英文进行了优化在处理其他语言的查询时可能会出现语言混杂的问题。例如即使查询使用的不是中文或英文DeepSeek - R1 也可能会用英文进行推理和回复。我们旨在在未来的更新中解决这一限制。 提示工程在评估 DeepSeek - R1 时我们发现它对提示很敏感。少样本提示始终会降低其性能。因此我们建议用户直接描述问题并使用零样本设置指定输出格式以获得最佳结果。 软件工程任务由于评估时间长影响了强化学习过程的效率大规模强化学习在软件工程任务中尚未得到广泛应用。因此DeepSeek - R1 在软件工程基准测试中相对于 DeepSeek - V3 并没有显示出巨大的改进。未来版本将通过对软件工程数据实施拒绝采样或在强化学习过程中纳入异步评估来提高效率从而解决这一问题。 更多技术内容 更多技术内容可参见 《自然语言处理原理与实战》人工智能科学与技术丛书【陈敬雷编著】【清华大学出版社】书籍。 更多的技术交流和探讨也欢迎加我个人微信chenjinglei66。 总结 此文章有对应的配套新书教材和视频 【配套新书教材】 《自然语言处理原理与实战》人工智能科学与技术丛书【陈敬雷编著】【清华大学出版社】 新书特色本书从自然语言处理基础开始逐步深入各种NLP热点前沿技术使用了Java和Python两门语言精心编排了大量代码实例契合公司实际工作场景技能侧重实战。 全书共分为19章详细讲解中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注、文本相似度算法、语义相似度计算、词频-逆文档频率(TF-IDF)、条件随机场、新词发现与短语提取、搜索引擎Solr Cloud和Elasticsearch、Word2vec词向量模型、文本分类、文本聚类、关键词提取和文本摘要、自然语言模型Language Model、分布式深度学习实战等内容同时配套完整实战项目例如对话机器人实战、搜索引擎项目实战、推荐算法系统实战。 本书理论联系实践深入浅出知识点全面通过阅读本书读者不仅可以理解自然语言处理的知识还能通过实战项目案例更好地将理论融入实际工作中。 《分布式机器学习实战》人工智能科学与技术丛书【陈敬雷编著】【清华大学出版社】 新书特色深入浅出逐步讲解分布式机器学习的框架及应用配套个性化推荐算法系统、人脸识别、对话机器人等实战项目。 【配套视频】 推荐系统/智能问答/人脸识别实战 视频教程【陈敬雷】 视频特色把目前互联网热门、前沿的项目实战汇聚一堂通过真实的项目实战课程让你快速成为算法总监、架构师、技术负责人包含了推荐系统、智能问答、人脸识别等前沿的精品课程下面分别介绍各个实战项目 1、推荐算法系统实战 听完此课可以实现一个完整的推荐系统下面我们就从推荐系统的整体架构以及各个子系统的实现给大家深度解密来自一线大型互联网公司重量级的实战产品项目 2、智能问答/对话机器人实战 由浅入深的给大家详细讲解对话机器人项目的原理以及代码实现、并在公司服务器上演示如何实际操作和部署的全过程 3、人脸识别实战 从人脸识别原理、人脸识别应用场景、人脸检测与对齐、人脸识别比对、人脸年龄识别、人脸性别识别几个方向从理论到源码实战、再到服务器操作给大家深度讲解 自然语言处理NLP原理与实战 视频教程【陈敬雷】 视频特色《自然语言处理NLP原理与实战》包含了互联网公司前沿的热门算法的核心原理以及源码级别的应用操作实战直接讲解自然语言处理的核心精髓部分自然语言处理从业者或者转行自然语言处理者必听视频 人工智能《分布式机器学习实战》 视频教程【陈敬雷】 视频特色视频核心内容有互联网公司大数据和人工智能、大数据算法系统架构、大数据基础、Python编程、Java编程、Scala编程、Docker容器、Mahout分布式机器学习平台、Spark分布式机器学习平台、分布式深度学习框架和神经网络算法、自然语言处理算法、工业级完整系统实战推荐算法系统实战、人脸识别实战、对话机器人实战。 上一篇DeepSeek大模型技术系列一》DeepSeek核心算法解析如何打造比肩ChatGPT的国产大模型 下一篇DeepSeek大模型技术系列三》DeepSeek大模型基础设施全解析支撑万亿参数模型的幕后英雄
http://www.w-s-a.com/news/1217/

相关文章:

  • 克拉玛依市建设局网站网页设计板式重构
  • 网站新闻专题怎么做湖南营销型网站建设 要上磐石网络
  • 阿里云发布网站成都轨迹公布
  • php网站源码架构谷歌站群系统
  • 潮州网站seowordpress 调用置顶文章
  • 做带会员后台的网站用什么软件旅游网站建设资金请示
  • 商品网站怎么做wordpress 表情拉长
  • 商城网站设计费用网络公司怎样推广网站
  • 视频公司的网站设计工图网
  • 免费快速网站十八个免费的舆情网站