当前位置：首页 > news >正文

做销售在哪些网站发贴自助建站系统网站建设开发

news 2026/4/8 21:28:12

做销售在哪些网站发贴,自助建站系统网站建设开发,沧州市网站建设公司,医院网站管理制度OpenAI ChatGPT o1 背后的关键技术Test-time Compute Scaling#xff0c;Huggingface实现并开源了#xff01; Hugging Face 团队发布了一篇关于“开源模型中的推理阶段计算扩展”#xff08;Test-time Compute Scaling#xff09; 的研究文章。Hugging Face 团队通过复现…OpenAI ChatGPT o1 背后的关键技术Test-time Compute ScalingHuggingface实现并开源了 Hugging Face 团队发布了一篇关于“开源模型中的推理阶段计算扩展”Test-time Compute Scaling 的研究文章。Hugging Face 团队通过复现 DeepMind 等研究成果通过测试时计算扩展test-time compute scaling来提升小模型的性能使其在某些情况下超越更大规模的模型。这种方法不依赖于更大的预训练预算而是通过动态推理策略让模型在更难的问题上“思考更长时间”。 . 关键技术计算最优扩展compute-optimal scaling通过复刻DeepMind的技巧来提升测试时开放模型的数学能力。多样性验证器树搜索 (DVTS)提高了多样性并提供了更好的性能特别是在测试时计算预算较大的情况下。搜索和学习一个轻量级工具包用于使用LLM实现搜索策略并使用vLLM实现速度提升。实验结果在MATH-500基准测试中1B和3B的Llama Instruct模型在给定足够的“思考时间”后性能超越了更大的8B、70B模型。基于验证器的搜索方法直接看下面的图快速理解这张图示意了三种搜索方法 1、Best-of-N让LLM生成N个候选答案用频率的方法就是选择出现次数最多的答案。使用奖励模型则是强调答案质量而非频率。通过奖励模型为每个候选答案分配分数然后选择奖励最高的答案。文章中提到的一种变体是汇总所有相同响应的得分通过对相同响应的回答加权求和选择总得分最高的回答。 2、Beam Search一种探索解决方案空间的系统搜索方法通常与过程奖励模型 (PRM) 结合使用以优化问题解决中间步骤的采样和评估。与对最终答案产生单一分数的传统奖励模型不同PRM 会提供一系列分数其中推理过程的每个步骤都有一个分数。这种细粒度反馈能力使得 PRM 成为 LLM 搜索方法的自然选择。 3、多样性验证器树搜索 (DVTS)HuggingFace 开发的Beam Search扩展将初始beam拆分为独立的子树然后使用 PRM 贪婪地扩展这些子树。这种方法提高了解决方案的多样性和整体性能尤其是在测试时计算预算较大的情况下。问题回答过程问题回答过程 1、首先给 LLM 提供一个数学问题让其生成 N 个部分解例如推导过程中的中间步骤。 2、每个 step 都由 PRM 评分PRM 估计每个步骤最终达到正确答案的概率。 3、一旦搜索策略结束最终候选解决方案将由 PRM 排序以产生最终答案。 DVTS通过多样性提升性能为什么需要DVTS 虽然总体上很明显Beam Search是一种比 Best-of-N 或多数投票更好的搜索策略但 DeepMind 的论文表明每种策略都有权衡这取决于问题的难度和测试时计算预算。 Beam Search在中等难度和困难难度问题中取得了持续的进展但在较简单问题上尤其是在计算预算较大的情况下它的表现往往比 Best-of-N甚至多数投票更差。通过观察Beam Search生成的结果树HuggingFace 意识到如果单个步骤被分配了高奖励那么整棵树就在该轨迹上崩溃从而影响多样性。这促使他们探索一种最大化多样性的集束搜索扩展。为了解决这个问题HuggingFace 开发了一个扩展称之为「多样性验证器树搜索」DVTS旨在最大限度地提高 N 较大时的多样性。 DVTS 的工作方式与Beam Search类似但有以下修改对于给定的 N 和 M将初始集束扩展为 N/M 个独立子树。对于每个子树选择具有最高 PRM 分数的步骤。从步骤 (2) 中选择的节点生成 M 个新步骤并选择具有最高 PRM 分数的步骤。重复步骤 (3)直到达到 EOS token 或最大树深度。下图是将 DVTS 应用于 Llama 1B 的结果试验中N的取值为 4、16、64、256 可以看到DVTS 为集束搜索提供了一种补充策略在 N 较小时集束搜索更有效地找到正确的解决方案但在 N 较大时DVTS 候选的多样性开始发挥作用可以获得更好的性能。有了各种各样的搜索策略一个自然的问题是哪一个是最好的在 DeepMind 的论文中可参考《Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters 》提出了一种计算 - 最优扩展策略该策略可以选择搜索方法和超参数 θ以便在给定的计算预算 N 下达到最佳性能。例如对于较简单的问题和较低的计算预算最好使用 Best-of-N 等策略而对于较难的问题Beam Search是更好的选择。下图为计算 - 最优曲线 DeepMind 论文中的测试时搜索方法test-time search methods DeepMind 论文https://arxiv.org/pdf/2408.03314 文章中提供了三种不同的测试时搜索方法test-time search methods的比较这些方法都是针对一个给定的问题例如数学问题如何在大型语言模型LLM中进行搜索以找到最佳答案的策略。这三种方法分别是 √ Best-of-N这种方法涉及从基础语言模型中独立地采样N个完整的解决方案然后根据过程验证器PRM的最终答案判断来选择最佳答案。 √ Beam Search这种方法通过在每一步中采样N个候选答案并根据PRM预测的步骤奖励估计来评分然后选择得分最高的M个步骤继续搜索。这个过程会重复进行直到找到解决方案或达到最大搜索轮数。 √ Lookahead Search这种方法修改了Beam Search评估单个步骤的方式。它使用预先查看lookahead模拟来改进PRM在搜索过程中每一步的价值估计的准确性。具体来说在Beam Search的每一步中不是使用当前步骤的PRM分数来选择顶部候选而是进行模拟向前滚动多达k步如果达到解决方案的末尾则提前停止。然后使用这个模拟结束时的PRM预测来评分当前步骤。图中的每个部分都用流程图的形式展示了这些方法的步骤包括问题提出Question用验证器Apply Verifier完整的解决方案Full Solution中间解决方案步骤Intermediate solution step被验证器选中的Selected by verifier被验证器拒绝的Rejected by verifier Lookahead Search通常在相同生成预算下表现不如其他方法这可能是由于模拟预先查看步骤引入的额外计算导致的。备注具体可以参考介绍文章《3B模型长思考后击败70BHuggingFace逆向出o1背后技术细节并开源》 https://mp.weixin.qq.com/s/E1FaaOurAb-QlCX3BASi9Q

查看全文

http://www.w-s-a.com/news/832337/