当前位置: 首页 > news >正文

深圳外贸网站定制济南建设网站制作优化分析

深圳外贸网站定制,济南建设网站制作优化分析,深圳做网站小程序,创意摄影网站OpenAl又火了#xff0c;这次是o1又带给大家惊艳。网上的博主已经有了真真假假的各种评测#xff0c;我这篇来一点硬核的#xff0c;解读OpenAl o1背后的论文#xff1a;Let’s Verify Step by Step 大模型在给定的上下文资料正确的情况下也有可能出现幻觉#xff0c;这篇…OpenAl又火了这次是o1又带给大家惊艳。网上的博主已经有了真真假假的各种评测我这篇来一点硬核的解读OpenAl o1背后的论文Let’s Verify Step by Step 大模型在给定的上下文资料正确的情况下也有可能出现幻觉这篇论文提出通过逐步验证的方式纠正大模型在处理复杂多步骤推理任务表现。论文的核心是比较过程监督提供每个中间推理步骤的反馈和结果监督仅提供最终结果的反馈在训练模型解决复杂数学问题中的效果。 结果监督指仅使用模型链式推理的最终结果来训练奖励模型的方法。在这种监督方式中奖励模型ORMs只根据模型生成的最终答案是否正确来进行反馈而不考虑推理过程中的具体步骤。过程监督提供每一步中间推理步骤的反馈。这种监督方式可以更精确地指出错误发生的位置并直接奖励模型沿着人类认可的推理路径进行推理。相比之下结果监督只提供关于最终结果的反馈。 这篇论文的方法论主要包括以下几个步骤每一步都有其独特的用途以下是对论文方法论的快速解读 生成器 (Generator) 的设置和训练 为了使解析各个步骤更为简单作者训练生成器以换行分隔的逐步格式生成解决方案。论文作者先用少量示例生成MATH训练问题的解决方案然后从中筛选出能得出正确最终答案的解决方案最后用此数据集对基础模型进行单个周期的微调。此步骤的主要目的是教会生成模型以特定格式生成解答而不是教模型新技能。 数据收集 为了收集过程中监督数据人工数据标记人员逐步对生成的问题解决方案进行标注。 数据收集方法 • 研究人员让人类数据标注者针对生成的MATH问题MATH问题是从各种来源收集和整理而来的。这些问题包括高质量的数学问题及其解决方案、涉及数学问题和概念的自由形式讨论文本以及一些合成数据。这些问题在数据集MathMix中进行了预训练增强了模型的数学推理能力同时确保问题的答案是自动可检验的。的逐步解决方案进行逐步反馈。 • 标注者任务是对每个步骤的正确性进行标注这些步骤由模型生成。 标注过程 • 解决方案的每个步骤可以被标注为三种标签之一正面positive、负面negative或中立neutral。 • 正面标签表示步骤在上下文中是恰当的、合理的且正确的并且包含的计算易于验证。此外这一步应该推动问题的解决进展。 • 负面标签表示步骤是错误的或不合理的。 • 中立标签表示步骤在上下文中是恰当的、合理的且正确的但可能有些模棱两可或者尽管是有效的但并不算是最好的建议。 • 为了评估给出标签的正确性研究人员设定了一些质量控制问题并标记这些问题的步骤哪些是合理标注为不正确的。标注人员需要在这些质量控制问题中表现出一致性且与研究人员的金标准标签至少有75%的匹配度。此外标注者的工作还会定期得到持续质量控制的评估以确保标注质量。 目标数据集 • 研究团队收集了一个大规模数据集——PRM800K包括800,000个步骤级别的人工反馈标签覆盖75,000个解决方案涉及12,000个问题。 数据筛选和优化策略 • 为了避免过拟合在训练集内包含了4,500个MATH测试问题的数据因此实际评估仅限于剩余的500个MATH测试问题。 • 筛选出具有代表性的错误解答以获取更有价值的反馈, 他们策略性地选择最有说服力的错误答案解决方案进行标注。 主动学习策略 • 数据收集过程中的某些阶段他们定期重新训练PRM以利用最新的数据进行迭代优化。 • 通过生成多种解决方案并根据当前最好的PRM评分优先显示那些评分较高但答案错误的解决方案给数据标注者。 过程监督奖励模型 (PRMs) 的训练 现在论文团队有了大约80万个逐步标签这些标签覆盖了75000个解决方案涉及12000个问题。PRMs 的训练目的是预测每个步骤在每个步骤末尾的正确性这个预测以单个标记的形式呈现。在训练过程中最大化这些目标标记的对数似然。在测试时为了比较多个解决方案PRM会对每个解决方案的所有步骤进行前向传递从而计算每一步为正面的概率。通过将这些概率相乘可以得到整个方案的分数解决方案的评分通过每一步为正的概率的乘积来实现。 我的理解是使用GPT4做生成器生成解决MATH问题的逐步解答。然后人类标注人员会对这些生成的每一步解答进行标签然后再训练差不多就是人类老师对GPT的步骤进行批卷然后模型再次学习。总的来说PRMs 的训练通过提供每一步详细的过程监督进一步提高奖励模型的可靠性和准确性能更好地定位错误并解决复杂任务。 大规模和小规模实验对比 在大规模和小规模两个不同的训练模式中对比结果以获得互补的视角。 大规模实验 • 使用的基础模型是 GPT-4。 • 主要目的是通过训练最可靠的 ORM 和 PRM 来推进最先进的技术。 • 大规模实验的目标是提高模型的整体性能但这种实验方式的训练集不直接可比因此不适合用于小规模实验的对比。 小规模实验 • 使用的基础模型在设计上类似于 GPT-4但训练计算量大约是 GPT-4 的 1/200。 • 小规模实验的主要目的是进行更直接的对比以消除抽样数据量和数据集成本的影响。 • 为了摆脱高昂的人类反馈成本这种实验利用大规模模型对小规模模型进行监督从而评估不同监督方法的效果。 有监督的数据收集方式 通过主动学习策略改进数据收集效率。 结果监督Outcome Supervision • 定义仅基于最终结果对模型进行评估和反馈。 • 实现模型生成解决方案后通过检查最终答案是否正确来提供反馈。 • 优点可以自动化因为结果通常是可验证的例如数学问题的答案。 • 缺点存在信用分配问题即很难确定哪一步出的错误。特别是在复杂任务中一个错误步骤会导致整个解决方案出错单纯依靠最终结果很难改进模型的推理能力。 过程监督Process Supervision • 定义对每一步的中间推理过程进行评估和反馈。 • 实现使用人类标注者逐步检查模型解决方案中的每一步标注正确、错误或模糊的步骤。 • 优点 o 精确的反馈每一步都得到评估可以指出具体的错误位置。 o 易于理解对人类来说过程监督更容易解释和理解模型是如何进行推理的。 o 奖励对齐更直接地鼓励模型按照人类认可的思维过程推理。 • 缺点需要依赖大量的人类标注成本较高。 在比较这两种方法时过程监督由于可以提供每一步的细致反馈在解决复杂多步推理问题上显著优于结果监督。研究表明使用过程监督训练的模型对于解决数学问题展现了更高的成功率。例如研究中提到的过程监督模型成功解决了78%的MATH数据集问题远高于结果监督模型。同样通过主动学习机制过程监督的数据效率提高了2.6倍。 总结尽管过程监督成本较高但其精确反馈和高效的训练效果使其在需要复杂多步推理的任务中成为优于结果监督的方法。 评估方法 评估奖励模型的效果通过多解题搜索策略验证其能力。论文作者通过使用最佳N搜寻best-of-N search来评估奖励模型的效果。具体步骤如下 生成解决方案使用生成模型generator生成一系列问题的解决方案。 评分解决方案每个测试问题的解决方案会通过奖励模型打分奖励模型会根据每个解决方案的最终答案来自动打分。 选择最佳解决方案从每个测试问题的所有解决方案中选择奖励模型评分最高的那一个作为最终解。 计算成功率统计模型选出的最终解中正确答案的比例以此衡量奖励模型的效果。 通过这种方法作者能够比较不同奖励模型在不同解决方案数量条件下的表现评估它们在选择正确解决方案方面的准确性和可靠性。 论文作者也提到了一些验证局限性。具体包括 测试集污染作者指出MATH数据集的测试集包含在多个在线平台上讨论的问题这些问题可能出现在他们的预训练数据集中。他们尝试用字符串匹配启发法去除MathMix数据集中与MATH测试集重叠的问题但无法保证完全没有重叠。可能的记忆现象作者在检查模型生成的解答时没有发现明显的记忆现象但不能完全排除存在微妙记忆现象的可能性这些现象可能会在人工检查中遗漏。偏移的影响相似性尽管可能存在测试集污染作者认为各种方法在这种情况下表现出类似的测试污染影响表明相对比较结果基本不受影响。 在数据收集的阶段论文作者提到的MathMix是什么MathMix 是一个大规模的高质量数学相关数据集使用于轻量级预训练阶段以提高模型在数学推理和问题解决方面的能力。与 Minerva 数据集相比MathMix 较小且经过更严格的过滤以确保数据的高质量并且未显式混入普通语言数据。 MathMix 的构建包括以下几部分数据 数学问题及其解决方案约 2.75 亿个 token。自由形式的数学讨论文本一约 4.30 亿个 token。自由形式的数学讨论文本二约 4.50 亿个 token这些存在于预训练数据集中。合成数据一约 3000 万个 token。合成数据二约 1 亿个 token这些存在于预训练数据集中。批评性评分数据约 5 亿个 token。 在预训练阶段作者使用 MathMix 对所有模型进行微调以提升模型的数学推理能力。此外MathMix 包含海量的数学问题、讨论和合成数据但不包含任何普通语言数据。 在训练较小模型时作者使用 MathMix 的一个较小变体只包含 10 亿个 token排除了一些批评性评分数据。对于大型模型的实验作者使用完整的 MathMix 进行大约 3 亿个 token 的训练2 个 epoch而对于小规模模型实验作者训练了 6 个 epoch大约 6.6 亿个 token。作者应用了一套去污染检查以确保 MathMix 数据集中没有与 MATH 数据集测试集重叠的问题。这些检查包括剥离 LaTeX 内容并搜索匹配的 n-gram。但由于人工发布的变体问题难以检测作者无法对去污染结果做出强有力的保证。需要注意的是尽管如此如果存在数据集污染作者认为不会显著影响相对比较结果因为这种影响在所有方法中应表现一致。 看完这篇论文后我的两个感触  Open AI公司从GPT1开始一直在突出工程的工作在AI落地中的重要性这几年我们看了太多的论文而Open AI公司真的是实实在在的投入资源在推动设想的落地而不是仅仅把设想写在纸上。这次Open AI公司又花费了极大的精力构建了80万个逐步标签。  人工智能真的是有多少人工才有多少智能Open AI公司都要勤勤恳恳脚踏实地的去构建高质量数据集而我们很多人在梦想把文档随随便便丢给AIAI就可以理解是不是应该要多多少少的反思一下 最后的最后论文地址在https://arxiv.org/abs/2305.20050。
http://www.w-s-a.com/news/654674/

相关文章:

  • 网站域名更换相应内容网站策划 要求
  • 百盛联合建设集团网站开发网站的步骤
  • php做网站评价网络公司经营范围可以加技
  • 网站积分的作用保定专业网站建设
  • 莆田做网站公司电话如何提升网站访问速度
  • 网站开发流程步骤 口袋网页访问wordpress
  • 湘潭做网站的公司自助建站教程
  • 做网站推广和头条推广wordpress 验证密码错误
  • 淘宝联盟网站怎么做深圳市创想三维科技有限公司
  • 校园网站建设招标公告php网站开发什么
  • 06628 网页制作与网站开发陕西省交通建设网站
  • 做wish如何利用数据网站暗红色网站
  • 企业 网站备案 法人长春建站模板搭建
  • 网站做快照网站改版 升级的目的
  • 自己做一个网站要多少钱海外推广什么意思
  • 郑州做网站哪家专业网络基础知识大全
  • 济南制作网站企业php 调试网站
  • 互联网站管理工作细则做网站通栏模糊
  • 徐州手机网站开发公司电话青岛有名的互联网公司
  • 如何在手机做网站wordpress 网站搬迁
  • 网站透明导航代码国外卖货平台有哪些
  • 张家界网站建设方案中国网页设计师
  • 淮南网站建设服务东莞营销型手机网站建设
  • 常德做网站专业公司河南高端网站建设
  • 网站服务器建设的三种方法会展设计ppt
  • 如何把自己做的网站放到内网seo优化网络
  • 北京网站建设net2006厦门优化公司
  • 制作网页前为什么要建立站点菏泽百度网站建设
  • 做影视网站引流网页美工设计课程教案
  • 响应式网站开发流程图网站优化seo教程