顺德网站定制设计,什么网站可以做新闻听写,儿童编程培训班,如何介绍网站模板下载2024年12月21日#xff0c;OpenAI在其为期12天发布会活动的最后一天#xff0c;正式发布了备受期待的o3系列模型#xff0c;包括o3和o3-mini。
o3 是一个非常强大的模型#xff0c;在编码、数学以及 ARC-AGI 基准测试等多个基准上超过了 OpenAI 此前的 o1 模型#xff08…2024年12月21日OpenAI在其为期12天发布会活动的最后一天正式发布了备受期待的o3系列模型包括o3和o3-mini。
o3 是一个非常强大的模型在编码、数学以及 ARC-AGI 基准测试等多个基准上超过了 OpenAI 此前的 o1 模型o1得分25%o3得分87.5%)。
o3-mini 是 o3 更经济高效且性能导向的版本在成本和延迟方面比 o1-mini 低得多同时提供类似的功能。
由于与英国电信公司 O2 可能存在的版权/商标冲突所以将其命名为o3。
具体内容参见文章《当你以为AI发展放缓时OpenAI推出o3向AGI迈出关键一步》 https://mp.weixin.qq.com/s/Kn-yDWA3n2VsW7ApBGEssA
转微博的一些评论作为备忘
问题成本太高
来自karminski-牙医 有人整理了GPT o1 - o3 各个型号的每个任务的开销发现它与实现AGI的程度的曲线更像一个开口向右的抛物线这是否意味着当前的技术路线很难实现AGI最后20%可能要付出特别巨大的成本或实现了AGI也不具备商业价值。
OpenAI o3对“合成程序”的意义相当于AlexNet之于“深度学习”
来自微博高飞
OpenAI o3对“合成程序”的意义相当于AlexNet之于“深度学习”
OpenAI在发布会的尾声终于放了一个大卫星发布了o3的期货。
由于o3作为推理模型的特殊性目前场景面向数学、编码所以一般的基准测试已经不奏效了所以这次OpenAI和ARC 竞赛合作用ARC-Prize作为衡量模型性能的主要指标。
评测结果是
在低计算模式下(每项任务花费 20 美元)o3得到 75.7%的分数,在高计算模式下(每项任务数千美元)得到 87.5%的分数。
大家可能对ARC-Prize不太了解我这里简单介绍一下。
ARC的核心理论是肖雷测试“当常人容易而人工智能难的任务差距归零时就达到了通用人工智能”。
这句话其实很好理解模型可以干很多人类干不了的事儿但也有很多人类凭直觉就能干的事儿模型却做不到。一个简单的例子就是那个著名的“Strawberry这个单词里有多少个R”的问题。
由于ARC是针对大语言模型的弱点进行设计的所以之前所有模型在测试中都表现不佳。
拿OpenAI的GPT系列来说GPT-3得分为0GPT-4接近0GPT-4o好了一点也只有5%。即使将这些模型扩展到极限其分数也无法接近早期暴力枚举方法能达到的50%。
此前ARC 给出了总奖金超过 100 万美元的奖励包括首个团队达到 85% 基准的 60 万美元大奖和促进进展的创新论文等其他奖项。
显然ARC团队对题目难度还是有信心的。
但是这个天花板现在被o3捅破了。图一大家可以看一下o3和之前模型的表现比较
o3在低计算能力限制下在半私有评估集上取得了 75.7%的成绩在高算力(172 倍)的 o3 配置下一举获得 87.5%的分数。图二
当然在o1阶段已经表现出了这个态势当时突破了50%门槛。
ARC竞赛的联合发起人Mike Knoop也表现的很震惊在X上写了一个短文认为o3意义重大。
其中有句话分量比较重说
“我相信 o3 对“程序合成”而言就像当年 AlexNet 对深度学习的影响一样——我们现在已经有了确凿证据证明基于深度学习的程序搜索是可行的”。
所谓“程序合成”就是人类只需描述所需的功能和约束计算机就可以根据这些描述生成相应程序。用人话说可以理解为“编码”的自动驾驶。
那么为什么当年的o1现在的o3能取得这个成就
如果传统LLM(如GPT-4o)的工作方式是作为向量程序库。
当收到提示时它们会提取与提示相匹配的程序并在输入上执行。这种方法可以通过被动接触人类生成的内容来存储和操作数百万个有用的小程序。
然而这种记忆、提取、应用的范式虽然可以在有合适训练数据的情况下实现任意任务的技能但它无法适应新颖性或即时掌握新技能。
因为要适应新鲜事物需要两件事。
首先需要知识。一组可重复使用的函数或程序这方面大模型不缺其次需要能够在面临新任务时将这些函数重新组合成一个全新的程序一个能够模拟手头任务的程序即程序合成。
此前的模型缺乏这种功能。而o 系列模型解决了这个问题。
o3的主要突破在于它采用了一种全新的自然语言程序搜索和执行机制。
在测试时模型会搜索可能的思维链(Chain of Thought)来描述解决任务的步骤这个搜索过程类似于AlphaZero式的蒙特卡洛树搜索并由评估器模型引导。
这种机制让o3能够在测试时动态地重组知识生成和执行自己的程序其中思维链本身成为知识重组的产物。这远比简单的预训练响应要强大。
既然说o3有“合成程序”的能力也有一项基准可以直接证明OpenAI o3的编码能力它的Codeforces 分数为 2727相当于地球上第 175 位最优秀的人类编程竞赛选手。图三
当然我们都知道人类开发者的工作不止局限于编码自身。
而且目前为止o3是期货在生产环境会表现如何还要到时的实际情况以及竞争对手的表现比较。
关于ARC对o3的更多评价见arcprize.org/blog/oai-o3-pub-breakthrough
下为Mike Knoop的推文原文出处x.com/mikeknoop o3 的确非常特别大家都需要重新审视自己对 AI 能力与局限的直觉。
虽然目前还是早期阶段但这个系统展现出了在 ARC-AGI 的“金丝雀”测试下真实的智能提升。
semiprivate v1 的测试得分
GPT-22019 年0% GPT-32020 年0% GPT-42023 年2% GPT-4o2024 年5% o1-preview2024 年21% o1 high2024 年32% o1 Pro2024 年约 50% o3 tuned low2024 年76% o3 tuned high2024 年87% 当初是我投入了最初的一百万美元创建了 arcprize我想再次重申我的承诺我们会持续举办这个大奖赛直到有人开源一个高效且能达到 85% 水平的解决方案。
但我们的目标远不止于此ARC Prize 在今年找到了它的使命——成为通往 AGI 的长久北极星。
ARC 基准的设计原则是“对人类简单但对 AI 困难”只要在人类易解、AI 难解的范畴内仍存在挑战就说明 AGI 依然还有进步空间。
目前在 v1 系列中还有超过 100 个任务即使在 o3 的高算力配置下依然没有被解决这非常值得关注。
o3 的后继者们将不得不面对“效率”这一难题。我预计这会成为 AI 领域的重点关注方向。参考数据o3 high 使用的算力是 o3 low 的 172 倍而 o3 low 的算力又是大奖赛目标算力的 100 到 1000 倍。
今年夏天我们也正式开始推进 v2 的工作v2 依旧在与 v1 相同的网格环境中并计划与 2025 年的 ARC Prize 一同发布。前期测试表明即便在 o3 high 的算力下v2 也会有很好的表现。但 v2 的目标并不是做“对抗性基准”而是要在通往 AGI 的道路上具有足够的意义和信息量。
我们也希望能有一些足以经受多年考验的 AGI 基准我并不认为 v2 能担此大任。所以我们已经开始把注意力转向 v3——这将会与前两代非常不同。我也很期待与 OpenAI 以及其他研究机构合作共同设计出 v3。
由于快到年末我也想做一些反思。
任何花时间研究 ARC 数据集的人都会告诉你它有某些特别之处而一个能够完全破解它的系统就更是了不起。o 系列所展现出的能力某种程度上让我们得以一窥这样的系统。
当我说“现在还只是早期阶段”时我是认真的。我相信 o3 对程序合成而言就像当年 AlexNet 对深度学习的影响一样——我们现在已经有了确凿证据证明基于深度学习的程序搜索是可行的。
现在我们又站在另一座大山的山脚从我的角度看它与深度学习在 AGI 里扮演的重要地位同样高也同样关键。
这一年里有很多事情让我感到惊讶包括 o3 的问世。但最令我吃惊的是越来越多的人开始关注 ARC Prize。
我这些年一直在向 AI 研究人员做 ARC 的调查。在 ARC Prize 今年六月启动之前只有大约十分之一的人听说过它。
而现在它无可争议地成为了尖端实验室使用的尖端基准以展示在 AGI 最尖端方向上的进展——这一人类史上最为重要的技术。
在这里也要对fchollet表示感谢他设计了这样一个出色的基准。
我会持续怀着感恩之心去引领更多的关注投向 AGI 和 ARC Prize我们 2025 年再见
大佬对O3发布发表的看法
来自歸藏的AI工具箱
可能过去几年我们会像记住ChatGPT发布的时间一样记住昨天晚上的时间。
整理了一些大佬对O3发布发表的看法
1/ 在我看来在FrontierMath上的进步比ARG-AGI更令人印象深刻。从2%跃升到25%
陶哲轩曾说这个数据集应该至少能抵抗人工智能几年并表示这些问题极其具有挑战性。
2/ 在技术可以创造一切的现实中那些知道什么不该创造、能够优雅地对某些可能性说“不”的人将脱颖而出。
3/ o3真的很特别每个人都需要更新他们对人工智能能力边界的认知。
虽然现在还处于早期阶段但这个系统展现了真正的智能提升这一点通过ARC-AGI得到了验证。
4/ 我相信o3是程序合成领域的AlexNet时刻。我们现在有了具体证据表明深度学习引导的程序搜索是有效的。
从我的角度来看我们正在仰望另一座同样高且对AGI同样重要的山峰。
5/ 这个模型在前沿数学基准测试中得分25%。这些数学问题难到几乎没有人能理解更不用说解决它们。我做不到你也做不到。
这就是经济奇点所有旧有的社会和经济模式都将崩塌。前方是一个巨大的未知世界没有人能真正理解即将发生什么。
6/ 更重要的是从o1到o3的进展仅用了三个月这表明在新范式下进展会有多快 —— 这种新范式是在思维链上使用强化学习来扩展推理计算能力。这比每1-2年训练一个新模型的传统预训练范式要快得多
o3的主要亮点
来自宝玉xp
OpenAI 连续 12 天 AI 发布会第十二天 —— 最新一代推理模型 o3 和 o3-mini 发布介绍
本视频是 OpenAI 12 天活动的最后一期,主要介绍了新一代推理模型 o3 和 o3-mini。主讲人包括 Sam Altman、Mark Chen、Hongyu Ren 以及特邀嘉宾 ARC Prize Foundation 主席 Greg Kamradt。
主要亮点
新模型发布
发布两个新模型:o3 和 o3-minio3 是高性能推理模型,o3-mini 则在保持智能的同时优化了性能和成本目前仅开放用于公共安全测试,预计一月底推出 o3-mini,随后推出 o3
o3 模型性能突破
在软件测试基准 SWE-bench Verified 上准确率达 71.7%,比 o1 提升 20%在 CodeForce 竞赛编程上达到 2727 ELO 分数AIME 数学竞赛准确率达 96.7%(o1 为 83.3%)在博士级科学问题基准 GPQA Diamond 上达到 87.7%在 ARC-AGI 测试上首次突破人类水平阈值(85%),达到 87.5%
o3-mini 特点与优势
支持三种推理努力级别:低、中、高性能方面:中等推理时间下性能超过 o1成本效益:以极小成本实现比 o1 更好的表现支持功能调用、结构化输出等开发者功能在 GPQA Diamond 上达到 62% 的分数
安全策略创新
推出审慎对齐(Prudent Alignment)新技术利用模型推理能力提升安全边界判断显著改善了拒绝基准和过度拒绝指标开放外部安全测试申请(截止至 1 月 10 日)
重要时间节点
安全测试申请截止:2025 年 1 月 10 日o3-mini 预计发布:2025 年 1 月底o3 完整版:将在 o3-mini 之后推出