12 月 20 日,OpenAI 在其为期 12 个工作日的线上新品发布活动最后一日宣布推出下一代模型 o3 及其精简版 o3-mini。o3 在多个方面显著超越了其前代 o1,在软件工程、竞赛数学和掌握人类博士级别的自然科学知识能力等方面表现出色。尤其在 ARC-AGI 评估中,o3 的成绩达到 75.7%至 87.5%,超过了人类水平的 85%门槛。
图片来源:视觉中国
o1 的下一代模型 o3
当地时间 12 月 20 日周五,在为期 12 个工作日的线上新品发布活动最后一日,OpenAI 宣布了“压轴大作”:o1 的下一代模型 o3,而且一开始就要推出两个版本,一个正式的 o3,还有一个相对较小的精简版 o3-mini。
OpenAI 的 CEO Sam Altman 在直播中提到,OpenAI 本次 12 日的活动第一天官宣了上线正式版 o1、所谓满血 o1。活动最后一天又有 o3 亮相,首尾都由介绍推理模型呼应,也算是一种精心设计。
逻辑上说,o1 的下一代应该命名为 o2,至于为什么新模型叫 o3,之前报道称,OpenAI 是为了避免和名为 O2 的英国电信服务商冲突。Altman 也确认了这点,说出于对 O2 的尊敬,并没有起同样的名字。
直播中,Altman 称 o3 是“一个非常、非常聪明的模型”。OpenAi 的评估结果也显示,无论在软件工程、编写代码,还是竞赛数学、掌握人类博士级别的自然科学知识能力方面,o3 都明显高出 o1 一筹。同时测试显示,o3 在 OpenAI 实现通用人工智能(AGI)这一奋斗目标上取得了突破,最高的测试成绩达到了类人水平。
今年 9 月,OpenAI 发布 o1 的预览版 o1 preview 时称,o1 是第一个具备真正通用推理能力的大模型,它的核心能力推理在测试化学、物理和生物学专业知识的基准 GPQA-diamond 上得到了充分体现。据 OpenAI 评估,o1 在该测试中全面超过了人类博士专家,准确率达到 78.3%,而人类专家的得分为 69.7%。
o3 的测评表现
根据 OpenAI8 月推出的 SWE-bench Verified 代码生成评估基准,在软件工程的能力测评中,o3 的准确度得分 71.7,即准确率 71.7%,远超得分 48.9 的 o1 和得分 41.3 的 o1 preview。也就是说,o3 的准确率比 o1 正式版高将近 47%,比 o1 预览版高将近 74%。
在竞争性编程网站 Codeforces 的竞争性代码测评中,o3 取得 2727 的 Elo 评分,o1 评分 1891,o1 preview 评分 1258。这个测评结果显示,竞争性代码方面,o3 的评分比 o1 正式版高 44%,是 o1 预览版的两倍多。
经过 2024 年 AIME 数学竞赛的题目测试,o3 的准确度得分为 96.7、即准确率 96.7%,大幅度超过了 o1 预览版的 56.7 和 o1 的 83.3%,仅错了一道题,相当于一名顶级数学家的水平。从竞赛数学的角度看,o3 的准确率比 o1 正式版高 15%,比 o1 预览版高近 71%。
以人类博士专家的测试考验,在测试化学、物理和生物学专业知识的基准 GPQA-diamond 上,o3 的准确度得分为 87.7,即准确率 87.7%,o1 和 o1 preview 分别得分 78.0 和 78.3。o3 的准确率比 o1 高将近 13%,比 o1 预览版高 12%。
o3 的推理能力
OpenAI 周五还展示了,o3 的推理能力已经更加接近实现 AGI。
以 100%为最高分的 ARC-AGI 评估结果显示,o1 的得分在 25%到 32%,而 o3 的最低成绩为 75.7%,最高成绩为 87.5%。从这个结果看,o3 的最佳成绩超过了标志着达到人类水平的门槛 85%。
创始 ARC-AGI 标准的前谷歌高级工程师、AI 研究员 François Chollet 表示,OpenAI 这些推理模型在 AGI 测试中取得进步是“稳健的”。
Chollet 周五在社交媒体 X 发帖,公布了同 OpenAI 合作进行的 ARC-AGI 测试结果,称“我们相信这代表了让 AI 适应新任务的重大突破。”
o3-mini 模型
与 o3 模型相比,o3-mini 模型在性能与成本平衡方面表现出色,能够以较低的成本提供高效的服务。
在编码评估方面,o3-mini 模型展现出了出色的性能提升。在 CodeForces 的评估中,随着思考时间的增加,o3-mini 模型的表现不断提升,逐渐超越了 o1-mini 模型。
在中位思考时间下,o3-mini 模型的性能甚至优于 o1 模型,能够以大约一个数量级的更低成本提供相当甚至更好的代码性能。这意味着开发人员可以在不增加过多成本的情况下,获得更高效的编程辅助,提高开发效率,降低开发成本。
在数学能力测试中,o3-mini 模型在 2024 年数据集上表现出色。o3-mini 低模型的性能与 o1-mini 相当,而 o3-mini 中位数模型则取得了比 o1 更好的性能。在处理诸如 GPQA 等困难数据集时,o3-mini 模型也能展现出一定的优势,实现了接近即时响应的效果。
此外,o3-mini 模型支持函数调用、结构化输出、开发者消息等一系列功能,与 O1 模型相当。在实际应用中,o3-mini 模型在大多数评估中实现了可比或更好的性能。
在现场演示中,o3-mini 模型的强大功能得到了直观展示。例如,在一项任务中,模型被要求使用 Python 实现一个代码生成器和执行器。当启动运行该 Python 脚本后,模型成功启动了本地服务器,并生成了包含文本框的用户界面。
用户在文本框中输入编码请求后,模型能够迅速将请求发送至 API,并自动解决任务,生成代码并保存至桌面,随后自动打开终端执行代码。整个过程复杂且涉及大量代码处理,但 o3-mini 模型在低推理努力模式下依然表现出了极快的处理效率。
发布计划
虽然 o3 的测评看上去表现惊艳,但 OpenAI 应该不会很快面向大众上线这款新的超级推理模型。
从 12 月 20 日开始,OpenAI 允许安全研究人员可以注册访问 o3 和 o3-mini 的预览。OpenAI 的一名发言人称,OpenAI 计划明年初正式发布这些新的 o3 模型。