壓軸大作！OpenAI 推出 o3 模型系列：AGI 評測最佳成績達到驚人的 87.5%，人類水平的門檻為 85%

12 月 20 日，OpenAI 在其為期 12 個工作日的線上新品釋出活動最後一日宣佈推出下一代模型 o3 及其精簡版 o3-mini。o3 在多個方面顯著超越了其前代 o1，在軟體工程、競賽數學和掌握人類博士級別的自然科學知識能力等方面表現出色。尤其在 ARC-AGI 評估中，o3 的成績達到 75.7%至 87.5%，超過了人類水平的 85%門檻。

alt text 圖片來源：視覺中國

o1 的下一代模型 o3

當地時間 12 月 20 日週五，在為期 12 個工作日的線上新品釋出活動最後一日，OpenAI 宣佈了“壓軸大作”：o1 的下一代模型 o3，而且一開始就要推出兩個版本，一個正式的 o3，還有一個相對較小的精簡版 o3-mini。

OpenAI 的 CEO Sam Altman 在直播中提到，OpenAI 本次 12 日的活動第一天官宣了上線正式版 o1、所謂滿血 o1。活動最後一天又有 o3 亮相，首尾都由介紹推理模型呼應，也算是一種精心設計。

邏輯上說，o1 的下一代應該命名為 o2，至於為什麼新模型叫 o3，之前報道稱，OpenAI 是為了避免和名為 O2 的英國電信服務商衝突。Altman 也確認了這點，說出於對 O2 的尊敬，並沒有起同樣的名字。

直播中，Altman 稱 o3 是“一個非常、非常聰明的模型”。OpenAi 的評估結果也顯示，無論在軟體工程、編寫程式碼，還是競賽數學、掌握人類博士級別的自然科學知識能力方面，o3 都明顯高出 o1 一籌。同時測試顯示，o3 在 OpenAI 實現通用人工智慧（AGI）這一奮鬥目標上取得了突破，最高的測試成績達到了類人水平。

今年 9 月，OpenAI 釋出 o1 的預覽版 o1 preview 時稱，o1 是第一個具備真正通用推理能力的大模型，它的核心能力推理在測試化學、物理和生物學專業知識的基準 GPQA-diamond 上得到了充分體現。據 OpenAI 評估，o1 在該測試中全面超過了人類博士專家，準確率達到 78.3%，而人類專家的得分為 69.7%。

o3 的測評表現

根據 OpenAI8 月推出的 SWE-bench Verified 程式碼生成評估基準，在軟體工程的能力測評中，o3 的準確度得分 71.7，即準確率 71.7%，遠超得分 48.9 的 o1 和得分 41.3 的 o1 preview。也就是說，o3 的準確率比 o1 正式版高將近 47%，比 o1 預覽版高將近 74%。

在競爭性程式設計網站 Codeforces 的競爭性程式碼測評中，o3 取得 2727 的 Elo 評分，o1 評分 1891，o1 preview 評分 1258。這個測評結果顯示，競爭性程式碼方面，o3 的評分比 o1 正式版高 44%，是 o1 預覽版的兩倍多。

alt text

經過 2024 年 AIME 數學競賽的題目測試，o3 的準確度得分為 96.7、即準確率 96.7%，大幅度超過了 o1 預覽版的 56.7 和 o1 的 83.3%，僅錯了一道題，相當於一名頂級數學家的水平。從競賽數學的角度看，o3 的準確率比 o1 正式版高 15%，比 o1 預覽版高近 71%。

以人類博士專家的測試考驗，在測試化學、物理和生物學專業知識的基準 GPQA-diamond 上，o3 的準確度得分為 87.7，即準確率 87.7%，o1 和 o1 preview 分別得分 78.0 和 78.3。o3 的準確率比 o1 高將近 13%，比 o1 預覽版高 12%。

alt text

o3 的推理能力

OpenAI 週五還展示了，o3 的推理能力已經更加接近實現 AGI。

以 100%為最高分的 ARC-AGI 評估結果顯示，o1 的得分在 25%到 32%，而 o3 的最低成績為 75.7%，最高成績為 87.5%。從這個結果看，o3 的最佳成績超過了標誌著達到人類水平的門檻 85%。

alt text

創始 ARC-AGI 標準的前谷歌高階工程師、AI 研究員 François Chollet 表示，OpenAI 這些推理模型在 AGI 測試中取得進步是“穩健的”。

Chollet 週五在社交媒體 X 發帖，公佈了同 OpenAI 合作進行的 ARC-AGI 測試結果，稱“我們相信這代表了讓 AI 適應新任務的重大突破。”

o3-mini 模型

與 o3 模型相比，o3-mini 模型在效能與成本平衡方面表現出色，能夠以較低的成本提供高效的服務。

在編碼評估方面，o3-mini 模型展現出了出色的效能提升。在 CodeForces 的評估中，隨著思考時間的增加，o3-mini 模型的表現不斷提升，逐漸超越了 o1-mini 模型。

在中位思考時間下，o3-mini 模型的效能甚至優於 o1 模型，能夠以大約一個數量級的更低成本提供相當甚至更好的程式碼效能。這意味著開發人員可以在不增加過多成本的情況下，獲得更高效的程式設計輔助，提高開發效率，降低開發成本。

alt text

在數學能力測試中，o3-mini 模型在 2024 年資料集上表現出色。o3-mini 低模型的效能與 o1-mini 相當，而 o3-mini 中位數模型則取得了比 o1 更好的效能。在處理諸如 GPQA 等困難資料集時，o3-mini 模型也能展現出一定的優勢，實現了接近即時響應的效果。

此外，o3-mini 模型支援函數呼叫、結構化輸出、開發者訊息等一系列功能，與 O1 模型相當。在實際應用中，o3-mini 模型在大多數評估中實現了可比或更好的效能。

在現場演示中，o3-mini 模型的強大功能得到了直觀展示。例如，在一項任務中，模型被要求使用 Python 實現一個程式碼生成器和執行器。當啟動執行該 Python 指令碼後，模型成功啟動了本地伺服器，並生成了包含文字框的使用者介面。

使用者在文字框中輸入編碼請求後，模型能夠迅速將請求傳送至 API，並自動解決任務，生成程式碼並儲存至桌面，隨後自動開啟終端執行程式碼。整個過程複雜且涉及大量程式碼處理，但 o3-mini 模型在低推理努力模式下依然表現出了極快的處理效率。

釋出計劃

alt text

雖然 o3 的測評看上去表現驚豔，但 OpenAI 應該不會很快面向大眾上線這款新的超級推理模型。

從 12 月 20 日開始，OpenAI 允許安全研究人員可以註冊訪問 o3 和 o3-mini 的預覽。OpenAI 的一名發言人稱，OpenAI 計劃明年初正式釋出這些新的 o3 模型。

壓軸大作！OpenAI 推出 o3 模型系列：AGI 評測最佳成績達到驚人的 87.5%，人類水平的門檻為 85%

o1 的下一代模型 o3 ​

o3 的測評表現 ​

o3 的推理能力 ​

o3-mini 模型 ​

釋出計劃 ​

o1 的下一代模型 o3

o3 的測評表現

o3 的推理能力

o3-mini 模型

釋出計劃