OpenAI Launches o3 and o3 Mini: A New Era in AI Reasoning

來自 OpenAI 的 O3 model 設計用於高效處理複雜查詢，同時保持高準確性。目前內部安全測試正在進行中，預計在 2025 年初公開發佈。

🔥 您可以閱讀 AIPURE 的文章 "12 Days of OpenAI Content Update 2024" 了解更多關於 OpenAI 的 o3 和 o3 Mini 模型。(https://aipure.ai/articles/12-days-of-openai-content-update-2024)

OpenAI 的 o3 和 o3 Mini 模型介紹

OpenAI 的 o3 和 o3 Mini 模型的推出標誌著 AI 技術的重大進步。o3 模型是之前推出的 o1 推理模型的繼任者，旨在處理需要複雜推理的任務。通過提升其能力，OpenAI 試圖重新定義 AI 如何在編碼、數學和科學研究等領域處理複雜問題。

OpenAI: ChatGPT Atlas

Free Trial

Large Language Models (LLMs)

ChatGPT Atlas 是 OpenAI 的 AI 驅動網路瀏覽器，它將 ChatGPT 直接整合到瀏覽體驗中，允許使用者在網路上的任何地方與 ChatGPT 互動，同時提供網頁摘要、任務自動化和個人化協助等功能。

訪問網站

OpenAI 的 o3 和 o3 Mini 的主要特徵

先進的推理能力

o3 模型建立在增強的推理能力基礎上，使其能夠比前代產品更深入地處理信息。它採用了一種深思熟慮的方法，能夠通過逐步分析生成答案。

早期的基準測試顯示，o3 AI 取得了令人驚訝的結果：

在 SWE-bench 編碼基準測試中，71.7% 的準確率
在 Codeforces 程序設計挑戰中，獲得 2727 分
在 AIME 2024 等數學推理測試中，96.7% 的準確率

這些得分表明，OpenAI 的 o3 模型在多個領域的表現可以超過人類水平的推理能力，使其成為開發者和研究者的強大工具。

OpenAI 的 o3 Mini：成本效益

o3 Mini 模型提供了一個更具成本效益的替代方案，而不犧牲性能。它具有自適應推理級別，允許用戶根據任務複雜度選擇低、中或高努力模式。這種靈活性使其適合各種應用，從常規任務到高風險的問題解決場景。

低努力模式 用於簡單任務的速度
高努力模式 以較低的成本匹配完整 o3 模型的能力

這種適應性確保 o3 模型和 o3 Mini 都能滿足多樣化的用戶需求，同時優化資源使用。

性能基準：設立新標準

這兩種模型在 AI 評估中設立了新的基準：

o3 模型在 ARC AGI 基準測試中取得了前所未有的 87.5% 的成績，該測試評估 AI 在不依賴預訓練知識的情況下的推理能力。
在 GPQA Diamond 等科學評估中，OpenAI 的 o3 達到了 87.7% 的準確率，展示了其處理博士級問題的能力。

這些表現突顯了模型在處理複雜任務時的卓越準確性和效率。

致力於安全和道德部署

OpenAI 致力於確保其技術的負責任部署。o3 模型和 o3 Mini 在公開發佈前正在進行嚴格的內部安全測試。這種謹慎的態度反映了 OpenAI 將高級 AI 系統與人類價值觀和社會利益對齊的決心。

公司還實施了“深思熟慮的對齊”策略，旨在增強安全性並在測試階段邀請社區反饋。這種參與對於塑造 AI 部署的未來格局至關重要，因為 OpenAI 繼續其實現 AGI（人工通用智能）的旅程。隨著 AI 領域的競爭加劇——近期其他科技巨頭的進步就是證據——OpenAI 對開發可靠和道德的 AI 工具的專注使其成為行業領導者。