OpenAI 發佈 o3 與 o4-mini 最強推理模型:能思考圖片、自動選用工具,數學、編碼性能再突破

動區BlockTempo

OpenAI 今日正式發表 o3 與 o4-mini 推理模型,首度實現圖像推理與多工具整合,社群看好其推進「AI 代理」的潛力。 (前情提要:OpenAI 傳秘密打造「自家社群平台」,劍指死對頭馬斯克的 X) (背景補充:GPT-5延期!OpenAI先推o3、o4-Mini,Sam Altman自曝:整合比想像中更難) 人工智慧巨頭 OpenAI 於今 (17) 日凌晨正式發佈兩款新一代推理模型——o3 與 o4-mini,強調其「圖像推理」與自主使用 ChatGPT 所有工具的能力,引發全球 AI 開發者社群熱議,象徵著該公司往「代理型 AI」再邁出跨出關鍵一步。 數學、編碼等性能突破 o3 被定位為 OpenAI 目前最強的推理模型,專為複雜的數學、科學、程式碼撰寫與圖像邏輯任務設計,在 SWE-bench Verified(軟體工程基準測試)中實現了最先進的效能,得分為 69.1%,領先 Claude 3.7 Sonnet 的 62.3%。 o4-mini 則在保留高推理力的同時,兼顧成本與速度,成為開發者的輕量首選。根據 OpenAI 的測試數據,o4-mini 在 AIME(美國數學競賽)2024 和 2025 的表現分別為 93.4% 和 92.7%,超越了完整版 o3,成為當前準確率最高的模型;在 Codeforces 比賽中獲得 2700 分,躋身全球前 200 名頂尖工程師。 o3 與 o4-mini 延續 o 系列強調的推理導向訓練方法,特別設計為「在回應前先思考更久」的模型架構,讓 AI 不只是反應快,更能解決複雜、多步驟的問題。這樣的設計,也代表 OpenAI 持續走在「更多推理時間 = 更高表現」的技術脈絡中,並於強化學習過程中驗證該假設。 圖像推理首度實現:AI 能「看懂圖表、草圖與PDF」 最引人注目的更新,在於兩款模型首度具備圖像推理能力。o3 與 o4-mini 能理解並分析圖像,低品質也可以,例如手寫白板、模糊 PDF、草圖與統計圖表,並納入多步推理流程。這代表 AI 不僅能閱讀與回應文字指令,更能「思考」圖像背後的邏輯與關聯,向真正的多模態代理系統邁進。 除了視覺理解能力提升,模型也能針對圖像進行操作,例如旋轉、縮放或變形處理,使圖像能成為推理鏈中的一環,解鎖跨模態問題的新解法。 多工具整合:從「聊天」走向「解決任務」 兩款模型皆能自主調用 ChatGPT 提供的各項工具,包括搜尋、程式執行、DALL·E 圖像生成與分析,實現從指令接收、資訊擷取到視覺推理的一體化流程。 不同於以往被動執行的工具使用邏輯,o3 與 o4-mini 具備自主決策能力,能根據問題性質自動選擇是否啟用搜尋、程式執行或圖像生成等工具,展現接近人類專家的工作流程。這種靈活的策略應用方式,也讓模型能根據輸入動態調整處理順序與內容,是朝「代理型 AI」邁進的重要里程碑。 OpenAI 並同步推出開源工具 Codex CLI,供開發者在本地終端整合 AI 協助完成程式碼撰寫與除錯。Codex CLI 現已開源,並有百萬美元規模的開發補助計畫開放申請。 定價與可用性:o4-mini 具「高CP值」優勢 o3 模型 API 價格為每百萬輸入 token 10 美元、輸出 token 40 美元;相較之下,o4-mini 僅需 1.10 美元與 4.40 美元,效能雖略遜一籌,卻有壓倒性成本優勢。ChatGPT Plus(20 美元/月)、Pro(200 美元/月)與 Team 用戶現已可使用,企業與教育機構將於一週後開放。 OpenAI 透過 o3 與 o4-mini 明確展示「推理型 AI」的進化方向,不僅是語言能力的提升,更首次實現圖像理解與工具操作的整合。這兩款模型不只是單點更新,更是「ChatGPT 邁向代理 AI」的重要轉折。未來推出的 o3-pro(將於未來幾週對 Pro 用戶開放)與 GPT-5,若能整合此輪技術突破,將有機會定義下一個 AI 世代的產品標準。 相關報導 OpenAI 強化 GPT-4o 衝上排行榜第二!Sam Altman:更懂人話和寫程式,創造力大增 OpenAI 重磅宣布:開放 Agents SDK 支援 MCP,串聯萬物再跨關鍵一步 OpenAI 新推最強生圖模型:精準製作資訊圖表、多模態輸入、品質逼真難辨,內建於GPT-4o 〈OpenAI 發佈 o3 與 o4-mini 最強推理模型:能思考圖片、自動選用工具,數學、編碼性能再突破〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.
Opmerking
0/400
Geen opmerkingen