每日經濟新聞 2024-12-21 08:16:05
12月20日,OpenAI在其為期12個工作日的線上新品發布活動最后一日宣布推出下一代模型o3及其精簡版o3-mini。o3在多個方面顯著超越了其前代o1,在軟件工程、競賽數學和掌握人類博士級別的自然科學知識能力等方面表現出色。尤其在ARC-AGI評估中,o3的成績達到75.7%至87.5%,超過了人類水平的85%門檻。
每經編輯 杜宇
當地時間12月20日周五,在為期12個工作日的線上新品發布活動最后一日,OpenAI宣布了“壓軸大作”:o1的下一代模型o3,而且一開始就要推出兩個版本,一個正式的o3,還有一個相對較小的精簡版o3-mini。
OpenAI的CEO Sam Altman在直播中提到,OpenAI本次12日的活動第一天官宣了上線正式版o1、所謂滿血o1。活動最后一天又有o3亮相,首尾都由介紹推理模型呼應,也算是一種精心設計。
邏輯上說,o1的下一代應該命名為o2,至于為什么新模型叫o3,之前報道稱,OpenAI是為了避免和名為O2的英國電信服務商沖突。Altman也確認了這點,說出于對O2的尊敬,并沒有起同樣的名字。
直播中,Altman稱o3是“一個非常、非常聰明的模型”。OpenAi的評估結果也顯示,無論在軟件工程、編寫代碼,還是競賽數學、掌握人類博士級別的自然科學知識能力方面,o3都明顯高出o1一籌。同時測試顯示,o3在OpenAI實現通用人工智能(AGI)這一奮斗目標上取得了突破,最高的測試成績達到了類人水平。
圖片來源:視覺中國
今年9月,OpenAI發布o1的預覽版o1 preview時稱,o1是第一個具備真正通用推理能力的大模型,它的核心能力推理在測試化學、物理和生物學專業知識的基準GPQA-diamond上得到了充分體現。據OpenAI評估,o1在該測試中全面超過了人類博士專家,準確率達到78.3%,而人類專家的得分為69.7%。
在12月20日的直播中,OpenAI展示了o3的測評表現:
根據OpenAI8月推出的SWE-bench Verified代碼生成評估基準,在軟件工程的能力測評中,o3的準確度得分71.7,即準確率71.7%,遠超得分48.9的o1和得分41.3的o1 preview。也就是說,o3的準確率比o1正式版高將近47%,比o1預覽版高將近74%。
在競爭性編程網站Codeforces的競爭性代碼測評中,o3取得2727的Elo評分,o1評分1891,o1 preview評分1258。這個測評結果顯示,競爭性代碼方面,o3的評分比o1正式版高44%,是o1預覽版的兩倍多。
經過2024年AIME數學競賽的題目測試,o3的準確度得分為96.7、即準確率96.7%,大幅度超過了o1預覽版的56.7和o1的83.3%,僅錯了一道題,相當于一名頂級數學家的水平。從競賽數學的角度看,o3的準確率比o1正式版高15%,比o1預覽版高近71%。
以人類博士專家的測試考驗,在測試化學、物理和生物學專業知識的基準GPQA-diamond上,o3的準確度得分為87.7,即準確率87.7%,o1和o1 preview分別得分78.0和78.3。o3的準確率比o1高將近13%,比o1預覽版高12%。
OpenAI周五還展示了,o3的推理能力已經更加接近實現AGI。
以100%為最高分的ARC-AGI評估結果顯示,o1的得分在25%到32%,而o3的最低成績為75.7%,最高成績為87.5%。從這個結果看,o3的最佳成績超過了標志著達到人類水平的門檻85%。
創始ARC-AGI標準的前谷歌高級工程師、AI研究員François Chollet表示,OpenAI這些推理模型在AGI測試中取得進步是“穩健的”。
Chollet周五在社交媒體X發帖,公布了同OpenAI合作進行的ARC-AGI測試結果,稱“我們相信這代表了讓AI適應新任務的重大突破。”
與o3模型相比,o3Mini模型在性能與成本平衡方面表現出色,能夠以較低的成本提供高效的服務。
在編碼評估方面,o3Mini模型展現出了出色的性能提升。在CodeForces的評估中,隨著思考時間的增加,o3Mini模型的表現不斷提升,逐漸超越了o1Mini模型。
在中位思考時間下,o3Mini模型的性能甚至優于o1模型,能夠以大約一個數量級的更低成本提供相當甚至更好的代碼性能。這意味著開發人員可以在不增加過多成本的情況下,獲得更高效的編程輔助,提高開發效率,降低開發成本。
在數學能力測試中,o3Mini模型在2024年數據集上表現出色。o3Mini低模型的性能與o1Mini相當,而o3Mini中位數模型則取得了比o1更好的性能。在處理諸如GPQA等困難數據集時,o3Mini模型也能展現出一定的優勢,實現了接近即時響應的效果。
此外,o3Mini模型支持函數調用、結構化輸出、開發者消息等一系列功能,與O1模型相當。在實際應用中,o3Mini模型在大多數評估中實現了可比或更好的性能。
在現場演示中,o3Mini模型的強大功能得到了直觀展示。例如,在一項任務中,模型被要求使用Python實現一個代碼生成器和執行器。當啟動運行該Python腳本后,模型成功啟動了本地服務器,并生成了包含文本框的用戶界面。
用戶在文本框中輸入編碼請求后,模型能夠迅速將請求發送至API,并自動解決任務,生成代碼并保存至桌面,隨后自動打開終端執行代碼。整個過程復雜且涉及大量代碼處理,但o3 Mini模型在低推理努力模式下依然表現出了極快的處理效率。
雖然o3的測評看上去表現驚艷,但OpenAI應該不會很快面向大眾上線這款新的超級推理模型。
從12月20日開始,OpenAI允許安全研究人員可以注冊訪問o3 和 o3-mini的預覽。OpenAI的一名發言人稱,OpenAI計劃明年初正式發布這些新的o3模型。
每日經濟新聞綜合公開資料
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP