每日經濟新聞 2025-01-24 07:34:10
1月23日,OpenAI通過直播發布了其首款AI代理工具Operator。這款工具能夠像人類一樣操作網頁瀏覽器,在有限監督下完成用戶交代的任務,被視為AI生產力的里程碑。作為OpenAI通往通用人工智能的第三步,Operator基于CUA模型,結合GPT-4的視覺能力和高級推理功能,可執行如預訂餐廳、網購等任務。
每經編輯 杜宇
OpenAI首個智能體終于亮相了!
美國初創公司OpenAI1月23日突然舉行直播活動,發布市場期待已久的首款AI代理工具Operator(意為操作員),能夠代理用戶執行基于網頁的操作。
圖片來源:直播視頻截圖
言簡意賅的解釋,就是Operator能夠像人類一樣使用網頁瀏覽器。
與“問一句、答一句”的聊天機器人不同,AI代理能夠在人類有限監督的情況下按照設定完成任務,也被普遍視為AI生產力的下一個里程碑。在OpenAI通往通用人工智能(AGI)的五個步驟中,AI代理是繼聊天機器人、推理機器人之后的第三步,也是全新的一步。
山姆·奧爾特曼介紹稱,從1月23日開始,美國的ChatGPT Pro用戶(一個月交200美元)將能使用“研究預覽版”的Operator。未來將拓展到更多區域的Pro用戶,幾個月后ChatGPT Plus用戶也能用上。同時在未來幾周、幾個月里,還會發布更多的AI代理。
目前,Operator尚處于研究預覽階段,僅向美國地區的Pro用戶開放。
Operator由一個名為CUA(計算機使用代理)的新模型驅動,結合了GPT-4o的視覺能力,以及通過強化學習實現的高級推理。Operator能夠“看見”網頁(截圖),并使用鼠標和鍵盤允許的所有操作與網頁進行互動。在操作中如果碰到困難,模型會調用推理能力進行自我糾正,若依然無法解決問題則會把控制權交還給人類。
如何使用 Operator?用戶只需簡單描述想要完成的任務,Operator 即可自動處理后續步驟。用戶可以隨時接管遠程瀏覽器的控制權。考慮到安全性和隱私性,Operator 被訓練為在需要登錄、輸入支付信息或解決 CAPTCHA 驗證碼等任務時,主動請求用戶接管。
Operator的界面與聊天機器人ChatGPT類似,最大的區別是調用“AI代理”完成用戶吩咐的事情。
在演示案例中,Operator被要求預訂某家飯店。用戶只需要在對話框中輸入“給我訂一個XX飯店今晚19點的桌子”,然后AI代理就會自己打開網頁,進入預訂網站,搜索餐廳并完成預訂。
Operator可以自動填寫繁瑣的在線表單、上網購物、創建表情包、處理重復性瀏覽器任務等等。
在另一個案例中,用戶上傳了一張寫有“雞蛋、菠菜、蘑菇”等雜貨的購物清單,要求Operator去買菜網站上進行操作。隨后AI就會打開瀏覽器,順著清單逐一搜索并加入購物車。
完成任務后,Operator會告訴用戶總共需要多少錢,以及騎手送達的時間,然后將瀏覽器的控制權交還給人類。
與瀏覽器多標簽頁功能類似,用戶可以通過創建新的對話,讓Operator同時運行多個任務,例如在Etsy上訂購個性化琺瑯杯,同時在 Hipcamp 上預訂露營地。
更令人印象深刻的是,Operator具備一定的自我糾錯能力。當遇到挑戰或犯錯時,它可以利用推理能力進行自我調整。如果遇到無法解決的問題,Operator會將控制權交還給用戶,實現人機協作的流暢體驗。
雖然CUA模型仍處于早期階段,存在一些局限性,但在WebArena和WebVoyager這兩個關鍵的瀏覽器使用基準測試中,它已經取得了最新的領先水平。
Operator的發布標志著AI從被動工具轉變為數字生態系統中的積極參與者。它不僅可以簡化用戶任務,還將為希望提供創新客戶體驗和提高轉化率的企業帶來代理的優勢。
OpenAI正在與DoorDash、Instacart、OpenTable、Priceline、StubHub、Thumbtack、Uber等公司合作,確保Operator能夠滿足真實世界的需求,并尊重既有規范。除了商業合作,OpenAI還看到了在公共部門應用中提高效率和可訪問性的巨大潛力。他們正與斯托克頓市等組織合作,簡化市民注冊城市服務和計劃的流程。
每日經濟新聞綜合公開資料
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP