要聞

Google深夜狙擊OpenAI，Gemini 2.0登場！全面轉向Agent，多模態輸入輸出，免費隨便玩

每日經濟新聞 2024-12-12 07:21:13

12月11日深夜，Google發布新模型Gemini 2.0，直指Agent使用，旨在打造能夠自主理解、規劃和執行任務的智能助手。此次發布包括Project Astra、Project Mariner、Jules和游戲Agent四大功能，支持多模態輸入輸出，提供免費API試用。

每經編輯畢陸名

在OpenAI宣布連發12天更新后，Google選擇12月11日深夜（在OpenAI發布更新之前），發布新模型Gemini 2.0。

圖片來源：Google官網截圖

在多次發布被OpenAI精準狙擊后，Google扳回一局，發布了Gemini 2.0，直指Agent使用。Agent功能，也稱為智能體功能，通常指的是AI能夠感知環境、執行任務并在一定程度上獨立做出決策的能力，也就是能更自動化完成任務的功能。

此次Google似乎賭對了。OpenAI凌晨兩點的發布，主要宣布了和Apple Intelligence的合作，一個普遍被期待能與Agent能力強相關的合作。

Google，則一次性發布了四個Agent相關的功能：

Project Astra，能夠在Gemini應用中直接調用Google Lens和地圖功能幫用戶解決問題；

Project Mariner（海員項目），Chrome瀏覽器的實驗性功能，可以通過提示詞直接幫用戶瀏覽網頁做任務；

Jules，可以嵌入GitHub的編程Agent，使用自然語言描述問題，就能直接生成可以合并到GitHub項目中的代碼；

游戲Agent，能夠實時解讀屏幕畫面，直接在你打游戲的時候通過和你語音交流，給你AI打法提示。

據悉，Gemini 2.0 Flash及API免費可用！可以通過Google AI Studio和Vertex AI中的Gemini API使用，基本不要錢，每分鐘最多15個提問，每天最多1500個提問。明年初全面開放。

谷歌Gemini 2.0炸裂功能

Gemini 2.0 Flash是2.0家族第一個模型，主推原生多模態輸入輸出+Agent，速度比1.5 Pro快兩倍，關鍵性能指標甚至超過了1.5 Pro！支持原生工具調用、以及實時音視頻流輸入等新功能。

速度更快，多模態、文本、代碼、視頻、空間理解和推理能力全面提升！新能力比如空間理解，視頻理解等可以通過Googele AI Studio的Starter Apps來體驗；

例如1，Gemini 2.0對空間的理解，利用Spatial Understanding，上傳一張圖片，Gemini快速進行圖像中的物體檢測和標注，并生成結構化的數據（JSON格式）。它的設計直觀，用戶可以通過簡單的交互操作快速獲得檢測結果。這種工具可能用于機器學習訓練數據準備、圖像分析或計算機視覺研究等場景；

例如2，Gemini 2.0地圖交互，利用Map explorer，show一下世界上最有意思的大城市；

全新輸出模態：支持文本、音頻和圖像的集成響應，多語言原生音頻輸出，8種高品質語音，多種語言和口音！原生圖像輸出，還能進行多輪編輯迭代直到生成滿意的圖像；

原生工具使用：Gemini 2.0可以直接調用Google搜索、代碼執行等工具，還能通過函數調用使用自定義的第三方函數！

多模態實時API：支持實時音視頻流輸入，還能進行語音活動檢測，甚至可以集成多個工具完成復雜任務！現在通過Stream Realtime就可以體驗；

例如，把電腦屏幕交給Gemini 2.0接管，它可以在你與模型實時交互的同時進行搜索和編碼。

谷歌正在積極探索AI“代理”的應用，目標是打造能夠自主理解、規劃和執行任務的智能助手。他們已經推出了一系列Agent原型（目前僅供測試人員使用），展示了AI代理在不同領域的巨大潛力：

Jules，你的AI編程伙伴：想象一下，你的團隊剛完成了一輪bug排查，一堆bug亟待修復。現在，你可以把Python和JavaScript的編碼任務交給Jules。它與你的GitHub工作流無縫集成，可以異步處理bug修復和其他耗時的任務，讓你專注于核心開發工作。Jules會創建全面的、多步驟的計劃來解決問題，高效地修改多個文件，甚至能準備pull requests，直接將修復提交到GitHub！更重要的是，Jules賦予開發者更多自主權：你可以隨時查看Jules創建的計劃，提供反饋或要求調整，并輕松審查和合并Jules編寫的代碼。

Colab數據科學代理，你的AI分析師：繁瑣的數據分析Colab數據科學代理幫你搞定！只需用自然語言描述你的分析目標，Colab就能自動生成一個完整的notebook，并在幾分鐘內提供洞察。所有分析都基于一個可運行的Colab notebook，保證結果的可靠性和可重復性。這將極大地加速你的研究和數據分析進程。

Project Mariner，重新定義人機交互：Project Mariner旨在探索人機交互的未來，從瀏覽器開始。它是一個實驗性的Chrome擴展程序，可以讓AI代理在你的瀏覽器中執行各種任務，例如查找信息、填寫表格、甚至與網站進行交互。

Gemini Advance模式：谷歌在高級版中推出一項名為"深度研究"的新代理功能，這是一個研究助手，可以深入研究復雜的主題，并為你創建帶有相關來源鏈接的報告，感覺這是直接寫科研論文的節奏。

游戲和其他領域的AI代理：DeepMind在游戲AI領域積累了豐富的經驗，現在他們將Gemini 2.0應用于游戲代理的開發。例如，一個AI伙伴陪你一起玩游戲，還能提供專業的指導，游戲體驗將提升到一個全新的層次！更牛的是，這些代理還能連接到Google搜索，獲取海量的游戲知識，成為你真正的游戲專家！目前，他們正與Supercell等游戲開發商合作，在“部落沖突”和“卡通農場”等游戲中測試這些代理。

谷歌推出突破性量子芯片

谷歌9日宣布推出最新量子芯片Willow。谷歌首席執行官孫達爾·皮柴稱其為邁向打造實用量子計算機的重要一步。

谷歌在官方博客刊文說，Willow取得了兩項重大成就：首先，使用更多量子比特進行擴展，可大幅度減少錯誤，解決了量子糾錯領域近30年來一直試圖攻克的關鍵難題。另外，在標準基準計算測試中，Willow展示了非常高的性能。

量子比特利用疊加態來進行計算，對環境擾動極其敏感。通常量子比特越多，發生的錯誤就越多，而新研究有助解決這一難題。這一已發布在《自然》雜志上的研究顯示，在Willow芯片中使用的量子比特越多，系統的錯誤率越低，“取得了‘低于閾值’的歷史性成就，即在增加量子比特數量的同時降低錯誤率”。

谷歌量子人工智能實驗室創始人和領導者哈特穆特·內文說，作為第一個低于閾值的系統，這是迄今為止最可信的可擴展邏輯量子比特原型。Willow芯片的推出讓量子計算向商業應用方向邁進了一大步。下一步挑戰是展示量子芯片超越經典計算機，又能解決現實問題的能力。

內文還表示，谷歌首創的隨機電路采樣(RCS)基準，已被廣泛用于量子計算領域，是當今量子計算機可完成的難度最高的經典基準。Willow基于該基準取得了驚人表現，在不到五分鐘的時間完成了當今領先的超級計算機需要10的25次方年才能完成的計算，“這一令人難以置信的數字超出了物理學中已知的時間尺度，遠遠超過了宇宙年齡”。

內文說，人工智能和量子計算將被證明是當代最具變革性的兩項技術，先進的人工智能將從量子計算中受益匪淺。這也是他將實驗室命名為量子人工智能的原因。

每日經濟新聞綜合Google官網、公開消息

封面圖片來源：視頻截圖

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權，嚴禁轉載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯系索取稿酬。如您不希望作品出現在本站，可聯系我們要求撤下您的作品。

Ai MINI

上一篇文章

以軍空襲黎巴嫩南部致5人死亡

返回每經網首頁

下一篇文章

黃茅?？绾Ｍǖ勒酵ㄜ?；港穗跨境直升機商業服務即將開通丨大灣區財經早參