每日經濟新聞 2024-12-12 07:21:13
12月11日深夜,Google發布新模型Gemini 2.0,直指Agent使用,旨在打造能夠自主理解、規劃和執行任務的智能助手。此次發布包括Project Astra、Project Mariner、Jules和游戲Agent四大功能,支持多模態輸入輸出,提供免費API試用。
每經編輯 畢陸名
在OpenAI宣布連發12天更新后,Google選擇12月11日深夜(在OpenAI發布更新之前),發布新模型Gemini 2.0。
在多次發布被OpenAI精準狙擊后,Google扳回一局,發布了Gemini 2.0,直指Agent使用。Agent功能,也稱為智能體功能,通常指的是AI能夠感知環境、執行任務并在一定程度上獨立做出決策的能力,也就是能更自動化完成任務的功能。
此次Google似乎賭對了。OpenAI凌晨兩點的發布,主要宣布了和Apple Intelligence的合作,一個普遍被期待能與Agent能力強相關的合作。
Google,則一次性發布了四個Agent相關的功能:
Project Astra,能夠在Gemini應用中直接調用Google Lens和地圖功能幫用戶解決問題;
Project Mariner(海員項目),Chrome瀏覽器的實驗性功能,可以通過提示詞直接幫用戶瀏覽網頁做任務;
Jules,可以嵌入GitHub的編程Agent,使用自然語言描述問題,就能直接生成可以合并到GitHub項目中的代碼;
游戲Agent,能夠實時解讀屏幕畫面,直接在你打游戲的時候通過和你語音交流,給你AI打法提示。
據悉,Gemini 2.0 Flash及API免費可用!可以通過Google AI Studio和Vertex AI中的Gemini API使用,基本不要錢,每分鐘最多15個提問,每天最多1500個提問。明年初全面開放。
Gemini 2.0 Flash是2.0家族第一個模型,主推原生多模態輸入輸出+Agent,速度比1.5 Pro快兩倍,關鍵性能指標甚至超過了1.5 Pro!支持原生工具調用、以及實時音視頻流輸入等新功能。
速度更快,多模態、文本、代碼、視頻、空間理解和推理能力全面提升!新能力比如空間理解,視頻理解等可以通過Googele AI Studio的Starter Apps來體驗;
例如1,Gemini 2.0對空間的理解,利用Spatial Understanding,上傳一張圖片,Gemini快速進行圖像中的物體檢測和標注,并生成結構化的數據(JSON格式)。它的設計直觀,用戶可以通過簡單的交互操作快速獲得檢測結果。這種工具可能用于機器學習訓練數據準備、圖像分析或計算機視覺研究等場景;
例如2,Gemini 2.0地圖交互,利用Map explorer,show一下世界上最有意思的大城市;
全新輸出模態:支持文本、音頻和圖像的集成響應,多語言原生音頻輸出,8種高品質語音,多種語言和口音!原生圖像輸出,還能進行多輪編輯迭代直到生成滿意的圖像;
原生工具使用:Gemini 2.0可以直接調用Google搜索、代碼執行等工具,還能通過函數調用使用自定義的第三方函數!
多模態實時API:支持實時音視頻流輸入,還能進行語音活動檢測,甚至可以集成多個工具完成復雜任務!現在通過Stream Realtime就可以體驗;
例如,把電腦屏幕交給Gemini 2.0接管,它可以在你與模型實時交互的同時進行搜索和編碼。
谷歌正在積極探索AI“代理”的應用,目標是打造能夠自主理解、規劃和執行任務的智能助手。他們已經推出了一系列Agent原型(目前僅供測試人員使用),展示了AI代理在不同領域的巨大潛力:
Jules,你的AI編程伙伴:想象一下,你的團隊剛完成了一輪bug排查,一堆bug亟待修復。現在,你可以把Python和JavaScript的編碼任務交給Jules。它與你的GitHub工作流無縫集成,可以異步處理bug修復和其他耗時的任務,讓你專注于核心開發工作。Jules會創建全面的、多步驟的計劃來解決問題,高效地修改多個文件,甚至能準備pull requests,直接將修復提交到GitHub!更重要的是,Jules賦予開發者更多自主權:你可以隨時查看Jules創建的計劃,提供反饋或要求調整,并輕松審查和合并Jules編寫的代碼。
Colab數據科學代理,你的AI分析師:繁瑣的數據分析Colab數據科學代理幫你搞定!只需用自然語言描述你的分析目標,Colab就能自動生成一個完整的notebook,并在幾分鐘內提供洞察。所有分析都基于一個可運行的Colab notebook,保證結果的可靠性和可重復性。這將極大地加速你的研究和數據分析進程。
Project Mariner,重新定義人機交互:Project Mariner旨在探索人機交互的未來,從瀏覽器開始。它是一個實驗性的Chrome擴展程序,可以讓AI代理在你的瀏覽器中執行各種任務,例如查找信息、填寫表格、甚至與網站進行交互。
Gemini Advance模式:谷歌在高級版中推出一項名為"深度研究"的新代理功能,這是一個研究助手,可以深入研究復雜的主題,并為你創建帶有相關來源鏈接的報告,感覺這是直接寫科研論文的節奏。
游戲和其他領域的AI代理:DeepMind在游戲AI領域積累了豐富的經驗,現在他們將Gemini 2.0應用于游戲代理的開發。例如,一個AI伙伴陪你一起玩游戲,還能提供專業的指導,游戲體驗將提升到一個全新的層次!更牛的是,這些代理還能連接到Google搜索,獲取海量的游戲知識,成為你真正的游戲專家!目前,他們正與Supercell等游戲開發商合作,在“部落沖突”和“卡通農場”等游戲中測試這些代理。
谷歌9日宣布推出最新量子芯片Willow。谷歌首席執行官孫達爾·皮柴稱其為邁向打造實用量子計算機的重要一步。
谷歌在官方博客刊文說,Willow取得了兩項重大成就:首先,使用更多量子比特進行擴展,可大幅度減少錯誤,解決了量子糾錯領域近30年來一直試圖攻克的關鍵難題。另外,在標準基準計算測試中,Willow展示了非常高的性能。
量子比特利用疊加態來進行計算,對環境擾動極其敏感。通常量子比特越多,發生的錯誤就越多,而新研究有助解決這一難題。這一已發布在《自然》雜志上的研究顯示,在Willow芯片中使用的量子比特越多,系統的錯誤率越低,“取得了‘低于閾值’的歷史性成就,即在增加量子比特數量的同時降低錯誤率”。
谷歌量子人工智能實驗室創始人和領導者哈特穆特·內文說,作為第一個低于閾值的系統,這是迄今為止最可信的可擴展邏輯量子比特原型。Willow芯片的推出讓量子計算向商業應用方向邁進了一大步。下一步挑戰是展示量子芯片超越經典計算機,又能解決現實問題的能力。
內文還表示,谷歌首創的隨機電路采樣(RCS)基準,已被廣泛用于量子計算領域,是當今量子計算機可完成的難度最高的經典基準。Willow基于該基準取得了驚人表現,在不到五分鐘的時間完成了當今領先的超級計算機需要10的25次方年才能完成的計算,“這一令人難以置信的數字超出了物理學中已知的時間尺度,遠遠超過了宇宙年齡”。
內文說,人工智能和量子計算將被證明是當代最具變革性的兩項技術,先進的人工智能將從量子計算中受益匪淺。這也是他將實驗室命名為量子人工智能的原因。
每日經濟新聞綜合Google官網、公開消息
封面圖片來源:視頻截圖
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP