首頁輪播

“AI教母”李飛飛：Sora仍是二維圖像，只有三維空間智能才能實現AGI

鈦媒體 2024-08-03 16:08:17

8月2日消息，日前斯坦福大學舉辦的Asian American Scholar Forum論壇的一場閉門會上，有著“AI教母”之稱的斯坦福大學教授李飛飛對鈦媒體App獨家表示，盡管美國OpenAI公司的Sora模型可以文生視頻，但就本質而言，它仍屬平面二維模型，沒有三維立體理解能力，只有“空間智能”才是AGI未來方向。

李飛飛是在針對鈦媒體創始人趙何娟提出的關于“空間智能”模型和大語言模型關系的問題討論時，做出上述回應。她進一步解釋稱，現在的多數模型如GPT4o和Gemini 1.5，都依然還是語言類模型，即輸入語言，輸出語言，雖然也有多模態模型，但仍局限于語言，即便有視頻，也是基于二維的平面圖像。但未來要實現AGI的關鍵一環是“空間智能“，需要三維視覺模型。

她以Sora展示的“日本女性走過霓虹閃爍東京街頭”的AI視頻做例子。

“如果你希望算法換個角度，來展現這個女子走過街頭的視頻，比如把攝像機放在女子背后，Sora無法做到。因為這個模型對于三維世界并沒有真正的深刻理解。而人類可以在腦海中想象女子背后的情景。”李飛飛表示，“人類可以理解在復雜的環境下如何活動。我們知道如何抓取，如何控制，如何造工具，如何建造城市。根本而言，空間智能是幾何形狀，是物體間的關系，是三維空間。空間智能是關于釋放在三維空間生成（視覺地圖）并推理和規劃行動的能力。其應用是廣泛的，比如用于AR和VR，用于機器人，App的設計也需要空間智能。”

李飛飛向鈦媒體App強調，“自然進化使動物理解三維世界，在三維空間生活、預判并互動。這種能力已有5.4億年的漫長歷史。當三葉蟲第一次在水中看到光，它必須在三維世界中‘導航’。如果不能在三維世界中‘導航’，它將很快成為其他動物的大餐。隨著進化的推移，動物的空間智能能力加強。我們理解形狀，我們理解深度。”

現年48歲的李飛飛，是著名計算機科學家、美國國家工程院院士、美國國家醫學院院士，并且在美國斯坦福大學以人為本的AI研究所擔任負責人。她于2009年領導研發的ImageNet圖片數據庫和視覺識別大賽，對海量圖片進行精準標注和分類，推動了計算機視覺的識別能力的進步，也是促成AI突飛猛進發展的關鍵因素之一。去年，她公布的VoxPoser成為具身智能（Embodied AI）發展中關鍵技術方向。

今年7月，李飛飛創辦的AI公司World Labs宣布完成兩輪融資，投資方包括a16z（Andreessen Horowitz）等，公司最新估值已達10億美元（約合72.6億元人民幣）。

7月底這場亞裔美國科學家論壇閉門會上，李飛飛的演講也讓更多人了解到Word Labs和她的“空間智能”發展理念到底是什么，即要讓AI真正“從看到，到做到”。

視覺中國（不可商用）-科技、科研、應用-AI字母圖、人工智能技術創新-VCG41N1472123004.jpg

圖片來源：視覺中國-VCG41N1472123004

如何實現從“看到”到“做到”

所謂“空間智能”，是指人們或機器在三維空間中的感知、理解和交互能力。

這一概念最早由美國心理學家霍華德·加德納（Howard Gardner）在多元智能理論中提出，讓在大腦中形成一個外部空間世界的模式，并能夠運用和操作。實際上，空間智能讓人有能力以三度空間的方式來思考，使人知覺到外在和內在的影像，也能重現、轉變或修飾影像，從而能夠在空間中從容地游走，隨心所欲地操弄物件的位置，以產生或解讀圖形的訊息。

從廣義上看，空間智能不僅包括對空間方位的感知能力，還包括視覺辨別能力和形象思維能力。而對于機器而言，空間智能則是指其在三維空間中的視覺數據處理能力，能夠精準做出預測，并基于這些預測采取行動。這種能力使得機器能夠像人類一樣在復雜的三維世界中導航、操作和決策，從而超越傳統二維視覺的局限。

今年4月舉行的TED演講上，李飛飛坦言，視覺能力引發了寒武紀大爆發，神經系統的進化帶來了智能。“我們想要的不僅僅是能看會說的AI，我們想要的是能做的AI。”

在李飛飛看來，空間智能是“解決AI技術難題的關鍵法寶”。

7月底這場閉門活動上，李飛飛首先回顧了自10年前開始的現代AI三大驅動力：算法構成的“神經網絡”，即“深度學習”；現代芯片，主要是英偉達GPU芯片；以及大數據。

自2009年以來，計算機視覺領域進入爆炸式進展。機器可以迅速認出物體，和人類的表現不相上下。但這只是冰山一角。計算機數視覺不僅可以識別靜止的物體，跟蹤移動的物體，而且可以將物體分成不同部分，甚至可以理解物體之間的關系。因此，基于圖片大數據，計算機視覺領域突飛猛進。

李飛飛清晰地記得，大約10年前，她的學生Andrej Karpathy參與建立圖釋算法研究。他們給計算機展示一張圖片，接著通過神經網絡，計算機可以輸出自然語言，比如說：“這是一只貓咪躺在床上。”

“我記得告訴Andrej，讓我們反轉一下。比如給一個句子，讓計算機給出一張圖片。我們都笑了，覺得可能永遠不會實現，或者將在很遠的未來實現，”李飛飛回憶說。

過去兩年，生成式AI技術迅猛發展。特別是幾個月前，OpenAI發布了視頻生成算法Sora。她展示了她的學生們在谷歌研發的類似產品，質量非常好。這個產品在Sora發布以前幾個月就存在了，而且所用的GPU（圖形處理器）規模比Sora少很多。問題是，接下來AI將走向何方？

“多年來，我一直表示，‘看到’即為‘理解世界’。但是我愿意將這個概念推進一步，‘看到’不僅僅是為了理解，而是為了做到。自然界創造了像我們這樣有感知能力的動物，但實際上從4.5億年前，就存在這樣的動物。因為這是進化的必要條件：看到和做到是一個閉環，”李飛飛表示。

她用她最喜歡的貓咪作為例子。

一只貓咪、一杯牛奶、還有植物在桌子上的照片。當你看到這張照片時，你腦海里其實出現一個三維視頻。你看到了形狀，你看到了幾何。

事實上，你看到了幾秒鐘前已經發生的事情，和幾秒種后可能發生的事情。你看到了這張照片的三維空間。你在計劃接下來做點什么。你大腦在運轉，計算如何做才能拯救你的地毯，特別是這只貓咪是你自己的，地毯也是你自己的。

“我把這一切稱作空間智能，也就是將三維世界做成模型，就物體、地點、事件等在三維空間和時間內等進行推理。在這個例子里，我談的是真實世界，但也可以指虛擬的世界。但是空間智能的底線是將“看到”和“做到”聯系在一起。有一天，AI將可以做到這一點，“李飛飛表示。

其次，李飛飛展示了基于多張照片重建的三維視頻，然后她給出基于一張照片做的三維視頻，這些技術都可用于設計中。

李飛飛表示，具身智能AI或者人形機器人，可以將把“看到”與“做到”形成閉環。

她表示，斯坦福大學的同事們和芯片巨頭英偉達正在聯合進行名為BEHAVIOR的研究，將家庭活動構建一個基準的動態空間，從而評估各種機器人在居家環境中的表現。“我們正在研究如何將語言模型與大型視覺模型相連接，從而可以指揮機器人制定計劃并開始行動，“她說。她給出三個例子，一個是機器人在打開抽屜，另一個是機器人在將手機充電線拔掉，第三個是機器人在做三明治。所有指令均通過人類的自然語言給出。

最后，她給出一個例子，認為未來屬于“空間智能”世界，人類可以坐在那里，帶上一頂有傳感器的EEG帽子，不用張嘴說話，僅靠意念遠程告訴機器人：做一頓日式大餐吧。機器人收到意念后，解密意念，即可搞出全套大餐。

“當我們將‘看到’與‘做到’通過空間智能聯系在一起后，我們即可做到。”她表示。

李飛飛還表示，過去20年，她見證了AI激動人心的發展。但是，她認為AI或者AGI的關鍵一環就是空間智能。通過空間智能，看到世界、感知世界、理解世界并讓機器人做事，從而形成良性閉環。

機器人將接管人類嗎？

李飛飛在會議上表示，今天人們對于AI未來可以做什么太過夸張。她警告，人們不要將野心勃勃的、勇敢的目標與現實混為一談，人們聽到太多這樣的論調。

事實上，當前AI已經到達拐點，特別是大語言模型。“但是，它仍然是充滿錯誤的、有限的技術，仍需要人類深度參與其中，需要人類理解它的有限性。現在非常危險的論調是所謂的人類滅絕的風險，即AI正在成為人類的機器主宰。我認為，這對社會非常危險，此類言論將帶來很多意外后果。AI的局限性沒有被人類充分理解。我們需要深思熟慮的、平衡的、沒有偏見的關于AI的交流和教育，“李飛飛強調說。

李飛飛認為，AI應該扎根于人類。人類創造了它，人類正在發展它，人類正在使用它，人類也應該管理它。

李飛飛表示，在斯坦福大學“以人為本的AI“研究所，他們采取了三個對待AI的方式，包括個人、社區和社會三個層面：

在個人層面，必須參與并擁抱AI。這是一個文明的科技。AI改變孩子們如何學習，改變了醫生如何使用診斷方法，改變了藝術家如何設計，改變了老師如何授課。不管是否為科技人員，均可以發揮自己的作用，用負責任地態度使用AI。

在社區層面，AI可向社區賦能，可滿足社區的環境保護需求，或者農業需求。有些農業社區使用機器學習技術來檢測社區水質。藝術家社區不僅在使用AI，而且表達了他們的擔憂，以及如何解決問題、減輕風險的想法。

在社會層面，政府、研究機構、企業、聯邦機構和國際機構均應該認真對待這項科技。存在能源問題，這會影響到地緣政治。仍有開源與非開源的大討論，這影響到經濟和生態。仍有管理的問題，比如AI的風險與安全等。必須采取積極的方式，一個多方參與的方式，一個全社會的方式。現在已經沒有回頭路，李飛飛表示。她2017至2018年在谷歌領導AI項目，在2020年至2022年擔任推特的董事會成員，目前是美國白宮的AI顧問。

關于AI對于工作的影響，李飛飛分享了她的看法。

李飛飛指出，在斯坦福大學以人為本AI研究所內，有個數字經濟實驗室，由Erik Brynjolfsson教授領導。這個非常復雜的問題有很多層面。她特別強調，“工作”與“任務”是兩個不同的概念，因為實際中每個人的工作都由多項任務組成。

她以美國護士作例子。據估計，在護士8個小時的班次中，任務數以百計。因此，當人們討論AI接管或者取代人類的工作時，必須分清是在取代任務還是在取代工作？

李飛飛認為，AI改變了一個工作內的多項任務，因此也會逐漸改變工作的性質。在呼叫中心場景中，新手的工作質量被AI提高了30%，但是熟練人員的工作質量并未因AI而有所提升。斯坦福大學數字經濟實驗室的一篇文章呼應了李飛飛的觀點，該文章的標題是：“AI不會取代經理的工作：使用AI的經理正在取代不使用AI的經理。”

李飛飛強調，科技會帶來生產力的進步，但是生產力的進步并不會自動轉化為社會的共同繁榮。她指出，歷史上曾多次發生這樣的事件。

作者：Chelsea_Sun 編輯：胡潤峰林志佳

封面圖片來源：視覺中國-VCG41N970174988

責編張楊運

特別提醒：如果我們使用了您的圖片，請作者與本站聯系索取稿酬。如您不希望作品出現在本站，可聯系我們要求撤下您的作品。