亚洲永久免费/亚洲大片在线观看/91综合网/国产精品长腿丝袜第一页

每日經濟新聞
要聞

每經網首頁 > 要聞 > 正文

“人類思考方式有缺陷”!Sora三位大佬最新訪談:Sora仍處在GPT-1階段,但會超越人類智慧

每日經濟新聞 2024-04-29 12:52:14

每經編輯 何小桃 黃勝    

“大模界”是每日經濟新聞推出一檔專注生成式AI與大模型技術的前沿科技報道欄目。

在這里,我們將聚焦生成式AI技術浪潮,展現從文字、圖像、音頻、視頻的大模型如何編織數字化世界。

在這里,我們將解碼、評測國內外各類大模型,探究它們如何成為變革各行各業的重要力量。

在這里,我們將關注AIGC行業發展,聯手行業領軍人物和頂尖專家,共同揭示最新產品創新和技術突破,前瞻未來發展趨勢。

歡迎關注“大模界”,您將見證AIGC如何重塑內容生態,如何以前沿之力推動社會進步。讓我們共同開啟一場關于AI新紀元的無限旅程!

2月16日,OpenAI推出新的AI大模型Sora,該文生視頻大模型可通過快速文本提示創建“逼真”和“富有想象力”的60秒視頻。

一個月之后,第一波試用者對使用情況進行了反饋。

4月份,OpenAI官方賬號發布的一支由Sora制作的MV(Music Video)——《Worldweight》,引發了不少網友們的圍觀。

目前,Sora已經成為視頻大模型的標桿。有人說,在視頻生成領域,只有兩種模型:OpenAI Sora模型,以及其他不是Sora的模型。

然而,Sora何時才能開放給公眾使用,OpenAI方面始終沒有給出具體的時間表。

內測中的Sora表現優異,但OpenAI卻遲遲沒有正式對外開放Sora,這背后可能會有成本原因的考慮。知名科技作家Robert Scoble在社交平臺X上就表示,普通用戶僅僅每月支付20美元并不能涵蓋生成人工智能視頻的成本。

近日,NoPriors播客發布了對Sora項目團隊三位負責人Tim Brooks、William Peebles(昵稱Bill)和Aditya Ramesh的專訪。

CFF20LXzkOzkMbkSGGPvoLCNamiaSpiaoIiayvYu4tRDfeux6HojplSb9hT0VPFMkQlEbWhsT9AOT6sdaB4ZZauXw.jpg

Tim Brooks是DALL-E 3的主要作者之一。他本科就讀于卡內基梅隆大學,主修邏輯與計算,輔修計算機科學。去年1月,他順利從加州大學伯克利分校獲得博士學位后,立即加入OpenAI,參與了DALL-E 3和Sora的開發工作。

Bill本科就讀于麻省理工學院,主修計算機科學。在校期間,他參與了GAN和text2video的研究,還在英偉達實習,專注于深度學習、自動駕駛和計算機視覺。去年5月,Bill從伯克利畢業后也加入了OpenAI。

Aditya Ramesh在OpenAI已經是個"老人"。作為DALL-E的創造者,他主導了三代DALL-E的研究工作。

在訪談中,這三位Sora負責人對外界關心的有關Sora的諸多方面問題給出了回答。

CFF20LXzkOzkMbkSGGPvoLCNamiaSpiaoIOPaIsBzodsCbkUlqgP2icoiceobvHzJdHuic1NQibaEib8SibTDibu1q1ElxA.jpg

核心內容:

1,我們目前還沒有制定產品的即時計劃,甚至沒有制定產品的時間表。

2,現階段的Sora,就像是新視覺模型的GPT-1。

3,(關于偽造和安全)我認為這里要弄清楚的一個關鍵問題是,部署這項技術的公司承擔多少責任?例如,社交媒體公司應該做多少工作來告知用戶他們看到的內容可能不是來自可信來源?用戶在使用這項技術創造某些東西時要承擔多少責任?

4,這項技術有可能讓許多有才華橫溢、富有創造力的人創造出他們想要的東西。

5,在讓這項技術更廣泛地普及方面,有很多服務方面的考慮需要考慮。一個大問題是如何讓這項技術足夠便宜,讓人們可以使用。

6,我們思考事物的方式是有一個缺陷,就是沒有那么高的保真度。因此,我們對Sora的前景持樂觀態度,認為它將取代人類的某些能力。從長遠來看,我們相信Sora有朝一日將超越人類的智慧,成為世界模型的代表。

以下為訪談節選:

主持人:很好。或許我們可以從 OpenAI 的使命開始談起,那就是實現 AGI,也就是更強大的人工智能。那么,文本轉視頻的技術是否符合這個使命呢?你們是如何開始研究這個領域的呢?

CFF20LXzkOzkMbkSGGPvoLCNamiaSpiaoIpmju3B5CibTOAIXG4nYwEFOhfooXejJFMDGR78qRibBej0Jgpb4sWu4w.jpg

Bill:是的,我們堅信像 Sora 這樣的模型確實是實現 AGI 的關鍵步驟。

展望未來,為了生成真正逼真的視頻,你必須學習一些關于人們如何工作、如何與他人互動、最終如何思考的模型。這不僅包括人,還有動物,以及任何你想要模擬的物體。因此,展望未來,隨著我們繼續擴大像Sora 這樣的模型,我們將能夠構建這些類似世界模擬器的東西。隨著我們未來擴大Sora的規模,AGI就會實現。

CFF20LXzkOzkMbkSGGPvoLCNamiaSpiaoI5X5OdObDsmts0faiahQEN649MrA22hDUctt5IajFtPCfnTjF5q57y5Q.jpg

主持人:在更廣泛地使用 Sora 之前,您需要做什么工作?Tim,你愿意談談這個問題嗎?

Tim:是的,我們目前還沒有制定產品的即時計劃,甚至沒有制定產品的時間表。然而,我們將Sora的訪問權限提供給一小部分藝術家以及“紅隊成員”,以開始了解Sora將產生的影響。我們從藝術家那里得到了反饋,關于如何讓它成為對他們最有用的工具,并從“紅隊成員”那里得到了反饋,關于如何讓它安全,如何將它介紹給公眾。

主持人:我知道,當它推出時,很多人都被一些圖像所震撼。你會看到一只貓在水池中的影子或諸如此類的東西。但我只是好奇,隨著越來越多的人開始使用它,你看到了什么。

Tim:是的,看到藝術家們用這個模型生成的成果,真的很棒。

作為一個喜歡創造內容但又沒有足夠技能的人,使用這個模型并激發出一堆想法,并得到一些非常引人注目的東西是非常容易的。比如,在迭代提示方面,實際生成它所花費的時間真的不到一個小時。我非常高興地看到藝術家們也熱衷于使用這些模型,并從中創作出精彩的作品。

CFF20LXzkOzkMbkSGGPvoLCNamiaSpiaoIWbNEKtv329GjunuiaicZZxyahibXVI7Fia4J2iaDIeqicWZKjhAZo3FO6rxQ.jpg

主持人:這些模型在短片或其他領域的廣泛應用的時間表是什么?我們何時會開始看到來自Sora或其他模型的實際內容,并成為更廣泛媒體類型的一部分?

Tim:我沒有確切的時間表預測,但我對此非常感興趣,那就是除了傳統電影之外,人們可能會將其用于什么。我認為,在接下來的幾年里,我們會看到人們開始制作越來越多的電影,但我認為人們也會找到使用這些模型的全新方式,這些方式與我們習慣的當前媒體完全不同。

主持人:Aditya在OpenAI工作了大約五年,因此你見證了許多模型和公司的發展。當你考慮這個世界模擬模型的功能時,你認為它會成為模擬的物理引擎嗎?我對未來可能出現的其他一些前瞻性應用非常好奇。

Aditya:是的,我完全認為在視頻模型中進行模擬是我們將來能夠做到的事情。

Bill:你可以從視頻中學到很多東西。OpenAI等公司過去在這方面投入了大量資金,比如語言,比如手臂和關節如何在空間中移動的細節,它們是如何以物理上準確的方式與地面接觸的。所以,你只需通過對原始視頻的訓練就能學到很多關于物理世界的知識,我們真的相信,這對于未來的物理體現等事情至關重要。

主持人:再談談模型本身。Tim,你能描述一下什么是擴散Transformer嗎?

Tim:擴散是一種數據生成過程。這個過程從噪音開始,通過反復多次去除噪音,直到最終去除了足夠多的噪音,只生成一個樣本。這就是我們生成視頻的過程。

CFF20LXzkOzkMbkSGGPvoLCNamiaSpiaoI1XBFJCOZokZvKgkaY7HL4LzSJvIW1sib5ib7ribc3LpDIWAHtmmmQeh3w.jpg

從架構角度來看,我們的模型必須是可擴展的,它們需要能夠從大量數據中學習,并理解視頻中那些非常復雜且具有挑戰性的關系,這一點至關重要。因此,我們采用了一種類似于GPT模型的架構,稱為Transformer。因此,將這兩個概念與Transformer架構結合起來的擴散Transformer使我們能夠擴展這些模型。隨著我們投入更多的計算和更多的數據來訓練它們,它們的性能會越來越好。

主持人:Sora最引人注目的一點就是它的視覺美感。我對此感到好奇,你是如何調整或制作這種美感的?

Bill:實際上,我們并沒有為Sora投入大量精力。我認為Sora的語言理解絕對允許用戶以一種比其他模型更難的方式來操縱它。你可以提供很多提示和視覺提示,這些提示將引導模型朝著你想要的代數類型發展。

我認為展望未來,模型會賦予人們某種力量,讓他們理解你的個人審美感,這將是很多人期待的事情。

我們接觸的許多藝術家和創作者都希望將他們的全部資產上傳到模型中,這樣在寫標題時就可以借鑒大量的作品,并讓模型理解他們設計公司幾十年來積累的術語等等。因此我認為個性化以及它如何與美學結合在一起將會成為以后值得探索的一件很酷的事情。

CFF20LXzkOzkMbkSGGPvoLCNamiaSpiaoIg7JswIGEicbXFd0tLd7S2YE1ibbKsoe1e3skEW3Ln2RchxGovreuQkYw.jpg

主持人:我認為Tim所說的就像超越傳統娛樂的新應用。但這在計算上很昂貴,很難,而且不太可能。但我會講述一個故事,并讓神奇的視覺效果實時發生。我們會得到它嗎?

Tim:我認為我們正朝著那個方向前進。還有不同的娛樂模式、不同的教育模式和交流模式。娛樂是其中很重要的一部分,但我認為一旦真正理解了我們的世界,就會有很多潛在的應用。我們的世界和我們體驗世界的方式很大程度上都是視覺化的。這些模型真正酷的地方在于,它們開始更好地理解我們的世界、我們的生活和我們所做的事情。我們可以利用這些技術來娛樂自己,也可以用它們來教育我們。有時候,當我想學習一些東西時,最有效的方法就是找一個定制的教育視頻來解釋。同樣,如果我想和某人交流一些觀點,可能最好的方式就是制作一個視頻來闡述我的觀點。因此,我認為娛樂和視頻模型可能有更廣泛的潛在應用。

主持人:你們有嘗試過將這些技術應用于數字化身份等方面嗎?

Tim:到目前為止,我們并沒有真正專注于其背后的核心技術。我認為現在Sora的發展進度就像是新視覺模型的GPT-1。所以,我們現在的重點只是這項技術的基礎發展,可能比特定的下游應用更重要。

主持人:你們是如何看待視頻模型中的安全性以及進行深度偽造或惡搞之類的事情?

Aditya:這絕對是一個相當復雜的話題。我認為很多安全緩解措施可能都可以從DALL-E 3中移植過來。

我認為這里要弄清楚的一個關鍵問題是,部署這項技術的公司承擔多少責任?例如,社交媒體公司應該做多少工作來告知用戶他們看到的內容可能不是來自可信來源?用戶在使用這項技術創造某些東西時要承擔多少責任?

CFF20LXzkOzkMbkSGGPvoLCNamiaSpiaoI2GBWBfiaWfGu695kWjyQ6UM2BZcLISUf6XJicVW1YoAlCd5mV765FkOQ.jpg

主持人:我想向在座的各位提出一個問題,關于未來的產品路線圖、你的發展方向或你接下來要開發的一些功能,你最興奮的是什么?

Tim:確實,這是一個好問題。我對人們將如何利用我們的產品創造出新的東西感到非常興奮。我認為有很多才華橫溢、富有創造力的人都有自己想要創造的東西。但有時要做到這一點真的很困難,因為他們可能缺乏必要的資源、工具或其他東西。這項技術有可能讓許多有才華橫溢、富有創造力的人創造出他們想要的東西。我真的很期待他們將要制作出什么了不起的東西,以及這項技術將如何幫助他們。

主持人:Bill,我想問你一個問題,這是否像你剛才提到的GPT-1一樣,我們還有很長的路要走。這不是普通大眾有機會嘗試的東西。你能描述一下你想要解決的局限性或差距嗎?

Bill:是的,我認為,在讓這項技術更廣泛地普及方面,有很多服務方面的考慮需要考慮。一個大問題是如何讓這項技術足夠便宜,讓人們可以使用。

為了讓這項技術真正變得更加廣泛地普及,我們需要確保安全性,特別是在選舉年。我們對可能出現的錯誤信息和任何相關風險非常謹慎。我們今天正在積極努力解決這些問題。

主持人:你能談談你在Sora項目上的工作是如何影響更廣泛的研究路線圖的嗎?

Tim:我認為,Sora的一個重要方面,是通過查看所有這些視覺數據來了解世界的知識。我們只是用視頻數據對它進行了訓練,它學會了3D,因為這些視頻中存在3D。它還學會了當你咬一口漢堡包時,會留下咬痕。所以它學到了很多關于我們這個世界的東西。當我們與世界互動時,很多都是視覺的。我們一生中看到和學到的東西很多都是視覺信息。所以我們真的認為,對于智能,對于引導更智能的人工智能模型,更好地理解世界,這對它們來說非常重要,因為它們需要有這樣的基礎。有很多關于人們如何互動、事情如何發生、過去的事件如何影響未來的事件的內容,會催生比生成視頻更廣泛、更智能的人工智能模型。

主持人:這幾乎就像你同時發明了未來的視覺皮層和大腦推理部分的某些部分。

Tim:是的,這是一個很酷的比較,因為人類擁有的很多智能實際上都與世界建模有關。當我們思考如何做事時,我們總是在腦海中演繹各種場景。我們會在夢中在腦海中演繹各種場景。所以我們有一個世界模型,將Sora構建為世界模型與人類擁有的大部分智能非常相似。

我認為我們思考事物的方式是,幾乎就像人類的一個缺陷,就是它沒有那么高的保真度。

因此,當你涉及到一組非常狹窄的物理學時,我們實際上無法做出非常準確的長期預測,這是我們可以通過其中一些系統進行改進的。

因此,我們對Sora的前景持樂觀態度,認為它將取代人類的某些能力。從長遠來看,我們相信Sora有朝一日將超越人類的智慧,成為世界模型的代表。

隨著規模的擴大,真正有效的方法仍然只是預測數據。

主持人:你認為公眾對視頻模型或Sora有什么誤解嗎?或者你想讓他們知道什么?

Aditya:在內部,我們一直在將Sora與GPT模型進行比較。當GPT-1和GPT-2問世時,人們開始越來越清楚地認識到,只需擴大這些模型的規模就能賦予它們驚人的能力。對我們來說,很明顯,將同樣的方法應用于視頻模型也會帶來非常驚人的能力。

我們確實覺得這是GPT-1的時刻,這些模型很快就會變得更好。我們真的很興奮,我們認為這將給創意世界帶來令人難以置信的好處,這對AGI的長期影響是什么。

與此同時,我們正在努力非常注意安全考慮,并構建一個強大的堆棧,以確保社會真正從中獲益,同時減輕負面影響。

編輯|何小桃 黃勝?蓋源源

校對|盧祥勇

CFF20LXzkOyYmal29zn37N5Bg2NQ4tyN4ylvMFyM3VmF4x90Uj4cDmoEphibia4RN55ibIXmqU1Od9w2Q5nhA08lA.png|每日經濟新聞 ?nbdnews??原創文章|

未經許可禁止轉載、摘編、復制及鏡像等使用

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。

歡迎關注每日經濟新聞APP

每經經濟新聞官方APP

0

0