亚洲永久免费/亚洲大片在线观看/91综合网/国产精品长腿丝袜第一页

每日經(jīng)濟新聞
要聞

每經(jīng)網(wǎng)首頁 > 要聞 > 正文

Sora炸裂出道!背后技術(shù)團隊曝光,有多位華人,還有2022年畢業(yè)的本科生!上海交大天才少年緊急辟謠:離大譜了

每日經(jīng)濟新聞 2024-02-19 15:29:42

每經(jīng)記者 文巧    每經(jīng)編輯 盧祥勇 蘭素英    

2月16日,OpenAI的AI視頻模型Sora炸裂出道,生成的視頻無論是清晰度、連貫性和時間上都令人驚艷,一時間,諸如“現(xiàn)實不存在了!”的評論在全網(wǎng)刷屏。

Sora是如何實現(xiàn)如此顛覆性的能力的呢?這就不得不提到其背后的兩項核心技術(shù)突破——Spacetime Patch(時空Patch)技術(shù)和Diffusion Transformer(DiT,或擴散型Transformer)架構(gòu)。

CFF20LXzkOysDGVYFzFMDpeTpmUTD7Dribug0wfpRFvmBZoBGjOAzS76f0X0HGVzhpnvvGIkBFAuAtKPBoyI3og.png

Sora官網(wǎng)截圖

《每日經(jīng)濟新聞》記者查詢這兩項技術(shù)的原作論文發(fā)現(xiàn),時空Patch的技術(shù)論文實際上是由谷歌DeepMind的科學(xué)家們于2023年7月發(fā)表的。DiT架構(gòu)技術(shù)論文的一作則是Sora團隊領(lǐng)導(dǎo)者之一William Peebles,但戲劇性的是,這篇論文曾在2023年的計算機視覺會議上因“缺少創(chuàng)新性”而遭到拒絕,僅僅1年之后,就成為Sora的核心理論之一。

如今,Sora團隊毫無疑問已經(jīng)成為世界上最受關(guān)注的技術(shù)團隊。記者查詢OpenAI官網(wǎng)發(fā)現(xiàn),Sora團隊由Peebles等3人領(lǐng)導(dǎo),核心成員包括12人,其中有多位華人。值得注意的是,這支團隊十分年輕,成立時間還尚未超過1年。

CFF20LXzkOysDGVYFzFMDpeTpmUTD7DraVPGyU3XLOlrmlgZjia9icbS18kkpjk8PWefaepPvNNZsCdV9do7TLTw.png

William (Bill) Peebles社交賬號截圖

CFF20LXzkOwNfsay86cib4p0S2T0NfBIZicSMl7tYnKBaibmLibs8uIQI1mZYasibU5KFf6wlMM5EENdMic3ibFTHCmUw.png

核心突破一:

時空Patch,站在谷歌肩膀上

此前,OpenAI在X平臺上展示了Sora將靜態(tài)圖像轉(zhuǎn)換為動態(tài)視頻的幾個案例,其逼真程度令人驚嘆。Sora是如何做到這一點的呢?這就不得不提到該AI視頻模型背后的兩項核心技術(shù)——DiT架構(gòu)和Spacetime Patch(時空Patch)。

據(jù)外媒報道,Spacetime Patch是Sora創(chuàng)新的核心之一,該項技術(shù)是建立在谷歌DeepMind對NaViT(原生分辨率視覺Transformer)和ViT(視覺Transformer)的早期研究基礎(chǔ)上。

Patch可以理解為Sora的基本單元,就像GPT-4的基本單元是Token。Token是文字的片段,Patch則是視頻的片段。GPT-4被訓(xùn)練以處理一串Token,并預(yù)測出下一個Token。Sora遵循相同的邏輯,可以處理一系列的Patch,并預(yù)測出序列中的下一個Patch。

Sora之所以能實現(xiàn)突破,在于其通過Spacetime Patch將視頻視為補丁序列,Sora保持了原始的寬高比和分辨率,類似于NaViT對圖像的處理。這對于捕捉視覺數(shù)據(jù)的真正本質(zhì)至關(guān)重要,使模型能夠從更準(zhǔn)確的表達中學(xué)習(xí),從而賦予Sora近乎完美的準(zhǔn)確性。由此,Sora能夠有效地處理各種視覺數(shù)據(jù),而無需調(diào)整大小或填充等預(yù)處理步驟。

記者注意到,OpenAI發(fā)布的Sora技術(shù)報告中透露了Sora的主要理論基礎(chǔ),其中Patch的技術(shù)論文名為Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution。記者查詢預(yù)印本網(wǎng)站arxiv后發(fā)現(xiàn),該篇研究論文是由谷歌DeepMind的科學(xué)家們于2023年7月發(fā)表的。

CFF20LXzkOysDGVYFzFMDpeTpmUTD7Drcldbib2P7dFobXoZ3l8OQmvwk93ysIaHEbRb7mCSH9nU2iaWltXZVNCQ.jpg

圖片來源:arxiv.org

CFF20LXzkOysDGVYFzFMDpeTpmUTD7DrvYzYlfBAShUIL5B8Fib23GlZctRrF4w3bCP6oCcw1V6XhXAEy18CtNg.jpg

圖片來源:Google Scholar

CFF20LXzkOwNfsay86cib4p0S2T0NfBIZicSMl7tYnKBaibmLibs8uIQI1mZYasibU5KFf6wlMM5EENdMic3ibFTHCmUw.png

核心突破二:

擴散型Transformer架構(gòu)

相關(guān)論文曾遭拒絕

除此之外,Sora的另一個重大突破是其所使用的架構(gòu),傳統(tǒng)的文本到視頻模型(Runway、Stable Diffusion)通常是擴散模型(Diffusion Model),文本模型例如GPT-4則是Transformer模型,而Sora則采用了DiT架構(gòu),融合了前述兩者的特性。

據(jù)報道,傳統(tǒng)的擴散模型的訓(xùn)練過程是通過多個步驟逐漸向圖片增加噪點,直到圖片變成完全無結(jié)構(gòu)的噪點圖片,然后在生成圖片時,逐步減少噪點,直到還原出一張清晰的圖片。Sora采用的架構(gòu)是通過Transformer的編碼器-解碼器架構(gòu)處理包含噪點的輸入圖像,并在每一步預(yù)測出更清晰的圖像。DiT架構(gòu)結(jié)合時空Patch,讓Sora能夠在更多的數(shù)據(jù)上進行訓(xùn)練,輸出質(zhì)量也得到大幅提高。

OpenAI發(fā)布的Sora技術(shù)報告透露,Sora采用的DiT架構(gòu)是基于一篇名為Scalable diffusion models with transformers的學(xué)術(shù)論文。記者查詢預(yù)印本網(wǎng)站arxiv后發(fā)現(xiàn),該篇原作論文是2022年12月由伯克利大學(xué)研究人員William (Bill) Peebles和紐約大學(xué)的一位研究人員謝賽寧共同發(fā)表。William (Bill) Peebles之后加入了OpenAI,領(lǐng)導(dǎo)Sora技術(shù)團隊。

CFF20LXzkOysDGVYFzFMDpeTpmUTD7Drw8QAYdstwaTe9ykDmjJ2EzFmgZSZubmewQ3vYjvOicicrKf1aNUmeQ3A.jpg

圖片來源:arxiv.org

然而,戲劇化的是,Meta的AI科學(xué)家Yann LeCun在X平臺上透露,“這篇論文曾在2023年的計算機視覺會議(CVR2023)上因‘缺少創(chuàng)新性’而遭到拒絕,但在2023年國際計算機視覺會議(ICCV2023)上被接受發(fā)表,并且構(gòu)成了Sora的基礎(chǔ)。”

CFF20LXzkOysDGVYFzFMDpeTpmUTD7DrIGdPZ3c1KiaWpyWkfHFGpLSFc3xfmnbVFc60DWwjsgyTVic56pNxSiaSw.jpg

圖片來源:X平臺

據(jù)文匯報19日報道,針對有自媒體稱Sora發(fā)明者之一是畢業(yè)于上海交大的天才少年謝賽寧,謝賽寧在朋友圈表示自己和Sora并沒有關(guān)系,但是他也談到,對于Sora這樣的復(fù)雜系統(tǒng),人才第一,數(shù)據(jù)第二,算力第三,其他都沒有什么是不可替代的。

CFF20LXzkOysDGVYFzFMDpeTpmUTD7DrPJdZ5HWicSou92icOtAbpxFSZtCAYO8GicokuCg7dX5s8EWlsRAqqZlwg.jpg

謝賽寧朋友圈?圖片來源:文匯報

謝賽寧目前是紐約大學(xué)計算機科學(xué)助理教授,在此之前他是Facebook人工智能研究院研究科學(xué)家。

作為最懂DiT架構(gòu)的人之一,在Sora發(fā)布后,謝賽寧在X平臺上發(fā)表了關(guān)于Sora的一些猜想和技術(shù)解釋,并表示,“Sora確實令人驚嘆,它將徹底改變視頻生成領(lǐng)域。”

“當(dāng)Bill和我參與DiT項目時,我們并未專注于創(chuàng)新,而是將重點放在了兩個方面:簡潔性和可擴展性。”他寫道。“簡潔性代表著靈活性。關(guān)于標(biāo)準(zhǔn)的ViT,人們常忽視的一個亮點是,它讓模型在處理輸入數(shù)據(jù)時變得更加靈活。例如,在遮蔽自編碼器(MAE)中,ViT幫助我們只處理可見的區(qū)塊,忽略被遮蔽的部分。同樣,Sora可以通過在適當(dāng)大小的網(wǎng)格中排列隨機初始化的區(qū)塊來控制生成視頻的尺寸。”

CFF20LXzkOysDGVYFzFMDpeTpmUTD7DrfnnjUgDnoJSgrbKZ0zzIPD91qg4eGPyeJaZmFesnZWT2W9blJjTIvg.jpg

圖片來源:X平臺

不過,他認(rèn)為,關(guān)于Sora仍有兩個關(guān)鍵點尚未被提及。一是關(guān)于訓(xùn)練數(shù)據(jù)的來源和構(gòu)建,這意味著數(shù)據(jù)很可能是Sora成功的關(guān)鍵因素;二是關(guān)于(自回歸的)長視頻生成,Sora的一大突破是能夠生成長視頻,但OpenAI尚未揭示相關(guān)的技術(shù)細(xì)節(jié)。

CFF20LXzkOwNfsay86cib4p0S2T0NfBIZicSMl7tYnKBaibmLibs8uIQI1mZYasibU5KFf6wlMM5EENdMic3ibFTHCmUw.png

年輕的開發(fā)團隊:

應(yīng)屆博士帶隊,還有00后

隨著Sora的爆火,Sora團隊也來到世界舞臺的中央,引發(fā)了持續(xù)的關(guān)注。記者查詢OpenAI官網(wǎng)發(fā)現(xiàn),Sora團隊由William Peebles等3人領(lǐng)導(dǎo),核心成員包括12人。從團隊領(lǐng)導(dǎo)和成員的畢業(yè)和入職時間來看,這支團隊成立的時間較短,尚未超過1年。

CFF20LXzkOysDGVYFzFMDpeTpmUTD7DrlUkw4NlhKN1drKAlB1GiaDmGOiaFAa2wlkPdMpw8MLBiaBSJ82X4QQMyA.jpg

圖片來源:OpenAI官網(wǎng)

從年齡上來看,這支團隊也非常年輕,兩位研究負(fù)責(zé)人都是在2023年才剛剛博士畢業(yè)。William (Bill) Peebles于去年5月畢業(yè),其與謝賽寧合著的擴散Transformer論文成為Sora的核心理論基礎(chǔ)。Tim Brooks于去年1月畢業(yè),是DALL-E 3的作者之一,曾在谷歌和英偉達就職。

CFF20LXzkOysDGVYFzFMDpeTpmUTD7Dr1Z4BonG8pwSptQw5HB0RHicf1ib5pnXPO6PckEDbia3VFNgJDH6s390qA.jpg

圖片來源:William (Bill) Peebles個人主頁

團隊成員中甚至還有00后。團隊中的Will DePue生于2003年,2022年剛從密西根大學(xué)計算機系本科畢業(yè),在今年1月加入Sora項目組。

CFF20LXzkOysDGVYFzFMDpeTpmUTD7DrxNucHibEP27bm5AAN7VIDNMfPKpEuKFeVExtibSiaqibC5L8kXcTbXgnsA.jpg

圖片來源:Will DePue個人主頁

此外,團隊還有幾位華人。據(jù)媒體報道,Li Jing是DALL-E 3的共同一作,2014年本科畢業(yè)于北京大學(xué)物理系,2019年獲得MIT物理學(xué)博士學(xué)位,于2022年加入OpenAI。Ricky Wang則是今年1月剛剛從Meta跳槽到OpenAI。其余華人員工包括Yufei Guo等尚未有太多公開資料介紹。

記者|文巧?編輯|盧祥勇 蘭素英?蓋源源校對|何小桃

CFF20LXzkOyYmal29zn37N5Bg2NQ4tyN4ylvMFyM3VmF4x90Uj4cDmoEphibia4RN55ibIXmqU1Od9w2Q5nhA08lA.png|每日經(jīng)濟新聞 ?nbdnews??原創(chuàng)文章|

未經(jīng)許可禁止轉(zhuǎn)載、摘編、復(fù)制及鏡像等使用

如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

歡迎關(guān)注每日經(jīng)濟新聞APP

每經(jīng)經(jīng)濟新聞官方APP

0

0