要聞

快手可靈PK Sora，五大場景全面評測誰才是真正的“世界模擬器”？

每日經(jīng)濟新聞 2024-06-21 13:16:23

每經(jīng)記者王郁彪溫夢華每經(jīng)編輯程鵬董興生

大洋彼岸，Sora的到來，似乎讓AI有了睜眼看世界的可能。在官方表述中，Sora被稱為“世界模擬器”：它理解真實的規(guī)則，并在此基礎(chǔ)上生成“世界”。

如果說從前還是一道銅墻鐵壁，那么現(xiàn)在，虛擬與真實可能僅一線之隔。大家都不想做創(chuàng)建虛構(gòu)的玩具，而是想成為生成世界的“造夢機”。Sora之后，它的挑戰(zhàn)者們前赴后繼。

6月，視頻生成大模型迎來又一輪新品爆發(fā)，生成式AI賽道像是“過年了”。快手可靈、Luma AI以及Runway迭代更新后的Gen-3 Alpha等現(xiàn)象級爆款不斷涌現(xiàn)。其中，討論度最高的是快手自研視頻生成大模型“可靈”，全面對標Sora。

《每日經(jīng)濟新聞》記者將OpenAI官方公布的5條Sora視頻提示詞投喂給可靈，對其文生視頻的能力進行測試，同時從動態(tài)、視效、細節(jié)、場景等多維度表現(xiàn)進行結(jié)果比對和關(guān)聯(lián)。

每經(jīng)記者從五大場景全面評測Sora和快手可靈

測試和觀察后發(fā)現(xiàn)，雖然在部分維度Sora仍然領(lǐng)先，且可靈由于尚處開放初期，上線功能相對單一，生成存在一定限制，但幾乎可以判斷，國產(chǎn)視頻生成大模型已經(jīng)上升到了一個新的高度。

國金證券互聯(lián)網(wǎng)傳媒首席分析師陳澤敏在接受記者采訪時表示，拋開技術(shù)，快手“可靈”已經(jīng)實現(xiàn)一部分絕對真實世界觀的數(shù)據(jù)支持，AI對不同世界觀的快速理解以及在視頻上的反應(yīng)，“這是我認為不可思議的”。

CFF20LXzkOwNfsay86cib4p0S2T0NfBIZicSMl7tYnKBaibmLibs8uIQI1mZYasibU5KFf6wlMM5EENdMic3ibFTHCmUw.png

可靈，靈嗎？

Sora之后，國內(nèi)視頻生成大模型不斷推出。

3月底，字節(jié)旗下Dreamina（即夢）內(nèi)測視頻生成功能；4月底，生數(shù)科技首個文生視頻模型Vidu發(fā)布；5月，騰訊也開源了DiT架構(gòu)的混元文生圖模型。

今年以來，快手先后發(fā)布1750億參數(shù)規(guī)模的通用大語言模型“快意”和文生圖大模型產(chǎn)品“可圖”。視頻生成大模型可靈則在6月被推出，快手方面稱，可靈能夠生成大幅度的合理運動，模擬物理世界特性，生成的視頻分辨率達1080p，時長最長可達2分鐘。圖生視頻功能后續(xù)開放。

《每日經(jīng)濟新聞》記者選取了OpenAI官方公布的5條Sora視頻提示詞（東京街頭的女士、太空人、無人機視角的海岸、3D動畫的小怪物、云端讀書的年輕人）測試可靈。同時比對生成視頻進行效果測試，從“畫面呈現(xiàn)”“功能與體驗”兩大維度下的多個具體表現(xiàn)進行總結(jié)。

在畫面呈現(xiàn)上：

1、動態(tài)效果。可靈的“鏡頭”普遍為前后向邏輯推進，Sora則更豐富。在“海浪撞擊懸崖的無人機視圖”一項，Sora畫面的聚焦點在提示詞中“有燈塔的小島”，對整個環(huán)境進行環(huán)視，重點突出。可靈的鏡頭前后推進，小島被設(shè)置在畫面的最遠端，沒有重點突出小島。不過，Sora和可靈對海浪的運動軌跡描述都很準確。

CFF20LXzkOxv24g47m7GmSeXZ1yibj0VKc6s3kj429OZdxpiaiakjyNWpLlN58LogsKd0aYhUia1XlLd3aP3yJicm7A.jpg

CFF20LXzkOxv24g47m7GmSeXZ1yibj0VKN8QsjfjS5r55hGPZMxazZ2Nl50WiaQiavfSRkUIjcHsgoERXWNZgzaKg.jpg

Sora（上）與可靈（下）生成視頻對比圖片來源：視頻截圖

2、視覺效果。這一項上，Sora和可靈表現(xiàn)都較為優(yōu)秀。特別是在“東京街頭的女士”視頻畫面呈現(xiàn)上，無論是對霓虹燈色彩的展示，還是潮濕地面反光的呈現(xiàn)，兩個模型的畫面光影表達都很準確。

CFF20LXzkOxv24g47m7GmSeXZ1yibj0VKcdakO8A89WNoBfbDyKFLx7GXWA1bpLTDicuchtZj5DVD7TKFiaFEp90Q.jpg

CFF20LXzkOxv24g47m7GmSeXZ1yibj0VKGgTsIUSCrlGtSpHaFc9e1dB75smDq39F97xP86Ru95PDURm5LmxfyQ.jpg

Sora（上）與可靈（下）生成視頻對比圖片來源：視頻截圖

3、細節(jié)表現(xiàn)。記者重點關(guān)注到二者對人的五官的呈現(xiàn)。Sora的刻畫更細致，特別是人在動態(tài)場景下，五官沒有變形，幾乎是相對靜態(tài)的。可靈在動態(tài)場景下，人的五官有所變形，會隨著畫面鏡頭的推進、人的動作而扭曲。

但在“3D動畫的小怪物”生成上，可靈的細節(jié)表現(xiàn)與Sora差別不大，特別是對小怪物蓬松毛發(fā)特性的捕捉和呈現(xiàn)上，很精準也很細致。

CFF20LXzkOxv24g47m7GmSeXZ1yibj0VKZKefYDQ0zGZyNiakWVtcicAAKMVu05QDZRrwQ1U3HSaUAkGST4VKCzDg.jpg

CFF20LXzkOxv24g47m7GmSeXZ1yibj0VK2XNwMs7NaKzqNkwJyciaBicFEic1XRd86JKW6B1WQPEHzcTznHdmlMNEQ.jpg

Sora（上）與可靈（下）生成視頻對比圖片來源：視頻截圖

4、連貫性和流暢度。Sora和可靈的畫面表現(xiàn)均連貫、流暢，但稍有不同的是，對復(fù)雜場景的描述，Sora明顯更優(yōu)。特別是在“太空人”的畫面生成上，可靈的畫面只給出了太空人的正面特寫，但Sora呈現(xiàn)了遠近景的切換，添加了更多輔助元素，如飛船等。

在功能和體驗上，Sora與可靈視頻生成的風格都更偏向模擬真實世界的場景。無論是科幻場景、自然風光、超自然畫面、3D動畫等都更加側(cè)重寫實的風格。

在不同場景的適配上，Sora的能力似乎更勝一籌。在對“云端上讀書的年輕人”的畫面生成上，可靈的貼圖感更重，素材間的融合度不高。語義的理解上，Sora和可靈都較為準確，特別是對提示詞中不同主體的捕捉，都比較完整。

CFF20LXzkOxv24g47m7GmSeXZ1yibj0VKvd2aoqpzicRezQ5lrYAGhbiajpanh5RkXVYiaDePWiarZvVumeMneLP15g.jpg

CFF20LXzkOxv24g47m7GmSeXZ1yibj0VKlibzSzpwg90Br0pTASRYZpibYv6gCm9yCgp9PmQIlxgOJPF9I04B53Gg.jpg

Sora（上）與可靈（下）生成視頻對比圖片來源：視頻截圖

不過，需要注意的是，可靈目前生成的視頻長度均為5秒，與Sora的10至20秒相比，前者在復(fù)雜場景的敘述處理上會呈現(xiàn)一定的局限性。上線初期的可靈，功能較單一，風格切換等有局限性。

此外，《每日經(jīng)濟新聞》記者也在體驗時發(fā)現(xiàn)，在一些視頻生成時，“可靈”也會“失靈”。例如，彈吉他的熊貓擁有人類的手指；提示詞中“淺綠色的布藝沙發(fā)”，到了視頻中呈現(xiàn)的則是紅棕色的皮質(zhì)沙發(fā)。同時，在一些視頻中，當有多個主體時，有時也會出現(xiàn)一些元素無法完全呈現(xiàn)在視頻中的情況。

CFF20LXzkOxv24g47m7GmSeXZ1yibj0VKFKuNiclS3afqcmRePYKEyzqRiccsF2Y3POSgialjDo8BKXibWWliaTD0ZqA.png

圖片來源：視頻截圖

而在生成“10歲小女孩在羽毛球場比賽”時，小女孩手里的羽毛球拍變成了網(wǎng)球拍，且只有乒乓球拍大小，羽毛球也變成了網(wǎng)球。可見，實際生成視頻時，可靈有時存在一些較大的偏差。

CFF20LXzkOxv24g47m7GmSeXZ1yibj0VKRh8WsFlTKsbzIUVHmDiaErRjOCQkn8hiaquuf8KibX4nWfn13Xp9mBnNg.png

圖片來源：視頻截圖

值得注意的是，上述可靈視頻由記者測試生成，不同版本視頻可能存在差異。而目前Sora仍未開放，所生成視頻均為官方發(fā)布的版本，待Sora開放測試后，用戶實際測試效果或許與官方發(fā)布視頻也有差異。

可靈一號難求？ Sora技術(shù)架構(gòu)路線可以被復(fù)現(xiàn)

“肯定是超出預(yù)期的，而且最先推出來比肩Sora的是快手團隊，還挺意外。”多位在互聯(lián)網(wǎng)行業(yè)深耕多年的資深行業(yè)人士、資深產(chǎn)業(yè)分析師在接受《每日經(jīng)濟新聞》記者采訪時坦言。

隨著快手“可靈”正式開放內(nèi)測，社交平臺上，已有不少博主、創(chuàng)作者分享自己使用“可靈”的體驗，國外創(chuàng)作者們也是各種求內(nèi)測。雖然目前內(nèi)測只能生成5秒視頻，但已經(jīng)有不少體驗者通過多個視頻組合成短片，不少網(wǎng)友笑稱“壓力給到了抖音剪映”。

早在2023年初，快手就啟動了新AI戰(zhàn)略，在最近幾次財報電話會議上，快手聯(lián)合創(chuàng)始人兼首席執(zhí)行官程一笑也頻頻談及快手自研大模型的研究及應(yīng)用進展。不過，在很多人看來，快手更側(cè)重于短視頻和社交內(nèi)容，而非專業(yè)的視頻剪輯工具。此前的大模型競爭中，快手也并不是引人關(guān)注的第一梯隊成員。

此前，快手推出的通用大語言模型“快意”以及文生圖大模型產(chǎn)品“可圖”，在市場的關(guān)注度和影響力均相對有限。如今，“可靈”的出現(xiàn)，讓國內(nèi)大模型賽道看到了對標Sora“彎道超車”的可能。

CFF20LXzkOxv24g47m7GmSeXZ1yibj0VKg7ORdKDnSV1Y2rTCfjnoXo5D2WmbJf0a7f7ic8usfpJvqxgicP4Pzj6A.jpg

可靈生成的“3D動畫的小怪物”

《每日經(jīng)濟新聞》記者了解到，在架構(gòu)選擇方面，可靈整體框架采用了類似Sora的DiT結(jié)構(gòu)，用Transformer代替了傳統(tǒng)擴散模型中基于卷積網(wǎng)絡(luò)的U-Net。同時，在此基礎(chǔ)上，快手大模型團隊還對模型中的隱空間編/解碼、時序建模等模塊進行了升維。

在陳澤敏看來，拋開技術(shù)，快手“可靈”已經(jīng)實現(xiàn)一部分絕對真實世界觀的數(shù)據(jù)支持，AI對不同世界觀的快速理解以及在視頻上的反應(yīng)，“這是我認為不可思議的”。

在互聯(lián)網(wǎng)產(chǎn)業(yè)深耕多年的某頭部游戲公司高管李嚴（化名）認為，或許抖音未來也會推出類似的文生視頻模型，但目前“可靈”的推出，最大的意義在于，它證明Sora的技術(shù)架構(gòu)路線是可以被復(fù)現(xiàn)的，并且依托短視頻平臺的海量、優(yōu)質(zhì)過往數(shù)據(jù)，是可以后來居上的。同時，也說明之前Sora出現(xiàn)時業(yè)內(nèi)對它“真實世界模擬器”的評價可能過高。

相關(guān)研報指出，目前，國內(nèi)大語言及多模態(tài)大模型正持續(xù)追趕海外主流大模型，模型能力逐步提升，帶動下游應(yīng)用發(fā)展。過去幾個月，國內(nèi)頭部應(yīng)用總訪問量與海外頭部應(yīng)用總訪問量差距逐漸縮小，看好未來國內(nèi)應(yīng)用快速增長的趨勢。

陳澤敏指出，雖然“可靈”搶跑為快手在文生視頻賽道開了一個好頭，但這條道路要持續(xù)走下去，仍需要很大投入。

“未來如果‘可靈’能夠延長到完整的15秒，并擁有連貫、不拖影、多元世界觀融合的高質(zhì)量視頻，那一定會對短視頻的生產(chǎn)方式帶來變化，越來越多的創(chuàng)作者或許將被取代，但好內(nèi)容的價值也會更高。”陳澤敏告訴《每日經(jīng)濟新聞》記者。

CFF20LXzkOxv24g47m7GmSeXZ1yibj0VKUaWDVB2MZiaric4R4jva69DmFZ2pq0TQfaibb56sZtDMCu2ZVQTOoQwxA.jpg

可靈生成的“云端上讀書的年輕人”

決戰(zhàn)“頭號玩家”： AI生成賽道將邁入邊際余量競爭

今年春節(jié)期間，OpenAI的文生視頻大模型Sora橫空出世，轟動整個科技圈，不少從業(yè)者將追趕Sora定為新的“小目標”。

灼識咨詢相關(guān)報告數(shù)據(jù)顯示，全球AI市場的市場規(guī)模預(yù)計于2027年達到5624億美元，中國AI市場的規(guī)模（按收入計）已由2018年的560億元增至2022年的1942億元，預(yù)計于2027年達到6448億元。

巨大的市場潛力之下，在文生視頻大模型領(lǐng)域，Sora之外，Runway、Pika、Stable Video Diffusion等眾多創(chuàng)業(yè)公司競相角逐。

不過，在陳澤敏看來，雖然越來越多的公司身處AI大風口，但未來留下的公司將越來越少，行業(yè)將進入邊際余量的競爭中。

“例如像英偉達這類確定性比較強的頭部公司會更受資本關(guān)注，而對于軟件服務(wù)這類公司，目前資本仍持懷疑態(tài)度。而在AI生成賽道，仍是‘頭部玩家勝者為王’的模式，頭部勝者的集中度更高，小公司不容樂觀。”陳澤敏表示。

CFF20LXzkOxv24g47m7GmSeXZ1yibj0VKCugCee5MEiaCIl40X5A3GCXrTj4xFDZ6ruDtfcEwwcbVaX07HzfriaXA.jpg

雖然人人都想趕上AIGC這趟“時代列車”，但今年以來，AIGC領(lǐng)域的投資風向正在悄然發(fā)生變化。

灼識咨詢執(zhí)行董事姜驍瀟向《每日經(jīng)濟新聞》記者分析表示，資本從對通用大模型的廣泛關(guān)注轉(zhuǎn)向更加聚焦于具有明確市場需求和實際應(yīng)用場景的垂直模型。許多投資人現(xiàn)在更多的是觀察而非直接投入大模型項目，并將實際投資更多地投向了具有更強商業(yè)化能力的應(yīng)用層項目，資本更側(cè)重于項目的商業(yè)化潛力和能力。

商業(yè)化前景也成為市場和資本關(guān)心的問題。AI生成的內(nèi)容，究竟能不能獲得用戶真金白銀的買單，目前仍要畫一個大大的問號。

姜驍瀟認為，目前來看，大模型行業(yè)正處在應(yīng)用拓展階段。在這個階段，AIGC技術(shù)將被廣泛應(yīng)用于各個領(lǐng)域，但目前AIGC行業(yè)尚未完全實現(xiàn)成熟的商業(yè)化。

“‘可靈’和類似的文生視頻大模型在未來的商業(yè)化潛力相當大。”姜驍瀟觀察到，在影視和廣告制作中，文生視頻大模型可以用于快速生成特效、場景設(shè)計和虛擬角色等，節(jié)省成本和時間，提高效率；在虛擬現(xiàn)實和游戲開發(fā)領(lǐng)域，這些模型可以用于生成角色動畫和互動場景，為用戶提供更加身臨其境的體驗等。

Sora釋放的“沖擊波”還在持續(xù)蔓延，官方發(fā)布的多個預(yù)覽視頻里，五彩斑斕的現(xiàn)實世界似乎已經(jīng)被搬上虛擬的“頻道”。

但Sora和它的挑戰(zhàn)者們，并不想虛構(gòu)世界，而是在理解真實世界的規(guī)則基礎(chǔ)上，生成一個全新的世界。

“硅谷精神之父”、《連線》雜志創(chuàng)始主編凱文?凱利在2019年寫道：“鏡像世界尚未完全存在，但它正在到來。”而此前他曾預(yù)言，“萬物都會有數(shù)字版本，這世間所有，都將在數(shù)字世界建立鏡像”，至于還要多久，凱文?凱利認為，“是5000天后”。

記者|王郁彪??溫夢華

編輯|程鵬?董興生杜恒峰

校對|何小桃

｜每日經(jīng)濟新聞 ?nbdnews??原創(chuàng)文章｜