要聞

離AGI更近一步！ OpenAI首個(gè)視頻生成模型Sora“比想象中來(lái)得更快”

每日經(jīng)濟(jì)新聞 2024-02-16 19:11:11

◎2月16日，OpenAI宣布推出全新的生成式人工智能模型“Sora”。據(jù)了解，通過(guò)文本指令，Sora可以直接輸出長(zhǎng)達(dá)60秒的視頻，并且包含高度細(xì)致的背景、復(fù)雜的多角度鏡頭，以及富有情感的多個(gè)角色。

每經(jīng)記者熊嘉楠可楊每經(jīng)編輯楊夏

2022年末，OpenAI聊天機(jī)器人ChatGPT的面世無(wú)疑成為了引領(lǐng)人工智能浪潮的標(biāo)志性事件，宣告了新一輪科技革命的到來(lái)。無(wú)論是聊天娛樂(lè)、教育學(xué)習(xí)，還是工作生產(chǎn)、醫(yī)療健康等領(lǐng)域，人工智能正以前所未有的速度滲透到我們生活的方方面面。

而就在2月16日，OpenAI宣布推出全新的生成式人工智能模型“Sora”。據(jù)了解，通過(guò)文本指令，Sora可以直接輸出長(zhǎng)達(dá)60秒的視頻，并且包含高度細(xì)致的背景、復(fù)雜的多角度鏡頭，以及富有情感的多個(gè)角色。

這意味著，繼文本、圖像之后，OpenAI將其先進(jìn)的AI技術(shù)拓展到了視頻領(lǐng)域。OpenAI亦表示，Sora是能夠理解和模擬現(xiàn)實(shí)世界的模型的基礎(chǔ)，這一能力將是實(shí)現(xiàn)AGI（通用人工智能）的重要里程碑。

對(duì)于OpenAI視頻生成模型的出現(xiàn)，業(yè)內(nèi)其實(shí)早有預(yù)期，但仍有人評(píng)價(jià)稱“比想象中來(lái)得更快”，亦有人振奮地表示“我們真的看到新工業(yè)革命來(lái)臨”。

2月16日，業(yè)內(nèi)分析人士對(duì)《每日經(jīng)濟(jì)新聞》記者表示，Sora無(wú)疑是人工智能領(lǐng)域的一次重大突破，該技術(shù)不僅展示了AI在理解和創(chuàng)造復(fù)雜視覺(jué)內(nèi)容方面的先進(jìn)能力，而且對(duì)內(nèi)容創(chuàng)作、娛樂(lè)和影視制作行業(yè)帶來(lái)了前所未有的挑戰(zhàn)和機(jī)遇。

Sora根據(jù)提示詞生成的視頻畫(huà)面截圖。圖片來(lái)源：OpenAI官網(wǎng)

內(nèi)容創(chuàng)作領(lǐng)域開(kāi)啟新紀(jì)元，確保內(nèi)容真實(shí)透明成重要問(wèn)題

2021年初和2022年末，OpenAI分別推出了圖像生成系統(tǒng)DALL·E和聊天機(jī)器人ChatGPT。這也使得AI逐漸成為各行各業(yè)輔助工作的工具，也正逐漸改變?nèi)藗儗?duì)未來(lái)工作的看法。

據(jù)介紹，Sora是基于過(guò)去對(duì)DALL·E和GPT的研究基礎(chǔ)構(gòu)建，利用DALL·E 3的重述提示詞技術(shù)，為視覺(jué)模型訓(xùn)練數(shù)據(jù)生成高描述性的標(biāo)注，因此模型能更好的遵循文本指令。

Sora能夠生成具有多個(gè)角色、特定類型的運(yùn)動(dòng)以及主題和背景的準(zhǔn)確細(xì)節(jié)的復(fù)雜場(chǎng)景。不僅了解用戶在提示中要求的內(nèi)容，還了解這些東西在物理世界中的存在方式。同時(shí)，該模型對(duì)語(yǔ)言有深刻的理解，使其能夠準(zhǔn)確地解釋提示并生成表達(dá)生動(dòng)情感的引人注目的角色。

運(yùn)用Sora也可以生成高清圖像。圖片來(lái)源：OpenAI官網(wǎng)

對(duì)于Sora的面世，工信部信息通信經(jīng)濟(jì)專家委員會(huì)委員、數(shù)字經(jīng)濟(jì)專家劉興亮稱，這標(biāo)志著AI技術(shù)在內(nèi)容創(chuàng)作領(lǐng)域的一個(gè)新紀(jì)元。“通過(guò)簡(jiǎn)短的文本提示或一張靜態(tài)圖片，Sora能夠生成持續(xù)一分鐘左右的1080P高清視頻，涵蓋多個(gè)角色、不同類型的動(dòng)作和背景細(xì)節(jié)等，幾乎達(dá)到了電影級(jí)別的逼真場(chǎng)景。這種能力不僅為內(nèi)容創(chuàng)作者提供了前所未有的工具，使他們能夠以更低的成本和更快的速度將創(chuàng)意變?yōu)楝F(xiàn)實(shí)，而且為觀眾帶來(lái)了更豐富和多樣化的視覺(jué)體驗(yàn)。技術(shù)創(chuàng)新的這一巨大飛躍，預(yù)示著AI在未來(lái)人類生活的各個(gè)方面都將發(fā)揮更加重要的作用。”劉興亮表示。

而Sora以文字為核心的提示，將能夠形成更加符合人類觀念的連續(xù)視頻，該模型的出現(xiàn)無(wú)疑將會(huì)對(duì)人們現(xiàn)有工作方式進(jìn)行再一次迭代，同時(shí)也會(huì)對(duì)傳統(tǒng)行業(yè)轉(zhuǎn)型提出新的挑戰(zhàn)。

生成式AI過(guò)去已積累了不少圖像、聲音等素材，并通過(guò)不斷學(xué)習(xí)形成了更為成熟的算法。因此，若是可以通過(guò)AI在計(jì)算機(jī)中創(chuàng)建視頻素材，或許將對(duì)影視行業(yè)產(chǎn)生重大影響。

劉興亮稱，AI生成的視頻可能減少了對(duì)人類演員、導(dǎo)演和其他創(chuàng)意角色的需求，從而影響到這個(gè)行業(yè)的就業(yè)。此外，隨著AI技術(shù)的進(jìn)步，傳統(tǒng)的影視制作流程和商業(yè)模式也可能面臨重塑。

不過(guò)，劉興亮指出，這種轉(zhuǎn)型并不意味著傳統(tǒng)影視行業(yè)的消亡，而是需要與AI技術(shù)融合，探索新的藝術(shù)形式和表達(dá)方式。

實(shí)際上，自生成式AI出現(xiàn)以來(lái)，該技術(shù)一直在大肆“入侵”影視制作的全流程，由人工智能產(chǎn)出的內(nèi)容也越來(lái)越普遍。

去年由哈里森·福特主演的《奪寶奇兵》第五部中，就利用AI技術(shù)讓觀眾看到40年前青年時(shí)的福特；Netflix網(wǎng)飛也在同年推出了由AIGC參與制作的動(dòng)畫(huà)短片《犬與少年》。

劉興亮同時(shí)提到，隨著AI生成內(nèi)容與現(xiàn)實(shí)之間的界限變得越來(lái)越模糊，如何確保內(nèi)容的真實(shí)性和透明性成為了一個(gè)重要問(wèn)題。此外，版權(quán)、隱私和數(shù)據(jù)安全等問(wèn)題也需要得到妥善解決。社會(huì)必須面對(duì)這些挑戰(zhàn)，通過(guò)制定相關(guān)政策、法律和倫理準(zhǔn)則來(lái)確保技術(shù)的健康發(fā)展，同時(shí)保護(hù)個(gè)人和社會(huì)的利益不受侵害。

拉大產(chǎn)業(yè)競(jìng)爭(zhēng)差距，AI生成視頻技術(shù)或?qū)⑦M(jìn)入爆發(fā)期

正如劉興亮所說(shuō)，AI視頻技術(shù)的誕生面臨著一系列的問(wèn)題。而除了對(duì)現(xiàn)實(shí)世界的影響，作為剛剛面世的全新技術(shù)，Sora也存在不足之處。

對(duì)于Sora當(dāng)前存在的弱點(diǎn)，OpenAI指出它可能難以準(zhǔn)確模擬復(fù)雜場(chǎng)景的物理原理，并且可能無(wú)法理解因果關(guān)系。該模型還可能混淆提示的空間細(xì)節(jié)，例如混淆左右，并且可能難以精確描述隨著時(shí)間推移發(fā)生的事件，例如遵循特定的相機(jī)軌跡。

Sora生成的視頻中可能會(huì)出現(xiàn)不符合物理原理的場(chǎng)景，比如這個(gè)人正在反向跑步。

圖片來(lái)源：OpenAI官網(wǎng)

以此次發(fā)布的DEMO“與中國(guó)龍一起慶祝農(nóng)歷新年的視頻”為例，Sora無(wú)法準(zhǔn)確生成視頻畫(huà)面中的中文受到了網(wǎng)友的關(guān)注。有相關(guān)人士對(duì)此調(diào)侃道：“莫非是中文太難了？”

但是任何事件的發(fā)生都是從無(wú)到有，再?gòu)挠械骄倪^(guò)程。據(jù)悉，Sora如今正面向部分用戶開(kāi)放，以評(píng)估關(guān)鍵領(lǐng)域的潛在危害或風(fēng)險(xiǎn)。同時(shí)，OpenAI也邀請(qǐng)了一批視覺(jué)藝術(shù)家、設(shè)計(jì)師和電影制作人加入，期望獲得寶貴反饋，以推動(dòng)模型進(jìn)步，更好地助力創(chuàng)意工作者。OpenAI提前分享研究進(jìn)展，旨在與OpenAI以外的人士合作并獲取反饋，讓公眾了解即將到來(lái)的AI技術(shù)新篇章。

OpenAI表示，他們正在教AI理解和模擬運(yùn)動(dòng)中的物理世界，目標(biāo)是訓(xùn)練模型來(lái)幫助人們解決需要現(xiàn)實(shí)世界交互的問(wèn)題。

而相比于其自身缺陷，該技術(shù)的廣泛前景更為外界所關(guān)注。

近兩年，由于人工智能發(fā)展迅速，以至于很多企業(yè)紛紛加大了對(duì)人工智能的投入。科技創(chuàng)業(yè)公司研究機(jī)構(gòu)PitchBook估計(jì)，2023年全球生成式AI的市場(chǎng)規(guī)模將達(dá)426億美元，2026年則將達(dá)到981億美元，未來(lái)增長(zhǎng)動(dòng)能可期。

隨著生成式人工智能的市場(chǎng)潛力不斷地被挖掘，大大小小的競(jìng)爭(zhēng)對(duì)手開(kāi)始浮出水面。

當(dāng)前，參與該賽道的企業(yè)不乏亞馬遜、微軟、谷歌、百度、阿里等眾多互聯(lián)網(wǎng)巨頭，也包括Runway等初創(chuàng)企業(yè)。

有行業(yè)人士指出，隨著Sora的發(fā)布，OpenAI在行業(yè)的領(lǐng)先程度立即加大，會(huì)將大家緊追的距離再度拉開(kāi)一大截。未來(lái)，解決了人物一致性問(wèn)題之后，AI生成視頻將大踏步前進(jìn)，AI視頻或進(jìn)入大爆發(fā)期。

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。