每日經(jīng)濟新聞 2024-10-16 22:16:16
10月15日,火山引擎在視頻云技術(shù)大會上發(fā)布大模型訓(xùn)練視頻預(yù)處理方案。對于目前AI視頻產(chǎn)品的“爆發(fā)”,北京市社會科學(xué)院副研究員王鵬表示,國內(nèi)AI視頻產(chǎn)品正處于快速發(fā)展和不斷迭代的階段,主要因為市場需求旺盛、應(yīng)用場景廣泛和商業(yè)化模式多樣等。
每經(jīng)記者 楊昕怡 每經(jīng)編輯 魏官紅
自Sora橫空出世開辟了AI視頻的新紀(jì)元以來,國內(nèi)外各大玩家陸續(xù)加入AI視頻的競逐賽。但是,當(dāng)進入這一更交互、更沉浸的視頻新時代,又該如何應(yīng)對成本、質(zhì)量和性能方面的挑戰(zhàn)?
10月15日,火山引擎聯(lián)合英特爾共同在視頻云技術(shù)大會上發(fā)布了大模型訓(xùn)練視頻預(yù)處理方案。《每日經(jīng)濟新聞》記者在發(fā)布會現(xiàn)場了解到,目前該技術(shù)方案已應(yīng)用于豆包視頻生成模型。
發(fā)布會上,Bytedance Research負責(zé)人李航介紹,豆包視頻生成模型PixelDance在訓(xùn)練過程中采用了火山引擎的大模型訓(xùn)練視頻預(yù)處理方案,充分利用了大量潮汐資源,為模型訓(xùn)練提供了有力支撐。
此外,抖音集團視頻架構(gòu)負責(zé)人王悅透露了字節(jié)自研視頻編解碼芯片的最新進展:經(jīng)過抖音集團內(nèi)部的實踐驗證,該芯片在同等視頻壓縮效率下,成本節(jié)省了95%以上。
“首先,超大規(guī)模視頻訓(xùn)練數(shù)據(jù)集導(dǎo)致計算和處理成本激增。”王悅指出大模型廠商在預(yù)處理過程中面臨諸多挑戰(zhàn),“其次是視頻樣本數(shù)據(jù)參差不齊,然后是處理鏈路環(huán)節(jié)多、工程復(fù)雜,最后還面臨著對GPU、CPU、ARM等多種異構(gòu)算力資源的調(diào)度部署。”
圖片來源:每經(jīng)記者 楊昕怡 攝
在9月24日的火山引擎AI創(chuàng)新巡展上,豆包視頻生成-PixelDance和豆包視頻生成-Seaweed兩款大模型一并發(fā)布,吸引業(yè)內(nèi)外人士關(guān)注。其實,字節(jié)跳動在視頻生成模型上下的功夫不止于此。
10月15日,火山引擎發(fā)布了大模型訓(xùn)練視頻預(yù)處理方案,致力于解決視頻大模型訓(xùn)練的成本、質(zhì)量和性能等方面的技術(shù)挑戰(zhàn)。
據(jù)介紹,對訓(xùn)練視頻進行預(yù)處理是保障大模型訓(xùn)練效果的重要前提。預(yù)處理過程可以統(tǒng)一視頻的數(shù)據(jù)格式、提高數(shù)據(jù)質(zhì)量、實現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)化、減少數(shù)據(jù)量以及處理標(biāo)注信息,從而使模型能更高效地學(xué)習(xí)視頻中的特征和知識,提升訓(xùn)練效果和效率。
在視頻生成模型的訓(xùn)練中,算力成本無疑是首屈一指的挑戰(zhàn)。
一位國內(nèi)視頻生成模型的算法工程師在接受《每日經(jīng)濟新聞》記者采訪時表示,在擁有高質(zhì)量數(shù)據(jù)后,視頻模型會比大語言模型更難訓(xùn)練,有更多的算力需求,“目前已知的開源視頻模型沒有特別大,主要是目前很多視頻模型處于不知道如何使用數(shù)據(jù)的階段,(用于訓(xùn)練的)高質(zhì)量數(shù)據(jù)也沒有特別多。”
計算機科學(xué)家Matthias Plappert的研究也顯示,Sora的訓(xùn)練對算力規(guī)模的要求巨大,在訓(xùn)練環(huán)節(jié)大約需要在4200~10500張NVIDIA H100上訓(xùn)練1個月,且當(dāng)模型生成到推理環(huán)節(jié)以后,計算成本將迅速超過訓(xùn)練環(huán)節(jié)。
為了解決降本難題,火山引擎借助Intel的CPU等資源,將大模型訓(xùn)練視頻預(yù)處理方案依托于自研的多媒體處理框架。王悅表示,該方案還在算法和工程方面進行了調(diào)優(yōu),可以對海量視頻數(shù)據(jù)高質(zhì)量預(yù)處理,短時間內(nèi)實現(xiàn)處理鏈路的高效協(xié)同,提高模型訓(xùn)練效率。
對于該方案的應(yīng)用,李航在發(fā)布會現(xiàn)場透露,豆包視頻生成模型PixelDance在訓(xùn)練過程中已采用該方案。同時,火山引擎視頻云團隊提供的點播解決方案還為PixelDance生產(chǎn)的視頻提供了從編輯、上傳、轉(zhuǎn)碼、分發(fā)、播放的全生命周期一站式服務(wù),讓模型的商業(yè)化應(yīng)用有了保障。
此外,在此次發(fā)布會上,火山引擎還發(fā)布了跨語言同聲復(fù)刻直播方案、多模態(tài)視頻理解與生成方案、對話式AI實時交互方案和AIG3D&大場景重建方案,從視頻的生產(chǎn)端、交互端到消費端,全鏈路融入AI能力。
AI正全方位重塑著人們生產(chǎn)、傳播和接受信息的路徑。其中,不斷涌現(xiàn)的視頻新技術(shù)將人們從流暢、高清的數(shù)據(jù)世界帶入了更加智能、更具交互體驗的AI世界。
今年7月,商湯推出了首個面向C端用戶的可控人物視頻生成大模型Vimi;8月,“AI六小龍”之一的MiniMax發(fā)布了視頻生成模型video-1;9月,可靈AI完成第9次迭代,發(fā)布“可靈1.5模型”,阿里云在云棲大會上推出全新的視頻生成模型,字節(jié)也發(fā)布了2款視頻生成模型??AI視頻產(chǎn)品的誕生和迭代幾乎是以月來計時的。
對于AI視頻產(chǎn)品的“爆發(fā)”,北京市社會科學(xué)院副研究員王鵬在接受《每日經(jīng)濟新聞》記者采訪時表示,國內(nèi)AI視頻產(chǎn)品正處于快速發(fā)展和不斷迭代的階段,主要因為市場需求旺盛、應(yīng)用場景廣泛和商業(yè)化模式多樣等。
目前市場上AI視頻產(chǎn)品的落地大多在影視、電商營銷等領(lǐng)域,例如今年7月,即夢AI和博納影業(yè)合作推出了全國首部AIGC生成式連續(xù)性敘事科幻短劇集《三星堆:未來啟示錄》;今年9月,快手聯(lián)合賈樟柯、李少紅等9位知名導(dǎo)演啟動“可靈AI”導(dǎo)演共創(chuàng)計劃。
與此同時,工信部信息通信經(jīng)濟專家委員會委員盤和林向《每日經(jīng)濟新聞》記者指出,如今部分AI視頻產(chǎn)品處于導(dǎo)入期,因為技術(shù)或合規(guī)性,很難在市場上鋪開,“目前感覺開源(AI視頻產(chǎn)品)比閉源的更受歡迎,因為AI視頻生成的成本很高,而視頻制作者往往缺少資金,所以利用開源的、下載到終端的AI算法可以更好地制作生成視頻。”
在他看來,現(xiàn)階段AI視頻產(chǎn)品主要有算力和合規(guī)風(fēng)險兩方面的主要障礙。“算法、算力和數(shù)據(jù)方面都需要企業(yè)投入較多的資源和時間;另一難點在于合規(guī)風(fēng)險,如今對隱私越來越重視,合規(guī)是繞不過去的話題,而AI視頻有時可能會侵犯個人隱私。”他解釋。
此外,易觀分析研究合伙人陳晨也在接受《每日經(jīng)濟新聞》記者采訪時表達了對視頻生成大模型短期變現(xiàn)能力的擔(dān)憂,“由于AI大模型高昂的模型訓(xùn)練與推理成本,加之C端用戶對AI工具的需求相對分散,付費意愿不足,視頻大模型在C端市場的商業(yè)化仍然會面臨一個較長的培育期。”
AI視頻的時代來到了,但這注定是一個長坡厚雪的賽道,如何降本增效、拿下更多市場也將成為互聯(lián)網(wǎng)大廠和科技企業(yè)面對的不變命題。
如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟新聞APP