每日經濟新聞 2024-02-22 13:27:58
Sora的橫空出世將為人工智能產業鏈帶來怎樣的機遇和發展?
每經記者 謝陶 每經編輯 唐元
如果說,去年是語言大模型ChatGPT的“時代”,那么今年開年的首個“王炸”必定是文生視頻模型Sora,其憑借出色的視頻制作能力瞬間“點燃”科技圈與投資圈。
據OpenAI官網介紹,Sora能夠生成具有多個角色、特定類型的運動以及主體和背景的、細節準確的復雜場景,該模型不僅了解用戶在提示中提出的要求,還了解這些東西在物理世界中的“存在方式”。業界普遍認為,Sora的面世將對AI產業鏈帶來歷史性的變革機遇。
機構人士指出,以Sora為代表的文生視頻模型極大縮短了AGI(通用人工智能)時代到來的時間。隨著多模態大模型逐步升級,算力需求將呈現指數級增長,下游應用有望百花齊放,推動應用領域生產力價值釋放。
那么,Sora的橫空出世將為人工智能產業鏈帶來怎樣的機遇和發展?如何看待中美之間在人工智能領域的發展差異?為此,《圍爐談文創》欄目本期邀請到三位來自不同細分領域、分別活躍于成都、深圳、北京的技術大咖分享他們最新的感受與觀察。
作為中國最大運動社交和賽事服務平臺——咕咚的創始人,申波是一名不折不扣的“技術狂人”,崇拜“MySQL之父”Monty和馬斯克,關注全球最新的技術及產品趨勢。
他的辦公桌上總是堆滿了各種技術類書籍,從Stable Diffusion,到DeepMind,再到ChatGPT,他都能信手拈來。他在朋友圈笑言,“以后退休了,得找個面朝大海春暖花開的大院子coding(編程)。”
談及Sora對行業的影響,申波表示,“OpenAI開發的文本到視頻生成器Sora,有潛力顯著影響依賴視覺內容的多個行業,特別是影視娛樂、教育和營銷行業。”
就運動健康應用領域而言,申波告訴《每日經濟新聞》記者,“Sora能夠以新穎的方式吸引用戶,將鍛煉描述或健康提示轉化為引人入勝、易于跟隨的視頻。這將通過提供動態的互動內容來增強用戶體驗,比單純的文本或靜態圖像更有效地激勵和指導用戶。”
相比較Runway和Pika等類似產品,申波指出,“與早期主要關注生成短片的模型不同,Sora旨在生產長達一分鐘的高細節視頻,并致力于在視頻長度上保持連貫性。此外,由于Sora能創造更引人入勝、更全面的內容,這可能使其在提供更豐富用戶內容方面具有區別于其他工具的優勢。本質上說Sora是一個‘世界模擬器’ 而不僅僅是文本生成視頻工具。”
談及近年中美在人工智能領域不同的發展特點和重點,申波向每經記者分析道,“美國公司如OpenAI和Google DeepMind在生成式AI技術方面取得了重大進展,例如ChatGPT和DALL-E,這些技術引領了市場和技術趨勢。中國則在應用研發和商業化方面顯示出新的進展,特別是AI在教育、健康、零售和安全等領域的應用。中美之間的主要差異可能在于創新的焦點、市場應用的速度和政策環境。”
目前,中國在生成式AI領域有哪些走在比較前面的應用場景和玩家?申波表示,“國內無論是大模型還是應用方面,都快速涌現出了一系列的創業公司,如百川智能,當然巨頭也參與其中了,包括百度、阿里、騰訊等等。而且近日OPPO和魅族都發布了ALL IN AI的戰略,全力開發推廣AI手機。所以我覺得中國公司會在AI硬件和應用方面快速發展并引領行業,在大模型基座以及中文大模型上面縮小并趕上美國的水平。”
長期活躍于粵港澳大灣區的龔銀(Neil),曾任OnePlus平臺中心副總裁、創始團隊高管,現任安克創新CIO,他對分布式系統、高性能高可靠系統、云計算等領域保持著持續關注和實踐。
談及Sora的橫空出世,龔銀表示,“這將給游戲、短視頻、影視、廣告和元宇宙等高品質視頻內容制作的行業帶來直接沖擊。”
在龔銀看來,Sora與此前市面上的同類產品相比擁有諸多優勢。“Sora生成內容的質量更好,(尤其是在)復雜場景、角色表情、復雜的鏡頭運動等方面穩定性、一致性更好,三維空間的連貫性比較好,沒有斷層或抽離感。視頻長度進一步擴展,支持60S逼真視頻,基本可商用,可以生成類似游戲等互動類數字內容,想象空間更廣泛。”
從技術架構上看,龔銀分析道,“Transformer架構具備更好的學習性和擴展性,涌現能力更強。而runway和pika更多還是依靠圖像轉幀方式,連續性還未得到驗證。我們在2023年就一直嘗試runnway來制作和生成視頻,但其穩定、一致性和可商用能力其實還是很弱,Sora的出現一下子解決了這些問題。”
就消費電子行業來說,龔銀直言,“特別是我們涉及全球各區域電商平臺或線上平臺,依靠大量廣告和內容來獲取流量和打造品牌,Sora的出現對我們行業的影響利弊各半,一方面,內容的制作成本大幅下降,效率得到了質的提升,同時也有希望實現千人千面的內容;另一方面,大量內容的出現會稀釋掉用戶的注意力,品牌想通過內容獲取用戶心智的難度更大了。”
事實上,從ChatGPT開啟生成式AI時代,到國內一眾玩家開啟“百模大戰”,再到今天Sora的橫空出世,中美在人工智能領域呈現出較大的發展差異。
“從已有的結果上看,美國在創新能力、創新環境、創新能力工程化和市場化等各方面能力目前還是全球最強的,”龔銀表示。
龔銀還指出,“國內模仿能力強,業務應用層場景豐富。在具備基礎設施和能力的前提下,在AI應用層面會有一些創新和突破。另外,國內擅長在已有創新的基礎上集中資源辦大事,需要的是一些時間。”
談及國內比較成熟的生成式AI應用場景和玩家時,龔銀認為,“(目前)還沒有看到特別成功的,一些品牌和電商其實都在摸索。在營銷領域,大部分還是在文生圖、文生文等方面做一些場景的嘗試,比如運營活動的文案和圖片、產品場景圖、多語言翻譯、多語言自動生成等;在研發領域,大部分是在嘗試代碼輔助編寫,類似github和copilot。應用最多的還是在客服領域,自動服務機器人,大部分公司都有在嘗試,還有一些類似AI Agent之類的應用場景。”
史海峰曾任貝殼金服小微企業生態CTO、餓了么北京研發中心總經理,也曾在神州數碼、亞信聯創長期從事電信行業業務支撐系統集成工作,參與中國移動、中國聯通多個項目,具有豐富的大型業務系統研發實施經驗。
在20余年的工作歷程中,史海峰以架構師的身份活躍于IT圈,曾獲騰訊云最具價值專家(TVP),開設了《IT民工閑話》公眾號,常自侃“大叔級 IT 民工”。
史海峰指出,最新發布的Sora其驚艷之處不僅僅在于時間,還包括空間的延伸、視角的變換,需要“腦補”更多細節,體現了對場景時空更強的理解和推測能力。
“從文字生成文字,再到文字生成圖片是一個飛躍,從圖片到生成目前的無聲視頻(或者從單幀視頻到多幀),似乎還挺順理成章。什么時候通過音頻能夠把空間進一步體現,那會比現在更加驚艷,另一個維度則是實時交互。再往后大概又是AR、VR、元宇宙了。”
“作為提升生產力、降低成本門檻的工具,從C端和B端分別看的話,對UGC和PGC都會產生影響,到底有多大沖擊還很難判斷。在純CG動畫方面,可能大幅降低制作成本。如果支持對視頻的加工再創作,在短視頻、影視制作方面也可能帶來新的模式,會涉及到影視、廣告、社交、教育、游戲等行業。(同時)也會給反詐、維護知識產權帶來更高要求,”史海峰告訴記者。
談及中美在人工智能領域的發展差異,史海峰表示,“在AI時代,芯片是基座,數據是生產要素,是訓練AI的養料,而最重要的是人才。(人工智能)競爭門檻高、迭代快,在達到技術上限前,不適合彎道超車或者體現后發優勢,我們必須要追趕,并腳踏實地。”
本文作者系天府文創云記者謝陶,轉載合作相關可搜索“天府文創云”公眾號。
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP