每日經濟新聞 2024-06-08 11:19:03
每經編輯 杜宇
據新華社,近日,快手“可靈”視頻生成大模型官網正式上線。相較此前各家放出的視頻大模型以展示視頻為主,本次亮相的可靈大模型已在快手旗下的快影App開放邀測體驗。
圖片來源:可靈大模型官網
據官網介紹,快手在短視頻視頻技術方面有多年的深入積累,其視頻生成大模型也有天然、廣泛的應用場景??伸`大模型為快手AI團隊自研,具備諸多優勢:能夠生成大幅度的合理運動;能夠模擬物理世界特性;具備強大的概念組合能力和想象力;生成的視頻分辨率高達1080p,時長高達2分鐘(幀率30fps),且支持自由的寬高比。
“可靈”大模型為快手AI團隊自研,基于快手在視頻技術方面的多年積累,采用“Sora”相似的技術路線,結合多項自研技術創新,效果對標“Sora”。
據悉,可靈使用了與Sora一樣的Diffusion Transformer架構,3D時空聯合注意力機制等,該架構巧妙地融合了時間與空間的信息,對視頻數據進行綜合分析和處理。
可精準捕捉到視頻幀內的局部空間特征以及跨幀的時間動態特征,從而更全面地理解和再現視頻中的運動信息。
所以,無論是快速移動的物體、劇烈變化的場景,還是復雜的人物動作都能被精確捕捉,使得生成的視頻內容動態性十足,同時具有很高的物理世界真實感。
讓我們一睹官方效果,動圖截取有壓縮,畫質遜于展示視頻,效果以官網為準。
提示詞:兩朵花在黑色背景下緩慢綻放,展示出細膩的花瓣和花蕊
提示詞:一只戴眼鏡的小白兔坐在咖啡館的椅子上看報紙,桌上有一杯熱咖啡
提示詞:一只手將牛奶從鋼制打奶壺倒入桌上一杯咖啡中,背景為模糊的廚房
基于對文本-視頻語義的深刻理解和 Diffusion Transformer 架構的強大能力,可靈能夠將用戶豐富的想象力轉化為具體的畫面,虛構真實世界中不會出現的的場景。
基于自研的3D人臉和人體重建技術,結合背景穩定性和重定向模塊,實現表情肢體全驅動技術,僅需一張全身照片,即可體驗生動的“唱跳”玩法。
公開資料顯示,快手已先后發布通用大語言模型“快意”、文生圖大模型產品“可圖”,還推出了Direct-a-Video、Video-LaVIT、I2V-Adapter、UNIAA等視頻關鍵技術,引發了廣泛關注。據悉,伴隨此次可靈大模型的發布,快手將持續加速大模型的研發與應用,帶來更加多元的AI創作與互動體驗。
每日經濟新聞綜合新華社、公開資料
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP