AI快訊

中國銀河給予傳媒互聯網行業推薦評級：VideoWorld模型開源，探索模型訓練新路徑

每日經濟新聞 2025-02-12 11:06:01

每經AI快訊，中國銀河02月12日發布研報，給予傳媒互聯網行業推薦評級。

事件：2 月 10 日，豆包大模型團隊聯合北京交通大學、中國科學技術大學共同開發的視頻生成實驗模型"VideoWorld"開源。

純視覺訓練模型，擺脫語言模型依賴：現有的各類多模態模型如 GPT、Sora 等大多較為依賴語言或標簽數據學習知識，較少涉及純視覺信號的學習。VideoWorld可以通過純視覺的方式進行學習訓練：團隊構建了一個包含大量視頻演示數據的離線數據集，讓模型以"觀看"的方式進行訓練學習，最終得到一個可以根據過往觀測到的視覺輸入來推演、預測未來畫面的視頻生成器。我們認為，VideoWorld擺脫了以往模型對語言模型的依賴，通過純視覺的方式進行學習，改變了以往的模型需要對語言文本進行理解后再進行推理的定式，有望簡化模型的輸入﹣理解﹣推理﹣輸出鏈條。

引入潛在動態模型，提高視頻學習效率：目前，傳統的視覺的訓練方式由于需要將畫面轉換為離散標記后進行學習。例如，在圍棋的訓練過程中，模型只需通過少量的棋子位置標記，但在數據的編碼過程中，編碼器會產生過多冗余標記，不利于模型對復雜知識的快速學習，使得視頻序列的知識挖掘效率顯著落后于文本形式。VideoWorld 引入了一個潛在動態模型（Latent Dynamics Model, LDM)，可將幀間視覺變化壓縮為緊湊的潛在編碼，提高模型的知識挖掘效率。最終，VideoWorld 在僅有 300M 參數量且不依賴任何獎勵函數機制的條件下，達到9x9圍棋專業五段的水平，在機器人任務上也展現出了復雜環境下的泛化能力。

LDM具備前規劃能力，模型生成的編碼具備因果關系：在圍棋相關的訓練中，LDM 建模了訓練集中常見的走棋模式，并能將短期和長期數據模式壓縮至潛在空間中。對 LDM 的模型推理過程進行 UMAP 可視化后發現，LDM模型生成的潛在編碼按照時間步（Time-step）進行分組，使得模型能夠從更長遠視角進行圍棋決策。此外，用隨機標記替換不同時間步的潛在編碼的實驗從側面說明模型可生成因果相關編碼，理解因果關系。

投資建議：我們認為，近期國內AI行業取得多項進展。VideoWorld的純視覺訓練方式在LDM的加持下具有較好的訓練效果，且訓練方式更貼近生物的視覺學習的模式。展望未來，其開源的策略有望推動視覺訓練的快速發展，為行業帶來了新的可能性，同時AI模型端的進步有望加速推動在影視、廣告、社交陪伴等多個領域應用落地。在應用層面，建議關注受 AI賦能的與C端用戶體驗密切相關的行業：1)AI＋游戲：游戲內NPC互動、互動影游；2)AI＋教育：智教系統、虛擬實驗室；3)AI＋辦公：內容生成、非結構化數據處理；4)AI＋出版：校對修改、智慧發行；5)AI＋專業咨詢：情感陪護，應用場景專業解答等。

風險提示：政策及監管環境的風險、AI 技術發展不及預期的風險、AI應用落地不及預期的風險等。

每經頭條（nbdtoutiao）——太突然！知名“獨角獸”陷危機，高管早已集體離職，不知情員工除夕還在加班！總部斷水斷電，CEO已不在公司，他曾稱：留下來一起戰斗

(記者王曉波)

免責聲明：本文內容與數據僅供參考，不構成投資建議，使用前請核實。據此操作，風險自擔。

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權，嚴禁轉載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯系索取稿酬。如您不希望作品出現在本站，可聯系我們要求撤下您的作品。