要聞

對話生數科技CEO唐家渝：AI視頻到了“普及”節點提升時長不是產品化的重點

每日經濟新聞 2024-09-12 16:33:49

◎唐家渝認為，AI視頻已經來到了“普及”的節點。此外，從當前階段的收入來說，生數科技在B端市場獲得的收入更多，C端的增長曲線則在 Vidu 產品上市這一個月以來非常“陡峭”。

每經記者李少婷可楊每經編輯文多

9月11日，生數科技舉辦媒體開放日活動，發布“主體參照”（Subject Consistency）功能，意在破解視頻模型生成主體的“一致性”難題。

活動上，生數科技聯合創始人、CEO唐家渝在回應《每日經濟新聞》記者關于商業模式的提問時表示，目前行業內有SaaS（軟件即服務）訂閱和MaaS（模型即服務）兩種，7月30日Vidu上線以來，在全球范圍內已收到數萬個API接入申請。

就底層架構，唐家渝表示旗下產品“VIDU”所用的“U-ViT架構”與Sora所用的“DiT架構”幾乎一模一樣，差別在于U-ViT作了更多面向落地的設計。在技術路線上，大家現在處于底層架構收斂的狀態，但同質化并不代表大家所有進展、能力相同，唐家渝舉例說：“例如現在的語言模型，（雖然）大家都使用Transformer架構，但從現實來看，OpenAI還是明顯領先的。”

目前，AI視頻的主要使用者還是專業用戶，如電影工作者等，但唐家渝認為，AI視頻已經來到了“普及”的節點。

此外，從當前階段的收入來說，生數科技在B端市場獲得的收入更多，C端的增長曲線則在Vidu產品上市這一個月以來非常“陡峭”。

唐家渝圖片來源：每經記者李少婷攝

“最終的目標還是做通用大模型”

唐家渝是清華大學自然語言處理實驗室碩士，此前曾任瑞萊智慧副總裁、騰訊優圖實驗室高級產品經理等。唐家渝目前所在的生數科技于2023年3月成立，今年3月初宣布完成新一輪融資。今年4月底，該公司與清華大學聯合研發的原創視頻大模型Vidu面向全球發布，7月底正式上線，全面開放使用。

Vidu問世即被稱為“中國版Sora”。這種稱呼一方面是因為外界對中國視頻大模型充滿期待，另一方面，從技術架構上說，二者也有異曲同工之處。

據介紹，Vidu的底層基于自研的U-ViT架構，而Sora是基于DiT架構。關于U-ViT與DiT架構的區別，唐家渝介紹：“一句話總結來說，幾乎一模一樣。”二者都是Diffusion和Transformer的融合，甚至底層一些技術細節也是相同的。不同之處在于，U-ViT架構“做了更多面向落地的優化設計”，簡單概括下來，就是在訓練同一模型時，相同時間下，U-ViT所需的算力更少。

從整體的技術路線來看，當前國內幾家視頻大模型都走的是“類Sora路線”，那大家未來是否會愈加同質化？

對此，唐家渝介紹，當前大家是處于底層架構收斂的狀態中，“但同質化并不代表大家所有進展、能力都相同”。他以語言模型為例分析道，大家都會使用Transformer架構，但從現實情況來看，OpenAI還是明顯領先，這是因為在這一架構基礎上仍有諸多環節需要技術技巧、實踐經驗幫助破解難點，這就導致了不同語言模型在能力上的差距。

當前，業內也在探索新的架構路線，例如將多模態的生成和多模態理解結合起來，但目前仍沒有特別好的方案出現。

“我們最終的目標還是做通用大模型，視頻生成是多模態生成大模型中間的一個階段。”唐家渝坦承了開發通用大模型的雄心。

他還表示：“這并不意味著我們完全只在做這一個事情（指視頻大模型），我們除了視頻以外也有其他模態的生成能力。”

“目前B端市場收入更多”

技術底層邏輯的趨同，也或多或少低導致了市場開發思路相近。

“大家的商業選擇上還是比較類似的，即便是像Sora、Runway，都在積極地擁抱好萊塢或者廣告合作等方向。”唐家渝認為，AI生成視頻領域總的來說還處在發展前期，國際頭部玩家在齊頭并進，或者叫“共同擴大市場”。

以生數科技為例，唐家渝將落地商業模式分為兩個方向：其一是SaaS訂閱模式，Vidu每個月有一些免費的額度，但是如果有更多的需求或想使用更高級的能力，就需要支付訂閱費用，Vidu也會不斷豐富產品功能，以滿足用戶的創作需求；其二是模型能力輸出模式（MaaS），當前不少客戶需要視頻生成能力，以此作為工作流程的一個環節或者來衍生出有意思的玩法，這些客戶希望可以直接調用模型。

從收入角度來看，B端市場在目前這個階段獲得的收入更多。不過Vidu上線一個月來，C端的增長曲線也非常“陡峭”。“我們目前判斷下來的話，B端（的需求）是比較明確、比較直接和比較穩定的，所以B端是我們的一個長期、重點方向。C端我們也在不斷探索。”唐家渝表示。

當前，國內的視頻生成模型和工具已形成“出海潮”，并且表現亮眼，但唐家渝認為：“還不能說國內已經完全領先，國內外頭部玩家都屬于第一梯隊。”

“AI視頻來到了一個節點”

視頻大模型的受眾群體中，影視、動漫從業者居多，他們多被視為“專業受眾”，那對“普通人”來說，AI視頻何時能成為他們可以駕馭的工具？

唐家渝以攝影為例，從膠片機時代到手機攝影普及，就是一個不斷降低創作者門檻的過程。“現在的AI視頻來到了一個節點。”唐家渝介紹，9月11日，生數科技發布的“主體參照”功能，正是為降低創作者門檻或者加速創作過程所作的努力。

“技術仍是關鍵因素，目前的視頻生成只是初步符合物理規律，還有很高的天花板需要突破，比如更強的模型能力以及更多模態的協同生成。”唐家渝介紹，這次發布的“主體參照”能力在一致性生成方面確實有了很大提升，但是還有很多地方需要進一步提升。“例如要大模型從生成一個商品變成生成一個工藝品，而這個工藝品上面有繁復花紋和鏤空部分，面對如此復雜的結構，目前的生成成功率依舊不高。場景生成包含很多組成因素，例如運動鞋，我就希望它能在更復雜、更動態化的場景中有更好的表現。這些都需要不斷提升模型能力。”

這個過程中，技術的原創性和突破性需要與良好的商業化齊頭并進，因為商業公司畢竟不是科研機構。

以視頻生成的時長為例，拓展生成時長需要提升模型對世界抽象理解的能力、信息壓縮和放大的雙向能力。當前Vidu最長可以生成32秒的視頻，生數科技計劃將其擴展得更長，不過，時長還不是生數科技現在重點產品化的部分。

“在實際創作中，粗略地來說，90%以上的片段都是幾秒鐘。因此，從實用角度來看，我們還沒有將時長作為我們的優先發布考慮。”唐家渝強調，但從模型能力角度，公司實際上在持續提升。

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權，嚴禁轉載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯系索取稿酬。如您不希望作品出現在本站，可聯系我們要求撤下您的作品。

模型視頻科技 Ai

上一篇文章

在岸人民幣兌美元收盤報7.1236，較上一交易日下跌105點

返回每經網首頁

下一篇文章

住宅價格四到五折深圳大量商辦公寓低價促銷