每日經濟新聞 2024-09-26 15:55:42
◎在9月24日的火山引擎AI創新巡展上,豆包視頻生成-PixelDance和豆包視頻生成-Seaweed兩款大模型一并發布。
◎譚待透露,豆包視頻生成模型的價格未定?!耙曨l模型和語言模型應用場景不同,定價邏輯也不同,要通過新體驗、遷移成本等來衡量產品價值,(產品)最終能否廣泛應用也取決于它是否比以前的生產力ROI(投資回報率)提升了很多?!?/p>
每經記者 楊昕怡 每經編輯 梁梟
“字節大模型的發展路徑是,先to C打磨產品,等模型能力具備競爭優勢后,再to B拓展市場。”9月25日,火山引擎總裁譚待在接受包含《每日經濟新聞》記者在內的媒體群訪時表示。
基于這一發展路徑,在早期版本今年5月應用于剪映團隊研發的AI創作平臺“即夢”后,豆包視頻生成模型在9月24日的2024火山引擎AI創新巡展上正式亮相,并面向企業市場開啟邀測。
自Sora開啟了“視頻的ChatGPT時代”后,國內快手、智譜AI、MiniMax和阿里等大模型玩家相繼推出了同類產品,如今字節跳動入局,能否改變視頻大模型的現有競爭格局?
通過發布會現場對兩款視頻生成模型的效果演示,譚待認為,無論是語義理解能力、多個主體運動的復雜交互畫面,還是多鏡頭切換的內容一致性,豆包視頻生成大模型均已達到業界領先水平。
與此同時,“音樂生成模型”和“同聲傳譯模型”一并在會上發布,再擴字節AI版圖。
作為業內率先進行大模型降價的選手,火山引擎在商業化上加速明顯。譚待向《每日經濟新聞》記者表示,to B調用量增長迅速。“對to C業務沒那么清楚,但感覺也很順利。我認為AI能實現端到端地解決問題,to B、to C業務邊界沒有那么明顯。”
《每日經濟新聞》記者從發布會了解到,截至今年9月,豆包大模型日均Tokens使用量已超1.3萬億,日均生成圖片5000萬張,日均處理語音85萬小時。
8月31日,“AI六小龍”之一的MiniMax發布了視頻生成模型video-1;9月19日,可靈AI完成第9次迭代,發布“可靈1.5模型”,同天的云棲大會上,阿里云再推全新的視頻生成模型——不到一個月的時間里,本就硝煙四起的視頻生成模型領域又迎來了新玩家。
在9月24日的火山引擎AI創新巡展上,豆包視頻生成-PixelDance和豆包視頻生成-Seaweed兩款大模型一并發布。
《每日經濟新聞》記者注意到,這兩款大模型支持的視頻內容生成最長時長暫未公布,即夢App顯示支持3秒、6秒、9秒和12秒的視頻內容生成。與之相比的是,可靈在6月21日上線了視頻續寫功能,可讓視頻延續約5秒,最長可生成約3分鐘視頻。
發布會現場 圖片來源:每經記者 楊昕怡 攝
“不同場景對視頻時長要求不同,我們更關注針對不同行業的解決方案。”譚待在接受《每日經濟新聞》記者采訪時表示,豆包視頻生成大模型在行業中的優勢主要在于指令遵循能力、多鏡頭切換的一致性以及視頻生成的泛化能力等方面。
發布會現場,多條官方視頻的演示體現了上述能力:例如,在一條一男一女騎馬馳騁的演示視頻中,在長達10秒的畫面里,兩人表情、動作各異,但都表現得自然流暢。
值得關注的是,豆包視頻生成大模型支持生成黑白、3D動畫、2D動畫、國畫、厚涂等多種風格的內容。
“對于視頻生成模型來說,(生產內容的)不同風格是很難做的。技術之外,主要看數據源的豐富程度。”一位大模型技術人員向《每日經濟新聞》記者表示。譚待將其歸因于“全棧能力的優勢、技術突破以及抖音和剪映對視頻的理解”。
秉持實用主義原則,譚待表示,新款豆包視頻生成模型“從一落地就開始考慮商業化”,使用領域包括電商營銷、動畫教育、城市文旅和微劇本。
在商業化上同樣“著急”的還有可靈。在8月20日晚間的二季度業績電話會上,快手聯合創始人、董事長兼CEO程一笑將可靈的商業化視作當務之急,“力爭盡快實現可觀的商業化變現規模”。
談及定價策略,譚待透露,豆包視頻生成模型的價格未定。“視頻模型和語言模型應用場景不同,定價邏輯也不同,要通過新體驗、遷移成本等來衡量產品價值,(產品)最終能否廣泛應用也取決于它是否比以前的生產力ROI(投資回報率)提升了很多。”
除了全新的視頻生成模型,本次活動還發布了豆包音樂模型和同聲傳譯模型。截至目前,豆包全模態大模型家族已涵蓋大語言模型、視覺大模型和語音大模型三大品類,共發布了13個大模型。
但光有模型是不夠的,不乏業內人士稱,目前大模型廠商落地應用是“拿著錘子找釘子”。那么,如何發現釘子、如何更省力地用合適的錘子釘釘子,這些都可能成為云廠商在AI時代的新挑戰。
首先是橫亙在大模型廠商和企業之間的成本問題。
在5月的發布會上,譚待宣布,豆包主力模型的推理輸入價格僅為0.0008元/千Tokens,比行業便宜99.3%,打響了大模型領域的價格戰。
“成本是關鍵,價格降十分之一,量就可能漲十倍。”在譚待看來,模型調用量和應用覆蓋是當前關注重點,“我們主要關注應用覆蓋,而不是收入,我們認為新場景的解鎖更有價值,例如聊天、陪伴、生產力等方面的場景升級和企業應用場景的拓展。”
不過,他也堅持,面向B端市場的業務前提一定是要可持續,“不能像to C業務一樣考慮靠廣告盈利”,“to B產品要實現正毛利,我們有能力也有信心做到。”
在豆包大模型率先降價后,阿里通義千問、百度文心一言等模型也都陸續降價。今年云棲大會上,阿里云百煉平臺上的三款通義千問主力模型再次降價,阿里云CTO周靖人甚至表示“相比未來龐大的應用,還太貴了。”
對于這一行業現狀,譚待表示,降價后,從調用量來看,成本已不再是創新的阻礙,“接下來要做的是在這個價格基礎上,提高模型的質量和性能,質量指的是讓模型能力更強、更多元。”
經過一輪“普降”后,大模型行業將不再一味只“卷”價格,現階段要比拼的是模型性能,這一點也在客戶端的需求上得到了佐證。
據譚待觀察,對于大模型的落地,to B市場的需求變化緩慢,核心需求是降本增效。“企業應用AI時,以前是自上而下規劃,失敗概率大,現在需要自下而上創新。”
《每日經濟新聞》記者注意到,在輔助企業進行數字化轉型的過程中,火山引擎今年聯合各方成立了智能終端大模型聯盟、汽車大模型生態聯盟、零售大模型生態聯盟,且外部客戶已覆蓋手機、汽車、金融、消費、互娛等30多個行業。
如今,字節手中又多了幾把稱手的“錘子”,怎樣找到各行各業中與之匹配的更多“釘子”,就是接下來對火山引擎的考驗了。
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP