每日經濟新聞 2025-02-21 12:57:41
每經杭州2月21日電(記者葉曉丹)在2月21日開幕的全球開發者大會(GDC)上,阿里云魔搭社區首發階躍星辰最新開源的兩款多模態模型,包括全球參數量最大的開源視頻生成模型Step-Video-T2V,以及業界首款產品級開源語音交互模型Step-Audio。截至目前,魔搭社區已上架超過4萬個開源模型,涵蓋LLM、對話、語音、文生圖、圖生視頻等多個領域,是中國最大的AI模型社區。
此次在魔搭社區開源的兩款模型,是近期全球多模態領域最熱門的開源模型。Step-Video-T2V是基于300億參數的文本轉視頻預訓練模型,能夠生成高達204幀的視頻,在指令遵循、運動平滑性、物理合理性、美感度等方面表現均顯著超過市面上既有的開源視頻模型。
另一款上架模型Step-Audio,是業界首個產品級開源語音模型,參數規模多達1300多億。根據Llama Question等5大主流公開測試,Step-Audio模型性能均位列第一,并在HSK-6(漢語水平考試六級)的測評中表現尤佳。
封面圖片來源:視覺中國-VCG211379091969
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP