要聞

Deepseek、Kimi爭(zhēng)相對(duì)標(biāo)o1，初創(chuàng)公司能打破“技術(shù)”和“用戶”二選一魔咒嗎？

每日經(jīng)濟(jì)新聞 2025-01-22 11:04:30

1月20日，Deepseek和Kimi相繼發(fā)布新模型DeepSeek-R1與k1.5多模態(tài)思考模型，二者均在技術(shù)性能上對(duì)標(biāo)OpenAI的o1正式版。這些動(dòng)作反映了大模型領(lǐng)域內(nèi)的激烈競(jìng)爭(zhēng)態(tài)勢(shì)和技術(shù)競(jìng)賽的升級(jí)。面對(duì)互聯(lián)網(wǎng)大廠的競(jìng)爭(zhēng)壓力，大模型創(chuàng)業(yè)公司正探索不同的戰(zhàn)略路徑，試圖在技術(shù)和市場(chǎng)間找到平衡點(diǎn)。

每經(jīng)記者楊昕怡每經(jīng)編輯文多

春節(jié)將至，國(guó)內(nèi)大模型創(chuàng)業(yè)公司集體“湊熱鬧”，發(fā)布了多個(gè)對(duì)標(biāo)OpenAI o1的新模型。

發(fā)布密集程度從1月20日Deepseek和Kimi的“前腳后腳”中可見(jiàn)一斑，在Deepseek發(fā)布新模型DeepSeek-R1后的兩小時(shí)內(nèi)，Kimi推出了k1.5多模態(tài)思考模型。

圖片來(lái)源：微信截圖

據(jù)Kimi官方介紹，新模型在數(shù)學(xué)、代碼、多模態(tài)推理能力等方面全面對(duì)標(biāo)“Open AI滿血版o1”，這也是Open AI之外的公司首次達(dá)到o1正式版水準(zhǔn)的多模態(tài)推理性能。

“Kimi探索的是C端場(chǎng)景，它探索了一個(gè)不同于Deepseek V3的基座模型方案，通過(guò)進(jìn)行長(zhǎng)模型和短模型的權(quán)重合并，以及短模型的特化RL（意為強(qiáng)化學(xué)習(xí)），最大化保留了類(lèi)o1模型的能力。”一位國(guó)內(nèi)頭部大模型的算法工程師在20日接受《每日經(jīng)濟(jì)新聞》記者采訪時(shí)表示。

大模型是需要“重倉(cāng)”投入人才、資金甚至耐心的領(lǐng)域，因此相對(duì)于互聯(lián)網(wǎng)大廠而言，以“AI六小龍”為代表的大模型創(chuàng)業(yè)公司面臨著更多艱難的選擇題。

“創(chuàng)業(yè)公司就得做取舍。”在近期的一次采訪中，MiniMax創(chuàng)始人閆俊杰認(rèn)為用戶數(shù)等指標(biāo)并非AI競(jìng)爭(zhēng)的核心，他把技術(shù)迭代作為最重要的目標(biāo)。而Kimi創(chuàng)始人楊植麟在2024年11月接受《每日經(jīng)濟(jì)新聞》記者采訪時(shí)表示，將提升用戶留存視為Kimi眼下最核心的任務(wù)。

或許正因如此，2024年下半年公眾討論Kimi時(shí)多談及其C端用戶體量?jī)?yōu)勢(shì)，而Deepseek卻以鯰魚(yú)之姿成為了國(guó)內(nèi)大模型的技術(shù)焦點(diǎn)。如今，Kimi推出了k1.5，Deepseek也在本月上線了自有App，大模型初創(chuàng)公司在技術(shù)和用戶上能做好兩手抓嗎？

集體對(duì)標(biāo)o1，Deepseek、Kimi相繼推出新模型

1月20日晚，Deepseek發(fā)布了DeepSeek-R1，并同步開(kāi)源模型權(quán)重。據(jù)官方介紹，DeepSeek-R1在后訓(xùn)練階段大規(guī)模使用了強(qiáng)化學(xué)習(xí)技術(shù)，在僅有極少標(biāo)注數(shù)據(jù)的情況下，極大提升了模型推理能力。在數(shù)學(xué)、代碼、自然語(yǔ)言推理等任務(wù)上，性能比肩 OpenAI o1正式版。

官方披露，DeepSeek-R1 API（應(yīng)用程序編程接口）服務(wù)定價(jià)為每百萬(wàn)輸入Tokens1元（緩存命中）/4元（緩存未命中），每百萬(wàn)輸出Tokens16元。（注：Tokens指文本被分割成的基本單位）

隨后，Kimi也在當(dāng)晚推出了全新的k1.5多模態(tài)思考模型。官方介紹稱(chēng)，從基準(zhǔn)測(cè)試成績(jī)看，k1.5多模態(tài)思考模型實(shí)現(xiàn)了SOTA（意為特定時(shí)間背景下的最高水平）級(jí)別的多模態(tài)推理和通用推理能力。

一位國(guó)內(nèi)頭部大模型的算法工程師向《每日經(jīng)濟(jì)新聞》記者表示：“Kimi探索了一條不同于Deepseek V3的基座模型方案，通過(guò)進(jìn)行長(zhǎng)模型和短模型的權(quán)重合并，以及短模型的特化RL，最大化保留了類(lèi)o1模型的能力。”

從表現(xiàn)數(shù)據(jù)來(lái)看，在短鏈思考（short-CoT）模式下，Kimi k1.5的數(shù)學(xué)、代碼、視覺(jué)多模態(tài)和通用能力，均超越了全球范圍內(nèi)短思考SOTA模型GPT-4o和Claude 3.5 Sonnet的水平；在長(zhǎng)鏈思考（long-CoT）模式下，Kimi k1.5的數(shù)學(xué)、代碼、多模態(tài)推理能力，也達(dá)到長(zhǎng)思考SOTA模型OpenAI o1正式版的水平。

此外，字節(jié)跳動(dòng)旗下的豆包于1月20日推出了實(shí)時(shí)語(yǔ)音大模型；“AI六小龍”之一的階躍星辰也在同天上線了Step-2系列語(yǔ)言模型的兩款新品，即參數(shù)量小、性?xún)r(jià)比更高的Step-2 mini以及針對(duì)內(nèi)容創(chuàng)作領(lǐng)域推出的“Step文學(xué)大師版”。不難看出，作為當(dāng)下最為炙手可熱的行業(yè)，大模型領(lǐng)域的技術(shù)競(jìng)賽日趨激烈。

技術(shù)和用戶，初創(chuàng)公司必須取舍嗎？

玩家們?nèi)栽谕惶飶綀?chǎng)內(nèi)競(jìng)爭(zhēng)，但起跑線和賽道已經(jīng)不同。2025年剛剛開(kāi)始，國(guó)內(nèi)“AI六小龍”和互聯(lián)網(wǎng)大廠等有代表性的大模型選手就在戰(zhàn)略方向、側(cè)重點(diǎn)上出現(xiàn)了分野。

1月7日，大模型創(chuàng)業(yè)公司零一萬(wàn)物CEO李開(kāi)復(fù)回應(yīng)媒體稱(chēng)，只有大廠能夠“燒”（指投入巨資研發(fā)）超大模型，零一萬(wàn)物2024年以來(lái)的目標(biāo)，是做小參數(shù)、適中的行業(yè)模型。 “（零一萬(wàn)物團(tuán)隊(duì)中）愿意繼續(xù)訓(xùn)練超大參數(shù)模型的成員，加入了零一萬(wàn)物和阿里云成立的‘產(chǎn)業(yè)大模型聯(lián)合實(shí)驗(yàn)室’。”他介紹。

李開(kāi)復(fù)還表示，除了模型訓(xùn)練策略的調(diào)整，零一萬(wàn)物還考慮將游戲、金融等方向的AI業(yè)務(wù)拆分，進(jìn)行獨(dú)立運(yùn)營(yíng)和融資。

“我們是一家商業(yè)公司，而非單純的技術(shù)實(shí)驗(yàn)室。”李開(kāi)復(fù)似乎已經(jīng)用零一萬(wàn)物的轉(zhuǎn)型回答了，大模型初創(chuàng)公司難以兼得“月亮”和“六便士”。

“‘六小龍’的估值增長(zhǎng)得非?？?，但整體業(yè)務(wù)的落地收入、用戶規(guī)模等情況都不太理想。所以投了大模型的投資人在2024年實(shí)際上是比較焦慮的。”一位AI領(lǐng)域的投資人在接受《每日經(jīng)濟(jì)新聞》記者采訪時(shí)表示，大模型的商業(yè)化路徑難題也影響到了投資人的投資心態(tài)。

“在產(chǎn)品上，豆包（的用戶體量）現(xiàn)在超出了；在技術(shù)上，Deepseek、阿里的通義做得也比‘小龍們’好。”在該投資人看來(lái)，面臨大廠的挑戰(zhàn)時(shí)，以“AI六小龍”為代表的大模型創(chuàng)業(yè)公司需要一定的“生存戰(zhàn)略”，這些創(chuàng)業(yè)公司要么有產(chǎn)品上的差異化定位，要么有一個(gè)足夠的時(shí)間窗口“往前跑”。

在相對(duì)有限的資源、時(shí)間之下，“取舍”“聚焦”成為了國(guó)內(nèi)多家大模型創(chuàng)業(yè)公司在2024年的戰(zhàn)略關(guān)鍵詞。

“（2024年）最大的痛苦是不知道要做取舍。當(dāng)知道了，就不痛苦了。我現(xiàn)在把技術(shù)迭代作為我們最重要的目標(biāo)。”閆俊杰在近期接受媒體采訪時(shí)表示，如果面對(duì)“產(chǎn)品驅(qū)動(dòng)”和“技術(shù)驅(qū)動(dòng)”二選一的局面，他會(huì)選擇后者。

他舉例解釋?zhuān)绻暇€一個(gè)算法變化，而這可能會(huì)影響用戶數(shù)據(jù)，那他會(huì)根據(jù)算法趨勢(shì)來(lái)決策，“2023年時(shí)還會(huì)糾結(jié)，2024年基本不糾結(jié)了”。

而這大概率不是Kimi的想法。楊植麟在2024年11月接受《每日經(jīng)濟(jì)新聞》記者采訪時(shí)表示，將提升用戶留存視為Kimi眼下最核心的任務(wù)，這一點(diǎn)也能從Kimi在C端用戶的爭(zhēng)奪力度、既有規(guī)模體量上看出。

商業(yè)智能數(shù)據(jù)服務(wù)商QuestMobile發(fā)布的數(shù)據(jù)顯示，截至2024年12月份，豆包、Kimi、文小言在AI原生App領(lǐng)域的“三強(qiáng)格局”已經(jīng)形成，月活躍用戶規(guī)模分別為7523萬(wàn)、2101萬(wàn)和1224萬(wàn)。然而，12月份，豆包與Kimi、文小言的重合用戶已分別達(dá)到754.1萬(wàn)、409.8萬(wàn)，相比6月份分別上升了5.5%、0.6%。

從以上數(shù)據(jù)來(lái)看，豆包的持續(xù)擴(kuò)張給Kimi帶去了不言而喻的壓力。

“希望更多技術(shù)人才可以通過(guò)這份技術(shù)報(bào)告，了解到Kimi在模型訓(xùn)練方面所做的部分工作。如果感興趣的話，歡迎加入我們，一起登月。”在官方對(duì)k1.5的介紹文章中，Kimi把對(duì)人才的招攬也放在了顯眼的位置。對(duì)于技術(shù)迭代和用戶規(guī)模，Kimi似乎不想做選擇題，但如果公司打算兼得二者，則要看Kimi在人力物力上的儲(chǔ)備還有多少了。

封面圖片來(lái)源：視覺(jué)中國(guó)

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

春節(jié)將至，國(guó)內(nèi)大模型創(chuàng)業(yè)公司集體“湊熱鬧”，發(fā)布了多個(gè)對(duì)標(biāo)OpenAI o1的新模型。發(fā)布密集程度從1月20日Deepseek和Kimi的“前腳后腳”中可見(jiàn)一斑，在Deepseek發(fā)布新模型DeepSeek-R1后的兩小時(shí)內(nèi)，Kimi推出了k1.5多模態(tài)思考模型。圖片來(lái)源：微信截圖據(jù)Kimi官方介紹，新模型在數(shù)學(xué)、代碼、多模態(tài)推理能力等方面全面對(duì)標(biāo)“Open AI滿血版o1”，這也是Open AI之外的公司首次達(dá)到o1正式版水準(zhǔn)的多模態(tài)推理性能。 “Kimi探索的是C端場(chǎng)景，它探索了一個(gè)不同于Deepseek V3的基座模型方案，通過(guò)進(jìn)行長(zhǎng)模型和短模型的權(quán)重合并，以及短模型的特化RL（意為強(qiáng)化學(xué)習(xí)），最大化保留了類(lèi)o1模型的能力?！币晃粐?guó)內(nèi)頭部大模型的算法工程師在20日接受《每日經(jīng)濟(jì)新聞》記者采訪時(shí)表示。大模型是需要“重倉(cāng)”投入人才、資金甚至耐心的領(lǐng)域，因此相對(duì)于互聯(lián)網(wǎng)大廠而言，以“AI六小龍”為代表的大模型創(chuàng)業(yè)公司面臨著更多艱難的選擇題。 “創(chuàng)業(yè)公司就得做取舍。”在近期的一次采訪中，MiniMax創(chuàng)始人閆俊杰認(rèn)為用戶數(shù)等指標(biāo)并非AI競(jìng)爭(zhēng)的核心，他把技術(shù)迭代作為最重要的目標(biāo)。而Kimi創(chuàng)始人楊植麟在2024年11月接受《每日經(jīng)濟(jì)新聞》記者采訪時(shí)表示，將提升用戶留存視為Kimi眼下最核心的任務(wù)。或許正因如此，2024年下半年公眾討論Kimi時(shí)多談及其C端用戶體量?jī)?yōu)勢(shì)，而Deepseek卻以鯰魚(yú)之姿成為了國(guó)內(nèi)大模型的技術(shù)焦點(diǎn)。如今，Kimi推出了k1.5，Deepseek也在本月上線了自有App，大模型初創(chuàng)公司在技術(shù)和用戶上能做好兩手抓嗎？集體對(duì)標(biāo)o1，Deepseek、Kimi相繼推出新模型 1月20日晚，Deepseek發(fā)布了DeepSeek-R1，并同步開(kāi)源模型權(quán)重。據(jù)官方介紹，DeepSeek-R1在后訓(xùn)練階段大規(guī)模使用了強(qiáng)化學(xué)習(xí)技術(shù)，在僅有極少標(biāo)注數(shù)據(jù)的情況下，極大提升了模型推理能力。在數(shù)學(xué)、代碼、自然語(yǔ)言推理等任務(wù)上，性能比肩 OpenAI o1正式版。官方披露，DeepSeek-R1 API（應(yīng)用程序編程接口）服務(wù)定價(jià)為每百萬(wàn)輸入Tokens1元（緩存命中）/4元（緩存未命中），每百萬(wàn)輸出Tokens16元。（注：Tokens指文本被分割成的基本單位）隨后，Kimi也在當(dāng)晚推出了全新的k1.5多模態(tài)思考模型。官方介紹稱(chēng)，從基準(zhǔn)測(cè)試成績(jī)看，k1.5多模態(tài)思考模型實(shí)現(xiàn)了SOTA（意為特定時(shí)間背景下的最高水平）級(jí)別的多模態(tài)推理和通用推理能力。一位國(guó)內(nèi)頭部大模型的算法工程師向《每日經(jīng)濟(jì)新聞》記者表示：“Kimi探索了一條不同于Deepseek V3的基座模型方案，通過(guò)進(jìn)行長(zhǎng)模型和短模型的權(quán)重合并，以及短模型的特化RL，最大化保留了類(lèi)o1模型的能力?！? 從表現(xiàn)數(shù)據(jù)來(lái)看，在短鏈思考（short-CoT）模式下，Kimi k1.5的數(shù)學(xué)、代碼、視覺(jué)多模態(tài)和通用能力，均超越了全球范圍內(nèi)短思考SOTA模型GPT-4o和Claude 3.5 Sonnet的水平；在長(zhǎng)鏈思考（long-CoT）模式下，Kimi k1.5的數(shù)學(xué)、代碼、多模態(tài)推理能力，也達(dá)到長(zhǎng)思考SOTA模型OpenAI o1正式版的水平。此外，字節(jié)跳動(dòng)旗下的豆包于1月20日推出了實(shí)時(shí)語(yǔ)音大模型；“AI六小龍”之一的階躍星辰也在同天上線了Step-2系列語(yǔ)言模型的兩款新品，即參數(shù)量小、性?xún)r(jià)比更高的Step-2 mini以及針對(duì)內(nèi)容創(chuàng)作領(lǐng)域推出的“Step文學(xué)大師版”。不難看出，作為當(dāng)下最為炙手可熱的行業(yè)，大模型領(lǐng)域的技術(shù)競(jìng)賽日趨激烈。技術(shù)和用戶，初創(chuàng)公司必須取舍嗎？玩家們?nèi)栽谕惶飶綀?chǎng)內(nèi)競(jìng)爭(zhēng)，但起跑線和賽道已經(jīng)不同。2025年剛剛開(kāi)始，國(guó)內(nèi)“AI六小龍”和互聯(lián)網(wǎng)大廠等有代表性的大模型選手就在戰(zhàn)略方向、側(cè)重點(diǎn)上出現(xiàn)了分野。 1月7日，大模型創(chuàng)業(yè)公司零一萬(wàn)物CEO李開(kāi)復(fù)回應(yīng)媒體稱(chēng)，只有大廠能夠“燒”（指投入巨資研發(fā)）超大模型，零一萬(wàn)物2024年以來(lái)的目標(biāo)，是做小參數(shù)、適中的行業(yè)模型。 “（零一萬(wàn)物團(tuán)隊(duì)中）愿意繼續(xù)訓(xùn)練超大參數(shù)模型的成員，加入了零一萬(wàn)物和阿里云成立的‘產(chǎn)業(yè)大模型聯(lián)合實(shí)驗(yàn)室’。”他介紹。李開(kāi)復(fù)還表示，除了模型訓(xùn)練策略的調(diào)整，零一萬(wàn)物還考慮將游戲、金融等方向的AI業(yè)務(wù)拆分，進(jìn)行獨(dú)立運(yùn)營(yíng)和融資。 “我們是一家商業(yè)公司，而非單純的技術(shù)實(shí)驗(yàn)室。”李開(kāi)復(fù)似乎已經(jīng)用零一萬(wàn)物的轉(zhuǎn)型回答了，大模型初創(chuàng)公司難以兼得“月亮”和“六便士”。 “‘六小龍’的估值增長(zhǎng)得非常快，但整體業(yè)務(wù)的落地收入、用戶規(guī)模等情況都不太理想。所以投了大模型的投資人在2024年實(shí)際上是比較焦慮的?！币晃籄I領(lǐng)域的投資人在接受《每日經(jīng)濟(jì)新聞》記者采訪時(shí)表示，大模型的商業(yè)化路徑難題也影響到了投資人的投資心態(tài)。 “在產(chǎn)品上，豆包（的用戶體量）現(xiàn)在超出了；在技術(shù)上，Deepseek、阿里的通義做得也比‘小龍們’好?！痹谠撏顿Y人看來(lái)，面臨大廠的挑戰(zhàn)時(shí)，以“AI六小龍”為代表的大模型創(chuàng)業(yè)公司需要一定的“生存戰(zhàn)略”，這些創(chuàng)業(yè)公司要么有產(chǎn)品上的差異化定位，要么有一個(gè)足夠的時(shí)間窗口“往前跑”。在相對(duì)有限的資源、時(shí)間之下，“取舍”“聚焦”成為了國(guó)內(nèi)多家大模型創(chuàng)業(yè)公司在2024年的戰(zhàn)略關(guān)鍵詞。 “（2024年）最大的痛苦是不知道要做取舍。當(dāng)知道了，就不痛苦了。我現(xiàn)在把技術(shù)迭代作為我們最重要的目標(biāo)?！遍Z俊杰在近期接受媒體采訪時(shí)表示，如果面對(duì)“產(chǎn)品驅(qū)動(dòng)”和“技術(shù)驅(qū)動(dòng)”二選一的局面，他會(huì)選擇后者。他舉例解釋?zhuān)绻暇€一個(gè)算法變化，而這可能會(huì)影響用戶數(shù)據(jù)，那他會(huì)根據(jù)算法趨勢(shì)來(lái)決策，“2023年時(shí)還會(huì)糾結(jié)，2024年基本不糾結(jié)了”。而這大概率不是Kimi的想法。楊植麟在2024年11月接受《每日經(jīng)濟(jì)新聞》記者采訪時(shí)表示，將提升用戶留存視為Kimi眼下最核心的任務(wù)，這一點(diǎn)也能從Kimi在C端用戶的爭(zhēng)奪力度、既有規(guī)模體量上看出。商業(yè)智能數(shù)據(jù)服務(wù)商QuestMobile發(fā)布的數(shù)據(jù)顯示，截至2024年12月份，豆包、Kimi、文小言在AI原生App領(lǐng)域的“三強(qiáng)格局”已經(jīng)形成，月活躍用戶規(guī)模分別為7523萬(wàn)、2101萬(wàn)和1224萬(wàn)。然而，12月份，豆包與Kimi、文小言的重合用戶已分別達(dá)到754.1萬(wàn)、409.8萬(wàn)，相比6月份分別上升了5.5%、0.6%。從以上數(shù)據(jù)來(lái)看，豆包的持續(xù)擴(kuò)張給Kimi帶去了不言而喻的壓力。 “希望更多技術(shù)人才可以通過(guò)這份技術(shù)報(bào)告，了解到Kimi在模型訓(xùn)練方面所做的部分工作。如果感興趣的話，歡迎加入我們，一起登月?！痹诠俜綄?duì)k1.5的介紹文章中，Kimi把對(duì)人才的招攬也放在了顯眼的位置。對(duì)于技術(shù)迭代和用戶規(guī)模，Kimi似乎不想做選擇題，但如果公司打算兼得二者，則要看Kimi在人力物力上的儲(chǔ)備還有多少了。

模型 Kimi Kimi

上一篇文章

德聯(lián)集團(tuán)：預(yù)計(jì)2024年凈利潤(rùn)同比上升85%—150%

返回每經(jīng)網(wǎng)首頁(yè)

下一篇文章

中投公司：增強(qiáng)主權(quán)財(cái)富基金核心功能，優(yōu)化國(guó)有金融資本受托管理

相關(guān)文章