要聞

李飛飛團隊“50美元”復刻DeepSeek-R1？一文讀透“白菜價”背后的真正邏輯

每日經濟新聞 2025-02-07 19:13:54

2月6日，據外媒報道，李飛飛等研究人員用不到50美元和16張英偉達H100 GPU，耗時26分鐘訓練出s1-32B人工智能推理模型。據外界分析，該模型基于預訓練模型微調，成本未涵蓋前期“燒錢”部分，且只在特定測試集上超過o1-preview，未超過“滿血版”o1和DeepSeek-R1。在“白菜價”的背后，李飛飛團隊重點研究了如何以簡單方式實現“測試時拓展”，即模型在推理時多次迭代優化結果，還構建了高質量數據集s1K，降低了訓練成本。

每經記者宋欣悅每經編輯蘭素英

2月6日，據外媒報道，李飛飛等斯坦福大學和華盛頓大學的研究人員以不到50美元的費用，使用了16張英偉達H100 GPU，耗時26分鐘就完成了訓練，成功“打造”出了一個名為s1-32B的人工智能推理模型。

根據李飛飛等人的研究論文《s1: Simple test-time scaling》，該模型在數學和編碼能力測試中的表現，與OpenAI的o1和DeepSeek的R1等尖端推理模型不相上下，在競賽數學問題上的表現更是比o1-preview高出27%。

憑借低成本、高效能，s1模型成為繼“AI界價格屠夫”DeepSeek之后再次引發科技界熱議的話題。

但s1推理模型的成本真的只有50美元嗎？其性能是否真有描述的那么出色？在“白菜價”的背后，李飛飛團隊又有哪些探索？

針對成本問題，復旦大學計算機學院副教授、博士生鄭驍慶在接受《每日經濟新聞》記者采訪時指出，“像DeepSeek或者類似的公司，在尋找有效的整合解決方案時，需要進行大量的前期研究與消融實驗。”這意味著前期是需要大量“燒錢”的。

圖片來源：論文《s1: Simple test-time scaling》

疑問一：只花了50美元？

據報道，李飛飛等斯坦福大學和華盛頓大學的研究人員以不到50美元的費用，使用了16張英偉達H100 GPU，耗時26分鐘就完成了模型s1-32B的訓練。

參與該項目的斯坦福大學研究員尼克拉斯·穆寧霍夫（Niklas Muennighoff）更是表示，如今，只要約20美元就能租到所需的計算資源。

然而，關于訓練成本，有幾點需要明確。

首先，模型s1-32B的打造并非是從零開始，而是基于現成的、預訓練的模型（阿里通義千問Qwen2.5-32B-Instruct）進行監督微調。而微調一個模型和從零開始訓練一個模型的成本是無法相提并論的。

其次，50美元是否包含了其他數據、設備、消融實驗等費用，還要打一個問號。正如DeepSeek-V3不到600萬美元的訓練成本，實際上也只包括了訓練時的GPU算力費用。

鄭驍慶向每經記者表示，“像DeepSeek或者類似的公司，在尋找有效的整合解決方案時，需要進行大量的前期研究與消融實驗。”

而消融實驗就意味著，前期是需要大量“燒錢”的。

AI數據公司Databricks研究員奧馬爾·哈塔布（Omar Khattab）評價稱，（李飛飛團隊的）論文似乎是關于Qwen模型的某種發現。

圖片來源：X

谷歌DeepMind資深研究員Wenhu Chen同樣表示，“真正神奇的是Qwen模型。我們嘗試過把基座模型換成其他模型，用同樣的數據去訓練，但最終并不能達到這么好的效果。”

也就是說，s1-32B是站在了“巨人肩膀”上，且50美元的成本也并沒有涵蓋Qwen模型的訓練費用。

疑問二：超過OpenAI的o1和DeepSeek-R1？

李飛飛團隊發表的論文提到，根據Qwen2.5-32B-Instruct進行微調的s1-32B模型，在數學和編碼能力測試中的表現，與OpenAI的o1和DeepSeek的R1等尖端推理模型不相上下，在競賽數學問題上的表現更是比o1-preview高出27%。

圖片來源：論文《s1: Simple test-time scaling》

此外，研究結果顯示，s1-32B是樣本效率最高的開放數據推理模型，表現明顯優于其基座模型（Qwen2.5-32B-Instruct）以及OpenAI的推理模型o1-preview。

事實上，s1-32B只能在特定的測試集上超過o1-preview，且并沒有超過“滿血版”o1和DeepSeek-R1。

圖片來源：論文《s1: Simple test-time scaling》

研究結果顯示，在AIME 2024和MATH 500兩個測試集中，s1-32B超過了o1-preview，但無論在哪個測試集，s1-32B都沒有超過“滿血版”o1正式版DeepSeek-R1。

“白菜價”模型的背后

測試時拓展：多動腦多檢查

事實上，李飛飛團隊論文的核心也并不在于如何“卷”模型價格，而是研究如何以最簡單的方式實現“測試時拓展”（test-time scaling）。

測試時擴展是一種在模型推理階段通過多步推理來提高模型性能的技術。具體來說，研究團隊通過預算強制，控制模型可以“思考”多長時間或進行多少步操作。如果模型過早結束推理，系統會鼓勵模型延長思考時間，確保其充分考慮問題。這也就意味著，模型在推理時會進行多次推理迭代，并逐步優化推理結果，最終生成高質量的答案。

例如，當被問到“raspberry”中有幾個“r”時，模型首先進行了初步推理，并得出了錯誤的初步結果：有2個r。但推理過程并沒有就此結束，模型又重新進行推理，優化了上次回答的結果，輸出了最終的答案：3個r。