Meta確認開源大模型LLaMA 3下個月登場，年底還將建成等同于60萬個H100 GPU的“超級算力庫” | 大模界

每日經濟新聞 2024-04-10 11:35:24

每經記者文巧每經編輯何小桃蘭素英

“大模界”是每日經濟新聞推出一檔專注生成式AI與大模型技術的前沿科技報道欄目。

在這里，我們將聚焦生成式AI技術浪潮，展現從文字、圖像、音頻、視頻的大模型如何編織數字化世界。

在這里，我們將解碼、評測國內外各類大模型，探究它們如何成為變革各行各業的重要力量。

在這里，我們將關注AIGC行業發展，聯手行業領軍人物和頂尖專家，共同揭示最新產品創新和技術突破，前瞻未來發展趨勢。

歡迎關注“大模界”，您將見證AIGC如何重塑內容生態，如何以前沿之力推動社會進步。讓我們共同開啟一場關于AI新紀元的無限旅程！

在推出開源大模型LLaMA 2近一年之后，Meta的新一代大模型LLaMA 3即將面世。

在4月9日倫敦舉行的一次活動中，Meta確認計劃在下個月內首次發布LLaMA 3。據稱，該模型將有多個具有不同功能的版本。

但Meta并沒有披露LLaMA 3的參數規模。“隨著時間的推移，我們的目標是讓由LLaMA驅動的Meta AI成為世界上最有用的助手。”Meta人工智能研究副總裁Joelle Pineau說。“要達到這個目標，還有相當多的工作要做。”

而據科技外媒The Information 4月8日發布的報道，作為對標GPT-4的大模型，LLaMA 3的大規模版本參數量可能超過1400億，而最大的LLaMA 2版本的參數量為700億。LLaMA 3將支持多模態處理，即同時理解和生成文本及圖片。

值得注意的是，LLaMA 3將延續Meta一直以來的開源路線。目前，開源模型界的競爭正在變得愈發激烈，開源大模型亦進化得越來越強大。截至目前，包括谷歌、馬斯克旗下的xAI、Mistral AI、StabilityAI等在內的許多公司都發布了開源的大模型。

作為開源模型界的“扛把子”，Meta在AI基礎設施上的投入亦不可小覷，目前只有微軟擁有與之相當的計算能力儲備。Meta發布的一篇技術博客稱，到2024年底，該公司將再購350000個英偉達H100 GPU，算上其他GPU，其算力相當于近600000個H100。

就在下個月！LLaMA 3即將登場

參數量或達1400億

在4月9日倫敦舉行的一次活動中，Meta確認計劃在下個月內首次發布LLaMA 3。Meta全球事務總裁Nick Clegg表示：“在下個月內，甚至是在很短的時間內，我們希望推出新的下一代基礎模型套件LLaMA 3。”

從Clegg的表述上看，LLaMA 3將有多個不同功能的版本。“今年內，我們將發布一系列具有不同功能、不同通用性的模型，很快就會開始發布。”

同時，Meta首席產品官Chris Cox補充稱，Meta計劃用LLaMA 3為Meta的多個產品提供支持。

值得注意的是，LLaMA 3將延續Meta一直以來的開源路線。

與OpenAI堅持的閉源路線和大參數LLM不同，Meta從一開始就選擇了開源策略和小型化LLM。

2023年2月，Meta在其官網公開發布了LLaMA大模型，與 GPT系列模型類似，LLaMA也是一個建立在Transformer基礎架構上的自回歸語言模型。

LLaMA包括70億、130億、330億、650億這四種參數規模，旨在推動LLM的小型化和平民化研究。相比之下，GPT-3最高則達到了1750億的參數規模。Meta在當時的論文中總結稱，盡管體積小了10倍以上，但LLaMA（130億參數）的性能優于GPT-3。

一般來說，較小的模型成本更低，運行更快，且更容易微調。正如Meta首席執行官扎克伯格在此前的財報電話會議中稱，開源模型通常更安全、更高效，而且運行起來更具成本效益，它們不斷受到社區的審查和開發。

談及開源問題，扎克伯格在接受外媒The Verge采訪時還曾表示：“我傾向于認為，最大的挑戰之一是，如果你打造的東西真的很有價值，那么它最終會變得非常集中和狹隘。如果你讓它更加開放，那么就能解決機會和價值不平等可能帶來的大量問題。因此，這是整個開源愿景的重要組成部分。”

除此之外，小型模型還便于開發者在移動設備上開發AI軟件，這也是LLaMA系列模型自開源來就獲得開發者廣泛關注的原因。當前，Github上許多模型都是基于LLaMA系列模型而開發。

到去年7月，Meta又發布了LLaMA 2。當時，Meta也采用了先發小模型的策略。在發布700億參數的LLaMA 2大規模版本之前，Meta先行推出了130億和70億參數的小型版本。

不過，根據相關的測試，LLaMA 2拒絕回答一些爭議性較小的問題，例如如何對朋友惡作劇或怎樣“殺死”汽車發動機等。近幾個月來，Meta一直在努力使LLaMA 3在回答有爭議的問題上更開放，也更準確。

盡管Meta沒有透露LLaMA 3的參數規模，但從The Information 的報道看，作為對標GPT-4的大模型，LLaMA 3的大規模版本參數量據悉可能超過1400億，這與最大版本的LLaMA 2相比提升了一倍。

在整個開源模型界，競爭正在變得愈發激烈，開源大模型亦進化得越來越強大。

今年2月，谷歌罕見地改變了去年堅持的大模型閉源策略，推出了開源大模型Gemma；3月，馬斯克也開源了旗下xAI公司的Grok-1模型。根據Gemma和Grok-1的性能測試文檔，它們在數學、推理、代碼等多項基準測試方面的性能均超過了同規模的LLaMA 2模型。

截至目前，包括谷歌、xAI、Mistral AI、DataBricks和StabilityAI等在內的多家科技公司發布了開源的大模型。有業內人士此前在接受《每日經濟新聞》記者采訪時說道：“開源是大勢所趨，我認為Meta正在引領這一趨勢，其次是Mistral AI、HuggingFace等規模較小的公司。”

狂卷AGI：豪擲100億美元囤芯片

年底算力將相當于約60萬個H100

作為開源模型界的“扛把子”，Meta在AI基礎設施上的投入亦不可小覷。

實際上，Meta上個月曾發布一篇技術博客，展示了自己擁有的算力資源，以及布局AI基礎設施的細節和路線圖。該公司稱，其長期愿景是構建開放且負責任的通用人工智能 (AGI)，以便讓每個人都能廣泛使用并從中受益。

Meta在博客中寫道，“到2024年底，我們的目標是繼續擴大（AI）基礎設施建設，其中包括350000個英偉達H100 GPU，這是其產品組合的一部分，算上其他，其算力相當于近600000個H100。”據悉，目前只有微軟擁有與之相當的計算能力儲備。按照亞馬遜上給出的價格來算，一塊H100芯片大約3萬美金，350000個H100的價格就是105億美元（約合760億人民幣）。

在這份文檔中，Meta也透露了一些用于訓練LLaMA 3的集群細節，該集群由24576個英偉達H100 GPU構成。

據市場跟蹤公司Omdia去年發布的一份報告，Meta和微軟是英偉達H100 GPU的最大買家。據其估算，上述兩家公司在2023年各自采購了多達150000個H100 GPU，是谷歌、亞馬遜、甲骨文等科技公司所購的H100 GPU數量的三倍以上。

CFF20LXzkOyxNCtgrGpVzZgia3ibfhxwUbulISEps2F03IAFPwGYib7jhdnMHD78lAqjFwiaI20zUMtKHFIYODXBzA.jpg