要聞

百度集團執行副總裁沈抖：大模型與云計算緊密結合，正在成為新型的基礎設施

每日經濟新聞 2024-09-25 14:46:08

每經記者可楊每經編輯楊夏

9月25日，在2024百度云智大會上，百度集團執行副總裁、百度智能云事業群總裁沈抖在云智大會上表示，過去的一年，是大模型從技術變革走向產業變革的關鍵一年，而大模型與云計算緊密結合，正在成為新型的基礎設施，“大模型及其相關系統，在短短幾年內，正在迅速成為新一代的基礎設施。這次變革的速度前所未有”。

百度集團執行副總裁、百度智能云事業群總裁沈抖圖片來源：企業供圖

圍繞大模型算力方面，沈抖表示，提到算力，不少人都聽說過“萬卡集群”，簡單來說，GPU集群有三個特征：極致規模、極致高密和極致互聯。

而這些“極致”帶來了幾個嚴峻的挑戰。沈抖介紹，首先是巨額的建設、運營成本，建一個萬卡集群，單是GPU的采購成本就高達幾十億元。其次，在這么大規模的集群上，運維的復雜性急劇增加。他談到，硬件不可避免地會出故障，而規模越大，出故障的概率就越高。“Meta訓練Llama3的時候，用了1.6萬張GPU卡的集群，平均每3小時就會出一次故障。”

沈抖進一步表示，在這些故障中，絕大多數是由GPU引起的，其實GPU是一種很敏感的硬件，連中午天氣溫度的波動，都會影響到GPU的故障率。這兩個挑戰迫使百度重新開始思考如何構建、管理和維護龐大而復雜的GPU集群，屏蔽硬件層的復雜性，為大模型落地的全流程提供一個簡單、好用的算力平臺，讓用戶能夠更容易地管理GPU算力、低成本的用好算力。“過去一年，我們感受到客戶的模型訓練需求猛增，需要的集群規模也越來越大，與此同時，大家對模型推理成本的持續下降的預期也越來越高。這些都對GPU管理的穩定性和有效性提出了更高要求。”

基于此，百度智能云宣布將百舸AI異構計算平臺全面升級至4.0版本，圍繞落地大模型全旅程的算力需求，在集群創建、開發實驗、模型訓練、模型推理四大方面，為企業提供“多、快、穩、省”的AI基礎設施。

其中，為了解決算力資源短缺的問題，百舸4.0對“多芯混訓”能力進行了重點升級，實現了在萬卡規模集群上95%的多芯混合訓練效能，達到業務最領先水平。在集群部署環節，升級后的百舸能夠實現工具層面的秒級部署，將萬卡集群運行準備時間從數周最快縮減至1小時，極大地提升部署效率，縮短業務上線周期。針對大模型訓練過程中故障頻發的問題，百舸4.0全面升級了故障檢測手段和自動容錯機制，可以有效降低故障發生頻次，大幅減少集群故障處置時間，在萬卡集群上實現了超過99.5%的有效訓練時長。

此外，百度智能云同時公布了千帆大模型平臺的最新“成績單”，在千帆大模型平臺上，文心大模型日均調用量超過7億次，累計幫助用戶精調了3萬個大模型，開發出70多萬個企業級應用。過去一年，文心旗艦大模型降價幅度超過90%。

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權，嚴禁轉載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯系索取稿酬。如您不希望作品出現在本站，可聯系我們要求撤下您的作品。