每日經濟新聞 2024-09-25 14:46:08
每經記者 可楊 每經編輯 楊夏
9月25日,在2024百度云智大會上,百度集團執行副總裁、百度智能云事業群總裁沈抖在云智大會上表示,過去的一年,是大模型從技術變革走向產業變革的關鍵一年,而大模型與云計算緊密結合,正在成為新型的基礎設施,“大模型及其相關系統,在短短幾年內,正在迅速成為新一代的基礎設施。這次變革的速度前所未有”。
圍繞大模型算力方面,沈抖表示,提到算力,不少人都聽說過“萬卡集群”,簡單來說,GPU集群有三個特征:極致規模、極致高密和極致互聯。
而這些“極致”帶來了幾個嚴峻的挑戰。沈抖介紹,首先是巨額的建設、運營成本,建一個萬卡集群,單是GPU的采購成本就高達幾十億元。其次,在這么大規模的集群上,運維的復雜性急劇增加。他談到,硬件不可避免地會出故障,而規模越大,出故障的概率就越高。“Meta訓練Llama3的時候,用了1.6萬張GPU卡的集群,平均每3小時就會出一次故障。”
沈抖進一步表示,在這些故障中,絕大多數是由GPU引起的,其實GPU是一種很敏感的硬件,連中午天氣溫度的波動,都會影響到GPU的故障率。這兩個挑戰迫使百度重新開始思考如何構建、管理和維護龐大而復雜的GPU集群,屏蔽硬件層的復雜性,為大模型落地的全流程提供一個簡單、好用的算力平臺,讓用戶能夠更容易地管理GPU算力、低成本的用好算力。“過去一年,我們感受到客戶的模型訓練需求猛增,需要的集群規模也越來越大,與此同時,大家對模型推理成本的持續下降的預期也越來越高。這些都對GPU管理的穩定性和有效性提出了更高要求。”
基于此,百度智能云宣布將百舸AI異構計算平臺全面升級至4.0版本,圍繞落地大模型全旅程的算力需求,在集群創建、開發實驗、模型訓練、模型推理四大方面,為企業提供“多、快、穩、省”的AI基礎設施。
其中,為了解決算力資源短缺的問題,百舸4.0對“多芯混訓”能力進行了重點升級,實現了在萬卡規模集群上95%的多芯混合訓練效能,達到業務最領先水平。在集群部署環節,升級后的百舸能夠實現工具層面的秒級部署,將萬卡集群運行準備時間從數周最快縮減至1小時,極大地提升部署效率,縮短業務上線周期。針對大模型訓練過程中故障頻發的問題,百舸4.0全面升級了故障檢測手段和自動容錯機制,可以有效降低故障發生頻次,大幅減少集群故障處置時間,在萬卡集群上實現了超過99.5%的有效訓練時長。
此外,百度智能云同時公布了千帆大模型平臺的最新“成績單”,在千帆大模型平臺上,文心大模型日均調用量超過7億次,累計幫助用戶精調了3萬個大模型,開發出70多萬個企業級應用。過去一年,文心旗艦大模型降價幅度超過90%。
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP