要聞

中國工程院院士鄭緯民：做好十個軟件，改善基于國產AI芯片的系統生態

每日經濟新聞 2024-04-29 10:39:02

◎4月28日，中國移動2024算力網絡大會在蘇州開幕?！睹咳战洕侣劇酚浾咴诂F場注意到，會上，中國工程院院士鄭緯民提到，目前有三類系統可支持大模型訓練?；谟ミ_GPU的系統一卡難求；基于國產AI芯片的系統仍面臨國產卡應用不足、生態系統有待改善的問題，可通過十個軟件來進行改善；基于超級計算機的系統，可在做好軟硬件協同設計的情況下實現大模型訓練，但需在超算機器尚未飽和的前提下操作。

每經記者楊卉每經編輯楊夏

4月28日，中國移動2024算力網絡大會在蘇州開幕。《每日經濟新聞》記者在現場注意到，會上，中國工程院院士鄭緯民提到，目前有三類系統可支持大模型訓練。

其中，基于英偉達GPU的系統一卡難求；基于國產AI芯片的系統仍面臨國產卡應用不足、生態系統有待改善的問題，可通過十個軟件來進行改善；基于超級計算機的系統，可在做好軟硬件協同設計的情況下實現大模型訓練，但需在超算機器尚未飽和的前提下操作。整體來看，盡管打造國產A1卡的萬卡大模型訓練平臺難度不小，但十分必要。

圖片來源：每經記者楊卉攝

國產卡應用不足，生態系統有待改善

鄭緯民提出，近兩年來人工智能的發展導致算力需求呈爆發性增長，其中模型研發需要配套算力；模型訓練需要海量算力，如訓練GPT-4需要一萬塊英偉達A100芯片跑上11個月；模型精調需要可控算力；模型推理需要可靠算力，算力存在于大模型生命周期的每一環。

然而，海量算力背后有一個很現實的問題：貴。根據鄭緯民計算，在大模型訓練的過程中，70%的開銷要花在算力上；推理過程中95%的花費也是在算力上，人工智能產業算力成本居高不下。

鄭緯民進一步指出，要構建基于國產AI卡的萬卡大模型訓練平臺，需要考慮到幾個問題。首先是半精度運算性能與雙精度運算性能的平衡問題。鄭緯民強調，在設計過程中，不僅要考慮半精度運算性能，還要考慮雙精度運算能力，雙精度與半精度運算性能之比為1∶50—1∶100為宜。“不論是自己做還是買，第一件事情就是問比例是多少。”

第二點是網絡平衡設計。

鄭緯民解釋稱，萬卡系統中的萬塊卡不能分散在各地，將其連接起來就是所謂的網絡。但連接也很有“講究”，每塊卡之間能實現直連是最好的狀態。但如此一來，每塊AI卡都需插上9999塊連接卡，一萬塊AI芯片均要實現直連，所需的連接卡數量太過龐大，成本甚至還要高過萬塊卡本身。此外，即便資金充足，卡槽數量也無法滿足需求。因此，網絡設計不能只針對CNN算法，還需考慮極大規模預訓練模型對系統的需求。大規模預訓練模型需要高帶寬低延遲網絡，支持數據并行，模型并行和專家平行模式。

第三點是體系結構感知的內存平衡設計。鄭緯民強調，一方面訪問內存的請求使網絡擁塞，降低吞吐量，反映到應用程序上表現為訪存性能顯著下降；另一方面，多個訪問內存的請求可能訪問同一存控對應的內存空間，負載不均，存控需要順序處理訪存請求。

第四點是IO子系統平衡設計。鄭緯民進一步解釋稱，萬卡系統中負載的芯片數量太大，即便是英偉達芯片，也基本會在三小時左右出現一次錯誤。過去，為保證訓練不被中斷，大模型訓練廠商通常采用間隔一段時間，如2.5小時對數據進行一次保存或轉移，一旦出現錯誤可以不必從0開始，可在保存位置繼續執行。

然而，大模型訓練數量過大，很難沿用上述操作模式。因此，萬卡系統除了支持檢查點操作，還需增加SSD（固態硬盤）。另外，系統的本地NVMe SSD僅通過本地文件系統訪問，限制了其應用范圍，需將每臺服務器上的快速本地NVMe整合為應用可見的全局分布式文件系統。

鄭緯民分析指出，目前來看，支持大模型訓練有三類系統，分別為基于英偉達GPU的系統、基于國產AI芯片的系統和基于超級計算機的系統。其中，基于英偉達公司GPU的系統硬件性能和編程生態好，但受到禁售影響，加之價格暴漲，一卡難求。而基于國產AI芯片的系統，盡管近年來國內二十余家芯片公司取得了很大的進步，但仍面臨國產卡應用不足、生態系統有待改善的問題。

十大軟件改善基于國產AI芯片的系統生態

鄭緯民直言，要改善基于國產AI芯片的系統生態，這一問題其實并不“抽象”，需要做好十個軟件。

第一是編程框架應進一步降低編寫人工智能模型的復雜度；利用基本算子快速構建人工智能模型，如PyTorch、TensorFlow。

第二是并行加速，為多機多卡環境提供人工智能模型并行訓練的能力；支持數據并行、模型并行、流水線并行、張量并行等，如微軟的DeepSpeed、英偉達Megatron-LM。

第三是通信庫要提供跨機跨卡的通信能力；可支持人工智能模型訓練所需各種通信模式；可根據底層網絡特點充分利用網絡通信帶寬，如英偉達的NCCL庫、超算普遍支持的MPI通信庫。

第四是算子庫，需提供人工智能模型所需基本操作的高性能實現；能夠盡可能覆蓋典型人工智能模型所需的操作；算子庫能充分發揮底層硬件的性能，如英偉達cuDNN，cnBLAS。

第五是AI編譯器，要可在異構處理器上對人工智能程序生成高效的目標代碼；對算子庫不能提供的操作通過AI編譯器自動生成高效目標代碼，如XLA、TVM。不過，鄭緯民也談到，目前國內掌握AI編譯器的人才較少，實現難度較大。

第六是編程語言，要提供異構處理器上編寫并行程序的支持；覆蓋底層硬件功能，發揮硬件性能；能夠編寫人工智能模型的基本算子（Operator），如英偉達的CUDA，Intel的oneAPI。

第七是調度器，需具備在大規模系統上高效調度人工智能任務的能力；同時設計高效調度算法，提高集群資源利用率，如Kubernetes（K8S）、華為ModelArts。

第八是內存分配系統，可針對人工智能應用特點提供高效的內存分配策略。

第九是容錯系統，用來提供在硬件發生故障后快速恢復模型訓練的能力。

第十是存儲系統，需支持訓練過程中高效的數據讀寫（檢查點訓練數據等）。

鄭緯民直言，當前國內已經有了上述軟件，但做得不夠全，不夠好。當務之急是先將上述軟件做好，從而提高用戶的使用意愿。鄭緯民強調，國產AI芯片與業界領先水平存在一定差距，但若將生態做好，只要性能可以達到業界領先水平的一半或60%，客戶也會愿意使用，大多數任務不會因芯片性能的微小差異而有明顯感知。

至于第三種渠道，基于超級計算機的系統，根據鄭緯民透露，當前國內約有14個國家級超算中心，性能很快且機器使用情況尚未達到飽和。若軟硬件協同的設計做好，在超算機器上做大模型訓練也是可能實現的。

鄭緯民提供的視頻演示顯示，在某國產超算上進行大模型訓練與推理時，使用超算調度系統申請512個節點來進行7B模型預訓練，半精度和全精度訓練效果可與英偉達平臺完全對齊；與租用英偉達GPU相比，使用國產超算可節省6倍左右的成本。加載開源的百川2—7B模型進行推理，推理精度也與英偉達一致。更為關鍵的是，從成本角度考慮，在上述超算平臺上訓練大模型，只需花費英偉達系統六分之一的成本。

談及當前智能算力行業面臨的痛點，鄭緯民直言，構建國產萬卡系統很難，但很有必要，未來還是要繁榮國產卡的生態系統，做好軟硬件的協同設計，同時解決大模型基礎設施的幾大問題。“雖然很難，但只要我們努力，與芯片公司合作，一定能將萬卡系統做好。”鄭緯民稱。

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權，嚴禁轉載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯系索取稿酬。如您不希望作品出現在本站，可聯系我們要求撤下您的作品。