行業研報

電子行業AI系列專題報告（一）：AI算力參數爆發，兼論國產算力比較（德邦證券研報）

每日經濟新聞 2024-01-19 23:44:27

每經AI快訊，2024年1月19日，德邦證券發布研報點評電子行業。

算力參數：多廠商逐鹿AI，矩陣計算為核心算力參數。AI算力參數種類繁多，其本質是精度與運算效率的取舍。為更好適應AI大模型的訓練與推理，FP32 TensorCore，BF16等新興數據類型應運而生。以FP32 Tensor Core為例，其為英偉達張量計算的數據格式，使得模型訓練性能大幅提升。英偉達H200的FP32算力為67TFlops，對應FP32 Tensor Core算力為989TFlops，性能大幅提升。而國內各算力廠商產品性能迭代順利，華為海思此前發布的昇騰910在FP16算力性能上接近A100，下一代910B性能有望顯著提升。寒武紀370對標英偉達L2芯片。海光信息深算三號研發進展順利；龍芯中科第二代圖形處理器LG200單節點性能達256GFlops-1TFlops，將基于2K3000的GPGPU技術及3C6000的龍鏈技術，研制專用GPGPU芯片。

互聯參數：多卡互聯為大模型桎梏，國內外差距巨大。相比小模型，大模型要求在模型切分后進行模型并行。模型并行使得多個GPU能同時運行模型的一部分，并在共享結果后進入到下一層。大模型的發展使得類似英偉達NVLink、NVSwitch等互聯技術的重要性快速提升，同時互聯性能參數也成為各大模型實際效果好壞的重要憑依。大多數廠商利用PCIe進行互聯，而英偉達的NVLink能夠實現GPU間的直接互聯，從而大幅提升通信效率，其NVLink帶寬可達到900 GB/s。在大規模高精度的3DFFT、3950億參數的大模型訓練上，H100+NVLink組合的提升顯著。我們認為隨著大模型的復雜化，NVLink等多卡互聯技術將愈加重要。在多卡互聯上，國內外廠商亦有所差距。以寒武紀MLU370-X8為例，寒武紀為多卡系統專門設計了MLU-Link橋接卡，其可實現4張加速卡為一組的8顆思元370芯片全互聯，每張加速卡可獲得200GB/s的通訊吞吐性能，帶寬為PCIe 4.0的3.1倍。但相比英偉達NVLink 4.0的900GB/s，該互聯性能僅為英偉達的22%，仍有較大提升空間。

建議關注：

算力芯片：寒武紀（思元590性能有望顯著提升）、海光信息（深算三號研發進展順利）、龍芯中科（將基于2K3000的GPGPU技術及3C6000的龍鏈技術研制專用GPGPU芯片）

AI應用：海康威視、大華股份、樂鑫科技、晶晨股份、恒玄科技、中科藍訊

服務器：工業富聯、滬電股份

服務器存儲：瀾起科技、聚辰股份

先進封裝：通富微電、長電科技、甬矽電子、華天科技

風險提示：下游需求復蘇不及預期，技術研發風險，國內外政策和技術摩擦不確定性的風險。

(來源：慧博投研)

免責聲明：本文內容與數據僅供參考，不構成投資建議，使用前請核實。據此操作，風險自擔。

(編輯曾健輝)

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權，嚴禁轉載或鏡像，違者必究。

讀者熱線：4008890008