要聞

4090顯卡單槍匹馬就能跑滿血版DeepSeek-R1，清華團隊突破大模型算力難題

每日經濟新聞 2025-02-14 21:17:20

每經記者岳楚鵬每經編輯蘭素英

2月10日，清華大學KVCache.AI團隊聯合趨境科技發布的KTransformers開源項目迎來重大更新，成功打破大模型推理算力門檻。此前，擁有671B參數的MoE架構大模型DeepSeek-R1在推理時困難重重。推理服務器常因高負荷宕機，專屬版云服務器按GPU小時計費的高昂成本讓中小團隊無力承擔，而市面上的“本地部署”方案多為參數量大幅縮水的蒸餾版，在本地小規模硬件上運行滿血版 DeepSeek-R1 被認為幾乎不可能。

此次KTransformers項目更新帶來重大突破，支持在24G顯存（4090D）的設備上本地運行 DeepSeek-R1、V3的671B滿血版。其預處理速度最高可達286 tokens/s，推理生成速度最高能達到14 tokens/s。甚至有開發者借助這一優化技術，在3090顯卡和200GB內存的配置下，使Q2_K_XL模型的推理速度達到9.1 tokens/s，實現了千億級模型的 “家庭化” 運行。

此外，該項目v0.3預覽版還將整合Intel AMX指令集，進一步提升CPU預填充速度，最高至286 tokens/s，相比llama.cpp快了近28倍，為長序列任務帶來秒級響應。同時，KTransformers提供兼容Hugginface Transformers的API與ChatGPT式Web界面，降低上手難度，其基于YAML的“模板注入框架”可靈活切換多種優化方式。

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權，嚴禁轉載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯系索取稿酬。如您不希望作品出現在本站，可聯系我們要求撤下您的作品。

模型 DeepSeek 算力顯卡

上一篇文章

北汽藍谷：公司名稱擬變更為北汽極狐新能源汽車股份有限公司

返回每經網首頁

下一篇文章

富士達（835640）：披露業績快報，2024年盈利5064萬元