亚洲永久免费/亚洲大片在线观看/91综合网/国产精品长腿丝袜第一页

每日經濟新聞
要聞

每經網首頁 > 要聞 > 正文

4090顯卡單槍匹馬就能跑滿血版DeepSeek-R1,清華團隊突破大模型算力難題

每日經濟新聞 2025-02-14 21:17:20

每經記者 岳楚鵬    每經編輯 蘭素英    

2月10日,清華大學KVCache.AI團隊聯合趨境科技發布的KTransformers開源項目迎來重大更新,成功打破大模型推理算力門檻。此前,擁有671B參數的MoE架構大模型DeepSeek-R1在推理時困難重重。推理服務器常因高負荷宕機,專屬版云服務器按GPU小時計費的高昂成本讓中小團隊無力承擔,而市面上的“本地部署”方案多為參數量大幅縮水的蒸餾版,在本地小規模硬件上運行滿血版 DeepSeek-R1 被認為幾乎不可能。

此次KTransformers項目更新帶來重大突破,支持在24G顯存(4090D)的設備上本地運行 DeepSeek-R1、V3的671B滿血版。其預處理速度最高可達286 tokens/s,推理生成速度最高能達到14 tokens/s。甚至有開發者借助這一優化技術,在3090顯卡和200GB內存的配置下,使Q2_K_XL模型的推理速度達到9.1 tokens/s,實現了千億級模型的 “家庭化” 運行。

此外,該項目v0.3預覽版還將整合Intel AMX指令集,進一步提升CPU預填充速度,最高至286 tokens/s,相比llama.cpp快了近28倍,為長序列任務帶來秒級響應。同時,KTransformers提供兼容Hugginface Transformers的API與ChatGPT式Web界面,降低上手難度,其基于YAML的“模板注入框架”可靈活切換多種優化方式。

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。

模型 DeepSeek 算力 顯卡

歡迎關注每日經濟新聞APP

每經經濟新聞官方APP

0

0