每日經濟新聞 2025-02-21 21:21:32
每經編輯 胡玲
在當今全球追求高質量發展的背景下,雙軌轉型(Twin Transition)——即將可持續發展與數智化轉型有機融合,追求經濟、社會和環境多元價值的實現——已成為核心議題之一。這不僅僅是尋求兩者之間的簡單協同效應,而是一場深層次的系統性變革,通過數字技術的力量重新定義經濟運作模式、社會互動方式以及環境保護機制。面對資源約束和環境挑戰日益嚴峻的現實,如何利用先進數智技術推動綠色低碳發展,同時確保經濟效益和社會福祉的最大化,是擺在所有利益相關者面前的重大課題。
人工智能初創公司深度求索(DeepSeek)近期發布了其最新人工智能模型R1,再次引發了關于人工智能發展與算力、能源之間關系的深刻討論。R1模型憑借其卓越的邏輯推理能力,不僅在性能上逼近甚至超越了OpenAI的o1系列產品,而且在成本效益方面展現了顯著的優勢。這一里程碑式的進展被硅谷科技媒體譽為新時代的“斯普特尼克時刻”,象征著一個可能顛覆現有科技格局的新時代的開端。DeepSeek的R1模型訓練成本僅為數百萬美元,遠低于OpenAI的GPT和谷歌的Gemini系列大模型所需的數十億美元投資,這無疑給數據中心運營商們提供了一個極具吸引力的“滑門時刻”——即通過更高效的計算資源利用來大幅削減運營成本。
Deepseek也引起了對美國科技股和能源股短期劇烈震蕩。英偉達單日跌幅最高達17%,創美股歷史最大單日市值蒸發紀錄(約6000億美元),博通、AMD、臺積電等芯片股同步重挫。納斯達克指數下跌3.1%,標普500指數下跌1.5%,市場對美國科技巨頭的高估值(如美股七巨頭中,英偉達的市盈率在46倍左右,蘋果的市盈率在36倍左右,特斯拉183倍市盈率。如今,七巨頭的平均市盈率接近50倍,市值占美股總市值28%左右。)產生質疑。此外,由于R1通過算法優化顯著降低模型能耗(內存使用減少50%以上),市場擔憂AI對電力需求的增長預期被打破,導致美國聯合能源、Vistra等能源公司股價下跌21%-29%。
盡管DeepSeek在技術上取得了巨大進步,但其在中國境外的未來發展仍面臨不確定性,部分西方機構和政府已開始限制使用其服務。然而,全球人工智能領域都在密切關注DeepSeek如何以如此低的成本實現領先性能。如果DeepSeek的方法能夠被廣泛復制,那么對于東南亞地區、澳大利亞、新西蘭等中小型國家而言,或許將有機會以更低的成本進入基礎模型領域,這在過去是難以想象的。
對于澳新地區的數據中心運營商而言,人工智能技術成本的潛在降低,無疑緩解了對外國模型安全性和可靠性風險的擔憂。Macquarie Data Centres的高管David Hirst指出,人工智能行業的發展速度遠超以往任何技術趨勢,且仍處于早期階段。他認為,人工智能正在并將繼續證明,它是世界上發展最快的技術之一,而我們才剛剛觸及人工智能所能實現的冰山一角。人工智能將從根本上改變所有行業的運作方式以及人類的潛力。以Deepseek為例,從2024年1月5日,DeepSeek發布了首個大模型DeepSeek LLM到2024年12月26日,正式上線DeepSeek-V3模型,并同步開源,標準著全球首個全開源的混合專家(MoE)模型出現,再到2025年1月20日發布的DeekSeek-R1推理大模型。從在極短的時間內,人工智能已取得顯著進展。大型語言模型的快速發展,從模型的迭代、算力的更新,到訓練和推理成本的下降,再到智能體的產品形態出現,人工智能正在不斷提高行業效率,并最終降低成本。DeepSeek模型的創新,通過簡化訓練過程和更有效地利用硬件,標志著在降低人工智能訓練和推理門檻方面邁出了重要一步,為更多企業應用這項技術打開了大門。
DeepSeek R1的技術特點:效率與成本優勢
DeepSeek R1模型的出現之所以能引發行業震動,核心在于其在效率和成本控制上的突破。DeepSeek通過一系列技術創新,實現了在相對較低的算力投入下,獲得可媲美甚至超越頭部模型的性能表現。這些技術特點主要包括:
•混合專家模型(Mixture-of-Experts,MoE):MoE架構是DeepSeek R1降低算力需求的關鍵。與傳統的稠密模型不同,MoE模型包含多個“專家”子網絡,每個子網絡專門處理特定類型的輸入。在推理過程中,模型會根據輸入內容動態選擇激活部分專家網絡,而非所有網絡,從而大幅減少計算量,提高推理效率。DeepSeek將MoE技術與模型架構深度融合,實現了性能與效率的平衡。
•多頭潛注意力機制(MLA):該技術為DeepSeek團隊獨創,針對傳統Transformer模型的“多頭注意力機制”在處理長文本時容易“分心”的問題,MLA通過壓縮關鍵信息,讓模型更聚焦核心內容這種協同優化方法,能夠最大化硬件資源的利用效率,降低整體算力需求。
•PTX匯編語言優化:為了更充分地挖掘硬件潛力,DeepSeek甚至深入到硬件底層,采用PTX匯編語言對核心計算模塊進行優化。PTX匯編語言是一種針對NVIDIAGPU的底層編程語言,通過精細的匯編級優化,可以最大限度地提升代碼執行效率,減少不必要的計算開銷。這種極致的優化精神,體現了DeepSeek在算力效率上的極致追求。
•蒸餾技術與分布式/邊緣計算架構:DeepSeek推出了一項卓越的模型蒸餾技術,該技術實現了將高性能AI模型的核心推理能力高效移植至輕量化版本中的目標。這一突破不僅結合了開源與輕量化的雙重優勢,進一步降低了人工智能技術的應用門檻,同時也為邊緣計算領域帶來了前所未有的發展機遇。企業能夠依據自身行業特點,在本地進行模型訓練,使得原本依賴于高性能服務器和穩定網絡環境的邊緣設備得以煥發新生。此外,DeepSeek積極探索分布式計算與邊緣計算架構的新路徑,通過將計算任務分布至更靠近數據源的邊緣節點,從而大幅減少對中央數據中心的依賴。這不僅有效緩解了數據傳輸過程中的延遲問題和帶寬壓力,同時優化了邊緣設備算力資源的利用效率,構建了一個更加靈活高效的算力部署方案。
通過上述技術組合拳,DeepSeek R1實現了在保證模型性能的同時,大幅降低訓練和推理的算力需求和成本。這使得人工智能技術的應用門檻顯著降低,為更廣泛的應用場景打開了大門。
算力生態的重構與資源再分配
DeepSeek R1的出現,不僅可能引發算力需求的增長,還將深刻地重塑全球算力生態,并導致算力資源的重新分配。
首先,分布式革命與集中霸權競爭。傳統人工智能發展模式往往依賴于“規模至上”的邏輯,追求超大規模模型和超大規模算力集群。DeepSeek R1的輕量化模型和開源策略,降低了人工智能應用的門檻,促進了中端算力設施和分布式數據中心的普及。此前,美國科技公司曾計劃建設耗電量堪比紐約市的巨型數據中心,但在DeepSeek高效模型的影響下,此類超大規模基礎設施的必要性顯著下降。算力生態正在從單一“超大規模中心壟斷”模式轉向與“分布式蜂群網絡”競爭的模式。
其次,產業鏈價值重新分配。在算力產業鏈上游,DeepSeek的出現使英偉達等GPU巨頭面臨需求結構調整的挑戰。由于DeepSeek模型對算力效率的提升,以及分布式計算的興起,市場對高性能GPU的需求可能不再是無止境的擴張,而是更加注重能效比和定制化。與此同時,寒武紀等ASIC芯片廠商或將迎來發展機遇。ASIC芯片可以針對特定的人工智能應用進行硬件加速,在能效比和成本控制上更具優勢,更符合分布式算力發展的趨勢。在中游算力服務端,區域性數據中心憑借低時延和貼近應用場景的優勢,開始承接制造業智能質檢、金融風控等對延遲敏感的應用需求,迫使AWS、阿里云等云計算巨頭調整部分大型數據中心的建設投入,轉而加強邊緣計算和分布式算力布局。
在下游應用端,國產算力成本的下降,將驅動人工智能在制造業、金融、醫療等領域的滲透率倍增。例如,在代碼托管平臺GitHub上,已涌現出大量基于DeepSeek模型的集成應用案例(awesome deepseek integration)。同時,中國各地省市紛紛上線R1模型,加速人工智能的區域化、本地化部署。越來越形成形成“需求牽引供給”的正向循環,實現“算力+行業”的雙向賦能。這種趨勢正在形成“需求牽引供給”的正向循環,實現“算力+行業”的雙向賦能。人工智能技術將加速滲透到各行各業,成為推動產業升級和經濟發展的重要引擎。
最后,探索低碳AI發展路徑,在效率提升和能源可持續性之間尋求平衡。DeepSeek通過算法架構優化和硬件能效協同,在單次運算能耗控制方面取得了突破性進展。通過MLA與MoE技術融合、強化學習(RL)的深度應用、稀疏化訓練等核心技術,DeepSeek大幅壓縮了單次計算的經濟成本和能源消耗。據測算,DeepSeek模型單位計算任務的能耗較傳統稠密模型下降超過50%,單位計算碳排放強度降至行業平均水平的1/3。這為推進綠色數據中心建設和實現碳中和目標提供了關鍵的技術支撐。
更重要的是,DeepSeek通過“低能耗+分布式”模式,顯著降低了高性能AI對傳統能源的依賴。分布式與邊緣計算架構,將計算任務分散到靠近數據源的邊緣設備處理,有效減少了對集中式數據中心的電力依賴。同時,DeepSeek的高性能模型在實現同等效果時,與清潔能源耦合的能效顯著優于傳統AI架構。
分布式計算與邊緣節點的高效協同,不僅大幅降低了集中式數據中心對傳統能源的依賴,也使AI系統能夠更靈活地協調計算任務和清潔能源供給,更加適配可再生能源的波動性特點。例如,在太陽能充足的時段優先調度計算任務,并借助優化算法動態匹配能源供給波動,在棄風棄光時段提升消納率20%以上,從而有效破解新能源消納難題。
杰文斯悖論:效率提升與需求擴張
然而,DeepSeek R1的技術突破,在降低人工智能應用門檻的同時,也可能引發“杰文斯悖論”。杰文斯悖論由19世紀經濟學家William Stanley Jevons提出,他發現,隨著煤炭使用效率的提高,煤炭的消耗總量反而增加。這一悖論揭示了一個深刻的經濟規律:效率的提升并不必然導致資源消耗的減少,反而可能因為成本降低和應用范圍擴大,刺激需求增長,最終導致資源消耗總量增加。
微軟CEO Satya Nadella引用杰文斯悖論來解釋DeepSeek R1可能帶來的影響,可謂一針見血。他認為,更實惠、更易于訪問的人工智能技術,將通過更快的普及和更廣泛的應用,導致需求的激增。隨著人工智能技術的門檻降低,過去由于成本限制而無法應用人工智能的領域,例如中小企業、邊緣計算場景等,將涌現出大量新的應用需求,從而導致算力調用密度指數級上升。
此外,新興應用場景的爆發,也將加速算力需求的裂變。智能駕駛、具身機器人等前沿領域對實時算力的需求極為龐大,遠超DeepSeek技術優化的速度。即使單任務效率提升數倍,百萬級智能終端的并發需求,仍將形成巨大的算力吞噬黑洞。
更進一步,模型復雜性的提升,也可能在一定程度上抵消效率提升帶來的節能效果。為了探索通用人工智能(AGI)等前沿方向,模型參數規模不斷向萬億級躍升,數據量也以年均30%的速度增長。即使訓練效率提升10倍,模型規模擴大100倍,仍然會導致算力總需求凈增10倍。DeepSeek的高效算法或許能夠“追趕”數據增長的速度,但難以從根本上逆轉算力需求的增長曲線。
因此,DeepSeek R1的技術突破,雖然在單位算力能耗上取得了顯著降低,但從宏觀層面來看,很可能無法有效緩解人工智能發展對算力和能源的巨大需求。相反,技術普惠性引發的應用爆發,以及模型復雜性的持續提升,可能會共同推動算力需求的加速增長,最終導致電力系統在需求激增的壓力下加速重構。
算力的盡頭,依然是電力
盡管DeepSeek R1在算力效率上取得了突破,并可能推動算力生態向分布式方向發展,但其技術進步并不能改變人工智能發展對能源的巨大需求。算力的盡頭,依然是電力。
DeepSeek等人工智能技術的突破,將不可避免地推高全球電力需求。“杰文斯悖論”的加速效應,可能使全球電力需求曲線更加陡峭。盡管DeepSeek通過優化算法、硬件適配等技術,顯著提升了人工智能算力效率,降低了單次任務的能耗,打破了人工智能應用的經濟門檻,但這種技術躍遷預計將同步觸發“杰文斯悖論”,能源消耗總量或將突破線性增長模式,形成“效率提升-應用擴張-能耗躍升”的閉環。
國際能源署(IEA)的數據顯示,2022年全球數據中心耗電量已達460TWh,占全球總用電量的2%。預計到2026年,全球數據中心耗電量將擴張至620-1050TWh。這意味著,未來幾年內,數據中心的能源消耗將呈現指數級增長趨勢。
面對如此巨大的能源需求,全球科技巨頭們已經掀起了一場圍繞電力資源的爭奪戰。美國微軟與OpenAI等科技巨頭聯合發起了“星際之門計劃”,計劃耗資千億美元,在2030年前建成全球最大的AI超算集群。“星際之門”的目標是建設5-10個數據中心園區,每個園區設計功率約為100兆瓦,總電力需求將達到5GW-10GW級別。這相當于數個大型城市的用電量。
“電力缺口可能成為AI時代的卡脖子問題”,這正在成為行業共識。科技巨頭對清潔能源的大規模投資和搶占,本質上是對新一輪工業革命核心資源的爭奪。誰掌握了充足、廉價、綠色的電力資源,誰就將在人工智能時代的競爭中占據更有利的位置。需要舉具體的案例。
四家擁有大模型業務的美國科技公司——微軟、亞馬遜、谷歌、Meta仍然堅持“大力出奇跡”的策略,即大規模算力投資。2024年,美國科技四巨頭的資本支出均達到歷史最高點,總額高達2431億美元,同比增長63%。預計2025年,它們的資本支出總額將超過3200億美元,總增速約為30%。
巨額的資本支出,主要用于購買算力設備,建設數據中心,以支撐人工智能業務的快速發展。這些科技巨頭們相信,更高的算力投入,能夠帶來更好的模型性能和更快的技術迭代速度。在商業競爭中,算力的質量代表的是速度問題,更高算力通常帶來更好的效果。短期內節省算力固然重要,但從長遠來看,算力需求只會螺旋上升,面向未來投資算力才是更重要的戰略選擇。英偉達2025年2月6日其股價單日漲幅超5%,市值重回3萬億美元,也回應了這個趨勢,反映了市場對算力芯片(如GB200芯片)放量的預期。
這些科技巨頭們之所以敢于如此大手筆地投入算力,一方面是因為它們“錢袋子”依然富余,凈利潤和現金流能夠支撐高強度的算力投資;另一方面,巨額的算力投資也已經產生了實際回報,“云+AI”業務的收入和利潤正在快速增長,這進一步刺激了它們加大算力投資的力度。谷歌、微軟等巨頭在2025年Q1財報中披露,AI業務資本開支同比增35%,表明算力擴張仍在持續,電力需求韌性顯現。
除去科技公司,主權國家和地區也同步進入到算力的競賽當中。歐盟委員會于2025年2月宣布的“Invest AI”計劃,擬通過公共和私人資金調動總額2000億歐元,核心目標是建設4座AI超級工廠,配備約10萬顆最先進AI芯片(是目前歐洲在建工廠的4倍),專注于訓練復雜AI模型。其中,200億歐元專門用于設立歐洲基金支持這些工廠。日本、沙特、印度等國家也紛紛將算力主權納入國家戰略。
中國路徑:效率、可持續性與分布式協同
面對全球人工智能發展的新趨勢,以及算力與能源的挑戰,中國需要探索一條具有自身特色的發展路徑。DeepSeekR1的技術突破,為我們提供了一個重要的啟示:在人工智能發展中,效率和可持續性同樣重要,甚至比單純的算力堆砌更為關鍵。
中國在人工智能發展上,既要仰望星空,追求前沿技術的突破,也要腳踏實地,注重應用場景的落地。DeepSeek R1和V3的出現,代表了一種相對低算力、高表現的技術路線,這符合中國國情和發展階段的實際需求。對于中國而言,在算力資源相對緊張的情況下,更應該注重效率優化,通過技術創新,提升單位算力的價值,降低對能源的消耗。
同時,中國也要清醒地認識到,優秀的硬件在人工智能發展過程中仍然不可替代。算法的優化固然重要,但更好的硬件意味著更低的訓練時間和更高的效率。尤其是在人工智能前沿研究領域,例如AI for Science,仍然需要足夠的算力進行支持。因此,中國在發展高效算法的同時,也要加強在算力基礎設施領域的投入,構建自主可控的算力底座。
未來,人工智能領域的競爭,將是前沿技術創新和應用場景落地的雙線競爭。既要“卷前沿”,在基礎理論和核心技術上取得突破,也要“卷應用”,將人工智能技術廣泛應用到各行各業,創造實際價值。有能力的企業,必然是“兩手都要抓,兩手都要硬”,既要布局前沿技術,也要深耕應用場景。
在能源戰略上,中國應堅持效率優先、綠色發展的原則,在效率與可持續性之間尋找平衡。DeepSeek的分布式算力架構,為我們提供了一個重要的方向:通過分布式革命,瓦解算力集中壟斷的格局,構建更加靈活、高效、綠色的算力網絡。
更進一步,算力分布式革命,應與分布式能源革命協同推進。通過將算力設施與分布式能源(如光伏、風電)相結合,構建“源-荷-儲-算”協同的新型電力系統。分布式算力可以作為新型電力系統的“荷”,通過智能調度算法,與分布式能源的波動性出力相匹配,實現“電-算協同”,提升清潔能源的消納能力,降低電力系統的風險。
分布式算力革命與分布式能源革命的協同發展,將倒逼電網進化,加速傳統電網向智能電網轉型。智能電網需要具備動態負荷優化分配、實時響應能力,以適應分布式能源和分布式算力的需求。這將推動電力系統從傳統的“單向傳輸”模式,向“雙向互動”、“源網荷儲”協同優化的模式轉變,構建更加清潔、高效、安全、可靠的現代能源體系。
結論:展望人工智能、算力與能源的未來
DeepSeek R1的出現,標志著人工智能技術發展進入了一個新的階段。效率優化和成本控制,成為人工智能技術發展的重要驅動力。然而,技術進步并不能改變人工智能對算力和能源的巨大需求。杰文斯悖論提醒我們,效率提升并不必然導致資源消耗的減少,反而可能刺激需求增長,最終導致資源消耗總量增加。
面對人工智能發展帶來的算力與能源挑戰,全球科技界和能源界需要攜手合作,共同探索可持續發展之路。一方面,要繼續加強技術創新,提升算力效率,降低單位算力能耗;另一方面,要大力發展清潔能源,構建綠色算力基礎設施,推動能源結構的轉型升級。
在中國,我們應堅持效率優先、綠色發展的原則,探索具有中國特色的AI發展路徑。通過技術創新、模式創新和政策引導,在效率與可持續性之間找到最佳平衡點,實現人工智能與經濟社會、生態環境的和諧共生。算力分布式革命與分布式能源革命的協同推進,將為中國構建綠色、高效、智能的未來能源體系,贏得人工智能時代的競爭優勢,提供強勁的動力。
作者信息
劉少軒
上海交通大學安泰經濟與管理學院副院長
上海交通大學中銀科技金融學院執行院長
陳鈺什
New Energy Nexus中國首席研究員,上海交通大學中銀科技金融學院博士后
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP