要聞

AI撞上“數據墻”是必然，安全可信才是最大瓶頸！對話清華大學崔鵬副教授：未來3~5年是安全可信AI的黃金期，AI+工業是中國的“先手棋”

每日經濟新聞 2024-12-18 17:19:18

近日，清華大學計算機科學與技術系長聘副教授崔鵬接受每經記者采訪時稱，目前AI以大規模數據驅動為范式，肯定會碰上“數據墻”，但安全可信才是AI面臨的最大技術瓶頸。在他看來，未來3~5年是打造安全、可信AI的黃金期。在談及AI助推行業升級的話題時，崔鵬稱，我國資源稟賦最為突出的領域其實是工業，AI與工業場景相結合，我們很重要的一步“先手棋”。

每經記者鄭雨航每經實習記者宋欣悅每經編輯蘭素英

長期以來，人工智能（AI）領域奉行“數據規模越大越好”的信念，但近期業界卻傳出大模型進化遭遇“數據墻”的消息。

據報道，OpenAI、谷歌和Anthropic在開發新一代模型時遭遇瓶頸，無法實現此前那樣的突破性進展。圖靈獎得主楊立昆（Yann LeCun）和OpenAI前首席科學家伊利亞•蘇茨克維（Ilya Sutskever）等業界大佬直言，規模法則（Scaling Law）已觸及天花板。

美國技術研究公司Epoch AI預測，互聯網上可用的高質量文本數據可能會在2028年耗盡。

對公開文本數據使用量的預測圖片來源：Epoch AI

“數據墻”是否真實存在，未來的AI將走向何處？如果真有“數據墻”，大模型研發企業又該如何找尋新的出路？就此，《每日經濟新聞》記者近日專訪了清華大學計算機科學與技術系長聘副教授崔鵬。

崔鵬表示，目前大模型還是以大規模數據驅動為范式的，而數據總有用完的一天，肯定會碰上“數據墻”。在他看來，數據問題只是目前AI面臨的一小部分難題。更大的問題在于，目前的AI缺少泛化能力，使其缺乏安全可信性。

他認為，未來3~5年將是打造安全、可信AI的黃金期，因為單純依靠規模法則或者蠻力法（Brute Force，指用大量計算資源和窮舉所有可能的方式來解決問題），邊際收益已經逐漸降低，必須尋找新的突破點。

而在談及AI助推行業升級的話題時，他表示，我國資源稟賦最為突出的領域其實是工業。AI與工業場景相結合，反而是我們很重要的一步“先手棋”。

崔鵬于2010年獲得清華大學博士學位，長期聚焦因果推斷與AI的融合研究，在國際上自主提出并發展了因果啟發的穩定學習理論方法體系，在智慧醫療、工業制造及互聯網經濟等領域實現重要應用。崔鵬已在AI及數據挖掘領域頂級國際期刊和會議上發表論文百余篇，并先后獲得7項國際會議及期刊最佳論文獎，還（曾）擔任IEEE TKDE、IEEE TBD、ACM TIST、ACM TOMM等國際頂級期刊的編委。

崔鵬圖片來源：受訪者供圖

“數據墻”確實存在，但AI最大的瓶頸是安全可信

NBD：您認為目前AI發展是否達到了一個瓶頸？是否存在所謂的“墻”呢？

崔鵬：這一代AI的技術路徑，總體上仍遵循大規模數據驅動的范式，依賴于算法、算力和數據這三要素。而目前，基本所有互聯網中的高質量數據，都已經投喂給了大模型。除此之外，大模型還吸收了大量的人工標注數據。如果一直維持規模法則這樣的范式，到一定階段，AI肯定是會撞上“數據墻”的。

但如果從底層的學習機理和學習機制來看，當前AI的泛化能力實際上是缺失的。也就是說，AI只能處理在訓練階段已經見過的類似案例，對于未見過類似的案例則難以應對。

泛化能力的缺失導致了一個嚴重的問題：當我們將AI應用于開放場景時，模型往往會在未被充分訓練過的場景下“胡說八道”。這構成了AI面臨的最大技術瓶頸——在安全可信方面的能力缺失，也就是說，目前的AI既夠不安全也不夠可信。

NBD：那我們應該如何解決AI的安全可信問題呢？

崔鵬：目前來看，有三個層面：探索新的學習機理，建立新的數據科學體系，還要能夠提出新的評估手段。做到三位一體，才能夠真正解決AI的安全和可信問題。

首先，傳統的機器學習基于“獨立同分布”的假設，認為訓練數據和測試數據是相似的。這種假設給予機器學習明確的優化目標，但在實際應用中，這種假設可能會帶來一些問題，比如過擬合（模型過于依賴訓練數據，無法應對新情況）或擬合無關的信息。特別是在大規模數據中，變量之間可能存在虛假的關聯，從而影響到模型的準確性。相比之下，因果統計會更加關注變量之間的因果關系（即明確哪些因素真正影響結果），能夠更好地應對數據分布變化帶來的問題。

其次，我們需要轉變對數據的處理方式，發展新的數據科學體系，從被動積累數據轉變為主動獲取有效數據，并使數據與智能形成互動的反饋循環——數據產生智能，智能又能夠定向告訴我們應該去產生或者收集什么樣的數據。

第三是建立新的評估體系，以準確刻畫模型的能力邊界和風險。通過評估來明確模型風險可能存在的具體情境，在明確這些風險后，我們就應當避免在那些高風險情境下使用AI模型來完成任務。

當AI遇上高風險行業，得分就算高達99.99也是不夠的

NBD：市面上不乏許多表現出色的模型，但為何在高風險行業，仍然鮮見AI的廣泛應用呢？

崔鵬：現在關于AI有兩個論調，一種觀點認為，AI的發展已經達到一個前所未有的高度，諸如AGI（通用人工智能）和ASI（超級智能）等概念開始被廣泛討論。然而，另一種觀點認為，現在的AI，其實并沒有在嚴肅行業里真正解決實際問題。

AI在實際應用中的落地面臨諸多困難，因為AI的泛化能力無法得到保證，那么其在開放場景下的安全性和可信性就無法得到保證。為什么我們敢用人去解決這些風險比較高的任務呢？就是因為相較于現在的AI，人的可信性肯定要高很多。
對于AI，市面上有各種各樣的評測和榜單，但其實這些都是對模型整體能力的刻畫，但它并不足以精確描繪出模型在具體應用場景下的能力邊界。

那么，即便模型拿到99分、甚至是99.99分的高分，也可能不足以說明它在實際應用中是安全可信的。因為我們無法確切知曉，其風險究竟會處于何種情況之下。因此，對于AI而言，確實需要建立一套新的評估體系，準確評估和界定模型的能力邊界，這一點至關重要。

圖片來源：視覺中國-VCG41N1472123004

未來3~5年是打造安全可信AI的黃金期

NBD：在2024年世界互聯網大會烏鎮峰會網絡安全技術發展與國際合作論壇上，有業內人士將AI安全危機總結為“三化”，即：黑箱化（指AI系統內部的決策過程對用戶和開發者來說是不透明的）、黑產化（導致深度偽造泛濫成災）和武器化（導致黑客攻擊愈演愈烈）。您認為在解決“AI黑箱”的問題上，有哪些比較有效的技術手段呢？

崔鵬：從技術層面來看，AI實際上正逐步趨向于“黑箱化”發展。但是從性能角度來講，AI的能力也在不斷增強。因此，在一定程度上，可以說我們讓渡了對模型的控制權，換取了其性能上的提升。

但一個新技術的出現，到底是不是需要它完全透明、可解釋，其實也是一個問題。因為本質上來講，一項技術是否能夠為廣大消費者所接受，并不取決于它是不是可解釋、是不是透明的，而取決于它是不是安全可信的。

比如，人們敢開車，不是因為每個人都懂發動機的發動原理；人們敢坐飛機，也不是因為每個人都懂空氣動力學。

所謂“可解釋性”，實際上是指能夠被人類所理解。而人類的解釋邏輯往往基于因果。因此，如果機器的推理邏輯與人類的推理邏輯能夠對齊，那整個工作機制對于人類而言，就是可解釋的。

NBD：您認為我們什么時候能夠構建好安全可信的AI呢？

崔鵬：我認為，未來3~5年將是打造安全可信AI的黃金期。現在AI又到了一個十字路口，按照（已知）技術路徑來走，大家會越來越清楚AI的最終發展形態。因此，會有更多的人關注AI的安全可信，因為單純依靠規模法則或蠻力法，邊際收益已經逐漸降低，必須尋找新的突破點。

實際上，目前已有一些相對成熟的技術手段，能夠在一定程度上解決這些問題。底層的基礎理論體系已經構建出來了，關鍵技術也有了，接下來要解決的就是如何將這些技術與實際應用場景進行打磨和對齊。因此我認為，解決這個問題所需的時間并不會太長。

但是，在安全可信的機制這一層面，相對于歐美國家，我們的投入和關注量都是相對少的。

如果我們觀察美國的科研規劃或頂尖學者們的研究方向，會發現他們實際上是“兩條腿在走”。一方面，是靠大規模算力、大規模數據來打造更強大的模型。但與此同時，他們也在積極探索另一條路，即如何保障AI的安全性和可信性。

“安全可信”會是2025年AI發展的一個重要趨勢。在當前階段，乃至我國大的戰略中，“安全可信”都占據著舉足輕重的地位。如果這一步棋走好了，或許不能說是“彎道超車”，但可以說是“換道超車”。

AI與工業結合，是中國的“先手棋”

NBD：AI與自動化的結合正改變一些傳統行業。您認為AI會如何推動這些行業的智能升級呢？具體的應用場景又會有哪些呢？

崔鵬：這一波大模型出來以后，它的主要應用場景是互聯網。但從我國的資源稟賦講，互聯網可能并不一定是最有比較優勢的“戰場”。我國資源稟賦最為突出的領域其實是工業。無論是制造業的數據量、質量和規模，還是我們的支持力度，都遠超其他國家。AI與工業場景相結合，反而是我們很重要的一步“先手棋”。

我們現在講“新質生產力”，那新質生產力的核心是什么？其實，第四次工業革命的核心在于利用AI解決這些嚴肅行業的生產力問題，用智能去賦予工業更高的生產效率。事實上，第四次工業革命，其核心仍然是工業革命。

在第三次工業革命——我們稱之為數字化革命（其中也包括自動化）——的推動下，催生了非常復雜的工業生產鏈條。而在此背景下，智能化將是一個必然趨勢。因為人最不擅長的就是處理大規模、高維度的數據，在面對復雜任務時，是遠遠跟不上需求的。而大模型一天就能處理幾十萬本書的信息，與人的能力完全不在一個量級。從這個角度來看，AI是大有可為的。

例如，對于極為復雜的產品線，一旦因故障而停機，我們可能需要花費幾小時甚至幾天的時間來進行故障排查，但成本實在太高了。我們現在正在做的一項工作是通過分析設備的故障代碼，利用AI技術精準定位故障點，大幅度節約人力成本，提高生產效率。那這對于工業生產而言，無疑解決了非常大的問題。

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權，嚴禁轉載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯系索取稿酬。如您不希望作品出現在本站，可聯系我們要求撤下您的作品。