中國科學院信工所研究員虎嵩林：大模型的安全風險主要體現在無害性和誠實性兩大方面

每日經濟新聞 2024-04-26 21:00:32

虎嵩林指出，促使大模型遵循人類價值觀、服從人類意圖，規避各類風險，并保障數字和物理空間的應用安全，實現有用性（Helpful）、無害性（Harmless）和誠實性（Honest）3H多目標的平衡，已經成為亟待解決的世界難題。

每經記者袁園每經編輯張益銘

4月25日，2024中關村論壇在京開幕。本屆論壇以“創新：建設更加美好的世界”為主題，邀請全球知名專家學者和企業家，共商創新大計。

在數據安全治理與發展論壇上，中國科學院信工所研究員虎嵩林接受了包括《每日經濟新聞》記者在內的媒體采訪，并針對當前AI大模型引發的全新安全問題以及企業和行業的應對措施等給出了回應。

促使大模型遵循人類價值觀等難題亟待解決

當前生成式人工智能技術作為人工智能演化過程中的重要突破，為引領產業革新和數字化變革奠定了堅實的基礎。根據麥肯錫報告，生成式AI每年或將為全球GDP增加2.6萬億美元~4.4萬億美元。

但是生成式人工智能技術在迭代升級的同時也放大了技術安全風險。比如，數據方面，數據會帶來價值偏見、隱私泄露、數據污染等問題：訓練數據固有偏見導致模型產生偏見內容；海量訓練數據擴大了數據安全和隱私保護風險。算法方面，算法模型生成特性及安全漏洞會引發“幻覺”或虛假信息、模型遭受攻擊等風險。

對此，虎嵩林認為，生成式人工智能大模型的安全重要性不言而喻。當前，大模型正在成為驅動新質生產力發展的新動能、人類探索未知的新工具。在賦能新時代發展的同時，生成式人工智能也給全球帶來了前所未有的安全風險。

大模型不僅可以對話和生成視頻、還可以調用工具、鏈接物理設備、并通過與機器人結合實現具身智能。大模型本身也正在從人類可利用的工具客體向認識、改造自然社會的主體轉變。成為數學定理證明、科學研究的合作者，成為獨立運營企業的法律主體。

虎嵩林表示，大模型能力的通用性、潛在的主體地位以及應用的深度與廣度，也都將進一步放大其危害程度。包括兩位圖靈獎得主Hinton、Bengio和谷歌DeepMind和OpenAI的CEO在內的產學兩界領軍人物聯名發出的AI風險聲明中，更將AI可能帶來的“毀滅性”的風險，上升到了與流行病以及核戰爭相提并論的高度。

2023年底《自然》雜志預測的2024年的重大科學事件中，GPT5的發布以及聯合國人工智能高級別咨詢機構將發布的AI監管相關報告位列其中，反映了全球對協調人工智能發展與安全的重大關切。毫無疑問，促使大模型遵循人類價值觀、服從人類意圖，規避各類風險，并保障數字和物理空間的應用安全，實現有用性（Helpful）、無害性（Harmless）和誠實性（Honest）3H多目標的平衡，已經成為亟待解決的世界難題。

大模型的安全風險主要體現在兩大方面

“大模型的安全風險主要體現在無害性（Harmless）和誠實性（Honest）兩個方面。”虎嵩林表示，其中，有害信息對應前者，包括價值偏見，隱私泄露，還有黃賭毒、涉恐涉暴、仇恨、反諷、歧視、刻板印象等等各種信息污染；不實信息對應后者，包括虛假信息、偽造、欺詐內容等。

更廣義地講，也包括由輸出信息所直接導致的各類不安全的指令調用、智能體或者具身智能機器人的惡意行為等等。而所謂“幻覺”，則是一把“雙刃劍”，既有可能是導致有害、不實信息的“元兇”，也有可能是科學創新、藝術創意的能力來源。我們談的幻覺緩解，主要還是針對前者。

虎嵩林進一步指出，生成式大模型特有的預訓練、微調、上下文、提示、思維鏈COT等新的學習范式，使其安全具有了與傳統AI安全不同的許多新特點，面臨諸多新挑戰，確實制約了傳統安全方法、經驗、工具在大模型安全領域發揮效能。

大模型安全風險的成因既可以是來自各類訓練數據的缺陷或算法的局限性等模型內因，也可以是利用這些新型學習范式的惡意使用或蓄意攻擊等外因。這使得大模型在數據準備、預訓練、微調對齊、推理以及應用階段都會存在各種潛在的風險。盡管目前我們在安全理論、大模型安全評測、自動化測試、價值觀對齊、幻覺緩解等方面都開展了一系列的研究和應用工作，這些領域依然充滿了挑戰。

至于企業、行業應該從哪些方面進行安全維護這個問題。虎嵩林認為，這個回答的難度比較大。“坦白地說，從理論上，或者說技術上，大模型安全仍然還有很多亟待解決的難題。”

虎嵩林認為，一方面，我們對大模型“智能涌現”的原理還所知甚少，對上下文學習、提示學習、思維鏈等能力的內在機理仍嚴重缺乏認知。一些研究工作也證明AI的安全性無法完全保障，對任意一個對齊模型總存在一定長度的提示可以將之攻破等，這都極大地制約我們從原理上認識和防御大模型的安全風險；

“另一方面，我們又需要在現有的技術條件下持續探索，這也是我們設計‘以攻促防、攻防相長’思路，研制Galexy（星河）大模型安全測評平臺的原因，也是舉辦這次大賽（首屆生成式人工智能安全大賽）的初衷。”虎嵩林介紹道，我們希望通過“攻、檢、防”，不斷發現漏洞、自動識別并進行持續化的安全加固，形成一個循環發展的飛輪。

封面圖片來源：視覺中國-VCG31N2008743681

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權，嚴禁轉載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯系索取稿酬。如您不希望作品出現在本站，可聯系我們要求撤下您的作品。

模型大模型中國

上一篇文章

首創證券給予赤峰黃金買入評級

返回每經網首頁

下一篇文章

國內期貨夜盤開盤多數上漲，滬金漲0.73%，滬銀漲0.53%，滬鎳漲逾1%