要聞

清華大學(xué)與瑞萊智慧聯(lián)合團(tuán)隊(duì)推出RealSafe-R1大模型

每日經(jīng)濟(jì)新聞 2025-02-24 17:57:20

每經(jīng)記者可楊每經(jīng)編輯魏官紅

2月23日，清華大學(xué)與瑞萊智慧聯(lián)合團(tuán)隊(duì)（以下簡(jiǎn)稱(chēng)“清華瑞萊聯(lián)合團(tuán)隊(duì)”）推出大語(yǔ)言模型RealSafe-R1。據(jù)悉，該模型基于DeepSeek R1進(jìn)行深度優(yōu)化與后訓(xùn)練，在確保性能穩(wěn)定的基礎(chǔ)上，實(shí)現(xiàn)了安全性的顯著提升。

瑞萊智慧方面表示，連日來(lái)，國(guó)產(chǎn)開(kāi)源大模型DeepSeek的優(yōu)異表現(xiàn)令人驚艷，其在自然語(yǔ)言處理和多任務(wù)推理方面的能力展現(xiàn)了強(qiáng)大的技術(shù)實(shí)力，尤其是在復(fù)雜問(wèn)題解決和創(chuàng)造性任務(wù)中表現(xiàn)出色。然而，DeepSeek R1和V3在面對(duì)“越獄攻擊”等安全性挑戰(zhàn)時(shí)仍存在一定的局限性。例如，模型可能會(huì)被惡意設(shè)計(jì)的輸入誤導(dǎo)，生成不符合預(yù)期或不安全的響應(yīng)。這一安全短板并非DeepSeek所獨(dú)有的難題，而是當(dāng)前開(kāi)源大模型的通病，其根本缺陷源于安全對(duì)齊機(jī)制的深度不足。

為此，清華瑞萊聯(lián)合團(tuán)隊(duì)提出了基于模型自我提升的安全對(duì)齊方式，將安全對(duì)齊與內(nèi)省推理相結(jié)合，使大語(yǔ)言模型能夠通過(guò)具有安全意識(shí)的思維鏈分析來(lái)檢查潛在風(fēng)險(xiǎn)，實(shí)現(xiàn)基礎(chǔ)模型自身能力的自主進(jìn)化，可以應(yīng)用于多種開(kāi)源、閉源模型。

基于該方法，清華瑞萊聯(lián)合團(tuán)隊(duì)對(duì)DeepSeek-R1系列模型進(jìn)行后訓(xùn)練，正式推出RealSafe-R1系列大模型。據(jù)悉，RealSafe-R1各尺寸模型及數(shù)據(jù)集，將于近期向全球開(kāi)發(fā)者開(kāi)源。瑞萊智慧首席執(zhí)行官田天表示，大模型的安全性瓶頸是本質(zhì)的，只有通過(guò)持續(xù)投入和攻堅(jiān)補(bǔ)齊短板弱項(xiàng)，人工智能產(chǎn)業(yè)才能真正實(shí)現(xiàn)高質(zhì)量發(fā)展。

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

模型 DeepSeek 大模型

上一篇文章

歐洲通信衛(wèi)星公司股價(jià)上漲7.8%

返回每經(jīng)網(wǎng)首頁(yè)

下一篇文章

【美股盤(pán)前】熱門(mén)中概股多數(shù)下跌；微軟被曝取消數(shù)據(jù)中心租約；阿里宣布投入超3800億元建設(shè)云和AI硬件基礎(chǔ)設(shè)施；英偉達(dá)據(jù)稱(chēng)包下臺(tái)積電今年超70%先進(jìn)封裝產(chǎn)能