每日經濟新聞 2023-02-22 21:18:52
◎蘇勁松向記者介紹,ChatGPT本質上是一個語言模型,它可以根據給定的上下文來預測當前出現詞語的分布概率。粗略來看,它的發展經歷了多個階段:第一階段是統計語言模型,第二階段是神經網絡語言模型。特別地,隨著2017年Transformer模型的出現,研究者們也開始使用Transformer模型來構建預訓練語言模型,也就是ChatGPT的前身GPT。
◎“可以說,研發中國版ChatGPT成為大家的共識。目前,國內互聯網公司經過多年的發展,在人工智能的三要素算力、算法和數據上都有了較好的積累,因此他們能夠對自研ChatGPT的需求做出快速響應。然而,隨著對類ChatGPT大模型智能化需求的提高,模型訓練算力和數據需求、技術創新需求也在不斷提升,我們仍亟需加強這幾方面的建設投入。”
每經記者 趙李南 每經編輯 梁梟
“在這一波人工智能產業變革中,不論是出于我國信息安全的需要,還是國內人工智能產業發展的考慮,我們都需要自己的ChatGPT。”蘇勁松表示。
蘇勁松,廈門大學信息學院教授、博士生導師,國家特支計劃青年拔尖人才,福建省杰出青年基金獲得者。2011年畢業于中國科學院計算技術研究所,隨后任教于廈門大學,主要研究方向是自然語言處理,機器翻譯,文本生成。共發表CCF-A/B論文一百余篇,獲得2020年錢偉長中文信息處理科學技術獎—漢王青年創新獎,培養學生獲2017百度獎學金(全球10名,唯一獲獎碩士)。
近日,《每日經濟新聞》記者專訪了蘇勁松,關于ChatGPT的技術基礎、發展方向、我國大語言模型的開發狀況,蘇勁松都一一進行了解答。
圖為蘇勁松,受訪者供圖
蘇勁松用大一編程課程試卷對ChatGPT進行了測試。結果讓人感到驚訝,ChatGPT編程題全對,選擇題正確率過半,共得了69分(滿分100分)。
蘇勁松認為,ChatGPT答編程題100%正確率可能有兩方面原因。首先,ChatGPT是基于Transformer的生成模型,其在生成式任務中的表現尤為突出。另外,ChatGPT使用了大量的不同領域和類型源代碼數據進行訓練,這些代碼可以幫助模型學習到如何高效編寫較為簡單的代碼。
蘇勁松繼續說道:“相比之下,選擇題答題不夠理想的原因,可能也包含兩方面:首先是數據集的不足,與自然語言生成任務不同,選擇題類型的數據在訓練時出現較少,這使得模型對該類任務的建模能力不足;其次,選擇題經常需要模型能夠正確地理解文本并將其與其他知識點聯系起來,然后再進行推理。然而,ChatGPT在邏輯推理這方面還是存在不足。”
在大眾看來,ChatGPT似是“橫空出世”,但事實上,ChatGPT經歷了相當漫長的發展過程。
蘇勁松向記者介紹,ChatGPT本質上是一個語言模型,它可以根據給定的上下文來預測當前出現詞語的分布概率。粗略來看,它的發展經歷了多個階段:第一階段是統計語言模型,即用傳統的統計方法來建立語言模型。第二階段是神經網絡語言模型,即使用神經網絡來建立語言模型,先后出現了許多經典模型,包括前饋神經網絡語言模型、循環神經網絡語言模型等等。特別地,隨著2017年Transformer模型的出現,研究者們也開始使用Transformer模型來構建預訓練語言模型,也就是ChatGPT的前身GPT。
“而GPT本身的發展就歷經了多個不同版本,有1.0、2.0、3.0、3.5版本,除了3.5版本,每個版本都比以前版本在模型參數和訓練數據規模上有顯著增加,因此模型能力也有顯著提升。例如,3.0版本的訓練數據規模是GPT1.0版本的1萬倍,而模型參數是1.0版本的1500倍,達到了1750億。”蘇勁松介紹。
“目前大家談論最多的ChatGPT是基于GPT3.5。該版本是在3.0版本的基礎上進一步加入了特殊技術,例如指令微調、思維鏈、人類反饋強化學習等,來優化模型訓練。相比其他模型,ChatGPT處理不同自然語言任務的通用能力、人機交互對話方式,以及高質量的文本生成能力都給我們帶來了耳目一新的感覺,引起了大家的廣泛關注。雖然它(距離)人類智能還很遙遠,但是不可否認它的出現確實是人工智能、自然語言處理發展的標志性事件。”蘇勁松說。
“可以看到,ChatGPT產生了巨大的影響。搜索引擎、對話機器人等領域已經出現基于ChatGPT的商業應用產品。比如,微軟近期推出的NewBing搜索引擎給大家帶來了全新的體驗,相信在其他領域,例如智慧教育,智慧金融,未來還會有更多與類ChatGPT模型深度融合的商業應用涌現出來,不斷改變人們的生活。”蘇勁松說。
“因此,在這一波人工智能產業變革中,不論是出于我國信息安全的需要,還是國內人工智能產業發展的考慮,我們都需要自己的ChatGPT。”蘇勁松表示。
蘇勁松認為,在這方面,國內許多互聯網公司都認識到了,紛紛推出自研ChatGPT的計劃。例如,百度二月初官宣百度版ChatGPT——“文心一言”將于三月份向公眾開放;阿里達摩院也宣布,阿里多模態版ChatGPT也已經進入內部測試階段。
“可以說,研發中國版ChatGPT成為大家的共識。目前,國內互聯網公司經過多年的發展,在人工智能的三要素算力、算法和數據上都有了較好的積累,因此他們能夠對自研ChatGPT的需求做出快速響應。然而,隨著對類ChatGPT大模型智能化需求的提高,模型訓練算力和數據需求、技術創新需求也在不斷提升,我們仍亟需加強這幾方面的建設投入。”蘇勁松表示。
“此外,我們也注意到ChatGPT也會給學術界帶來巨大的影響。一方面,由于ChatGPT在任務建模方面的統一性和通用性,傳統以任務定義為界限的研究壁壘將進一步被打破,更多研究者將同時投入ChatGPT這類大模型研究中,這將有力促進自然語言處理及其相關領域研究更快速地發展。”蘇勁松稱。
“另外一方面,由于大模型研究計算資源和訓練數據的限制,高校和科研院所也將面臨較大的科研條件壓力。對此,我認為高校和科研院所的優勢在于能夠源源不斷培養緊跟前沿技術的人才,一種比較可行的方式是高校和科研院所和互聯網公司組成聯合科研團隊,直面大模型產業落地的實際難題,并持續展開攻關研究。這樣既可以爭取產業資源的支持開展更具科研意義和應用價值的研究,也能進一步提高人才培養的質量。”蘇勁松稱。
廈門大學在人工智能領域的研究有著悠久歷史。早在上世紀80年代,廈門大學就開始了自然語言處理研究。
蘇勁松自入職廈門大學以來,一直從事自然語言處理、文本生成、大模型預訓練的科學研究,在模型設計、模型輕量化、模型知識遷移等方面取得了一系列重要進展,他培養的學生也廣泛就職于各大互聯網公司。目前他所帶領的團隊正和國內的某互聯網公司開展密切合作,對類ChatGPT大模型的關鍵技術展開研究。
在蘇勁松看來,ChatGPT仍然有很多方面需要改進。比較明顯的缺陷包括以下幾方面:
“雖然ChatGPT能夠對任意的問題都給出看似合理的回答,但其中也不乏一些胡編亂造的回答。例如ChatGPT會認為杜甫和杜牧是同一個人。”蘇勁松稱。
同時,ChatGPT解決較為復雜的數學應用題的能力仍然有待提升。
此外,當前的ChatGPT模型是面向文本的模型。而如果它要成為一個能力更強的智能體,那么它必須要具備感知處理多模態信息的能力。在這方面,阿里已經做了不少嘗試,他們即將推出的類ChatGPT大模型值得期待。
“現在的ChatGPT只采用了2021年以前的訓練數據,因而它無法掌握此后的事件信息;受到訓練數據的影響,ChatGPT也容易產生具有偏見的文本;最后需要注意的是,通過設計一些特別的輸入,ChatGPT會產生一些具有危害性的輸出。盡管OpenAI已經對模型做了一定優化,但是仍然無法完全避免。”蘇勁松表示。
“可以說,ChatGPT優秀,但離真正的智能還很遠,我們需要打造更加智能的中國版ChatGPT。”蘇勁松表示。
封面圖片來源:受訪者供圖
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP