要聞

83歲的生物信息學科學家、中國科學院院士陳潤生：第三次抉擇，我在學習大模型｜對話科學家

每日經(jīng)濟新聞 2024-01-30 13:28:31

◎“我自己覺得，泛泛地去談醫(yī)療大健康或大模型，實際上是很大的問題。我更傾向于做垂直大模型，就解決一件事兒，這樣才有價值。”

◎“我理解的‘科學家精神’就是鉆研科學規(guī)律，探索科學真理，實事求是地去了解客觀。”

每經(jīng)記者林姿辰每經(jīng)編輯董興生

“人生的抉擇是非常重要的。（我的人生至此經(jīng)歷了三次抉擇：）第一次是給沃森寫信，相信人類一定要破譯遺傳密碼，此后參加了中國的人類基因組研究；第二次是對人類基因組序列組裝后發(fā)現(xiàn)，編碼蛋白質(zhì)的基因組序列只占人類基因組的一小部分（不超過5%），從而率先開展了非編碼研究；第三次，就是我最近參與學習、研究和推動大模型。”

說出這段話的，是今年已經(jīng)83歲的陳潤生。在網(wǎng)絡上搜索他的名字，“中國科學院院士”“國際歐亞科學院院士”“中國生物信息學研究第一人”等詞條依次跳出，暗示著這是一位“老派”科學家。但在以Z世代為主要用戶的B站上，一則由陳潤生主講的短視頻——“人類能用基因技術編輯出‘完美生物’嗎”，播放量破萬次。

AI（人工智能）發(fā)展日新月異的今天，年輕人對生物信息學更感興趣了，陳潤生也在緊追“潮流”。近日，在北京翊博生物集團有限公司（簡稱“翊博生物”）參與主辦的“北京CGT新勢發(fā)布會”上，《每日經(jīng)濟新聞》記者與陳潤生展開對話，走近了他心中的生物信息學和未來世界。

生物信息學滲透在生物醫(yī)學發(fā)展的方方面面

陳潤生是中國最早從事理論生物學、生物信息學以及非編碼RNA研究的科研人員之一，他主動給諾貝爾獎獲得者詹姆斯•杜威•沃森和中國科學院院士吳旻寫信、參與人類基因組計劃工作的經(jīng)歷是科學界的一段佳話。

生物信息學是以生物學、數(shù)學和信息科學為基礎的交叉科學，通過綜合運用數(shù)學和信息科學等多領域的方法和工具對生物信息進行獲取、加工、存儲、分析和解釋，來闡明大量生物數(shù)據(jù)所包含的生物學意義，研究重點主要是基因組學和蛋白質(zhì)組學，直逼人類基因深處的秘密。

在醫(yī)療科技助力下，生物信息學正以驚人的速度發(fā)展。即便是對這位老教授而言，2023年也是令他眼花繚亂的：

2023年7月31日，谷歌發(fā)布首個全科醫(yī)療大模型，懂臨床語言、懂影像，也懂基因組學；

2023年10月2日，諾貝爾生理學或醫(yī)學獎獲獎名單公布，獲獎者卡塔琳•卡里科（Katalin Karikó）、德魯•魏斯曼（Drew Weissman）在核苷酸堿基修飾方面的發(fā)現(xiàn)，使mRNA疫苗能夠研制成功；

2023年11月，全球首個CRISPR/Cas9基因編輯療法Casgevy在英國獲有條件上市，用于治療鐮狀細胞病（SCD）和輸血依賴性β地中海貧血（TDT）

......

不過，在陳潤生看來，生物信息學的重要問題并無變化，仍是多組學分析。尤其是進入大數(shù)據(jù)時代，來自分子水平的數(shù)據(jù)，包括單細胞的多組學數(shù)據(jù)，依然是目前生物信息學要分析的重要方向。當前，學界關注的重要趨勢，是單細胞轉(zhuǎn)錄組和空間轉(zhuǎn)錄組等多組學分析，其中單細胞轉(zhuǎn)錄組能明確每個細胞與疾病間的關聯(lián)；空間轉(zhuǎn)錄組則是確定多個基因在不同細胞類型、不同組織類型和不同發(fā)育階段中的表達，明確運作機制。

“我自己覺得，整個生物信息學越來越重要，它會滲透在整個未來生物醫(yī)學發(fā)展的方方面面。”陳潤生告訴記者。但他也承認，這個過程可能要面臨安全性和有效性的平衡，或者說政策和技術的平衡。以基因編輯為例，在未來生物技術中，基因編輯也絕對是有效的、獨特的、前沿的技術，但最重要的問題是它的安全性，在使用中一定要建立標準、共識和法規(guī)。

“基因編輯一般在單個細胞進行，改了一個細胞之后復制的細胞就都變了，所以原則來講應該100%有效才行；如果99%有效，那么它后續(xù)的效果是應當值得斟酌的。”陳潤生說。

另外，還有一系列技術問題亟待解決。目前，基因編輯只能定點解決一個DNA或RNA的問題，應用范圍相對較窄，比如Casgevy獲批的兩項適應癥均為單基因罕見病，對于上億個細胞發(fā)生變異的腫瘤疾病，基因編輯目前還無能為力。

大模型讓“人工智能超過人”從科幻變成科學

“過去可能認為人工智能超過人是科幻，但現(xiàn)在看也變成科學了。”

陳潤生的感慨與2023年發(fā)生的另一大事件——ChatGPT橫空出世有關。隨著學科的發(fā)展，越來越多的數(shù)據(jù)需要分析，人工智能成為一個重要手段，其中以ChatGPT為代表的大語言模型的出現(xiàn)，為數(shù)據(jù)分析帶來革命性的影響。

陳潤生認為，這是因為大模型帶來了兩個變化：一是解決了自然語言的識別問題，“計算機可以讀書了”；二是實現(xiàn)多模態(tài)的融合，從原來只會“下棋”的專家變成“雜家”。

“大模型是在原來AI基礎上的提高，這個提高最核心的問題就是它能像人一樣學習自然語言。一個計算機讀書是沒有限制的，所以它跟任何一個個體比，絕對是超過你的。”

陳潤生圖片來源：受訪者供圖

比如，過去陳潤生參與的人類基因組計劃的DNA序列拼接、組裝和功能元件識別的方法研究，需要大量人工計算、資料整理。但大模型的出現(xiàn)使得轉(zhuǎn)錄組、表觀組和蛋白組的信息整合成為可能。而在創(chuàng)新藥物研發(fā)領域，無論是英國上市AI制藥公司Benevolent AI的AI增強大模型，還是2021年國內(nèi)發(fā)布的華為云盤古藥物分子大模型，都是人工智能輔助藥物設計的工具。

目前，陳潤生團隊也開發(fā)了一個醫(yī)學多模態(tài)數(shù)據(jù)智能整合計算平臺——靈樞，能夠?qū)斍吧镝t(yī)藥的大數(shù)據(jù)整合在一個大模型中。陳潤生表示，團隊正在探索性地將中醫(yī)藥相關數(shù)據(jù)整合到該模型中，希望實現(xiàn)“中西醫(yī)結(jié)合”，為疾病治療帶來更大的益處。

“用專業(yè)的數(shù)據(jù)把大模型訓練成一個特化的‘腦子’，仍然是當前大模型給各個領域提供的一個很好的工具，靈樞就是希望用中醫(yī)的知識建立這樣一個特化的模型。”陳潤生說。

不過，新事物也帶來新挑戰(zhàn)。當前的大模型提出了一系列具有挑戰(zhàn)性且十分尖銳的問題，即人工智能能否超過人腦（自然智能），什么時候超過，超過之后的社會結(jié)構、組織形式該如何運轉(zhuǎn)？陳潤生認為，這才是本次大模型的核心爭論，這個爭論不僅涉及科學、產(chǎn)業(yè)，更重要的是對整個社會造成的沖擊。

另外，精準醫(yī)學發(fā)展是國家間科技競爭的一大關鍵，大模型的出現(xiàn)可能會導致進一步的知識壟斷。從長遠看，發(fā)展隸屬于國家、為未來發(fā)展服務的國家級大模型是必要的，而如何保證學術交流與本國資源保護也需要謹慎平衡，需根據(jù)某些共識和規(guī)則做決定。“但需要注意，這種抉擇是一種科學的抉擇，不可以一拍腦袋就畫死了線。”陳潤生說。

被需要的醫(yī)療大模型，應該是垂直的而非泛泛的

2023年5月25日，中國互聯(lián)網(wǎng)醫(yī)療公司醫(yī)聯(lián)發(fā)布了在研的醫(yī)療大語言模型“MedGPT”，整合了超過1000多種醫(yī)療模塊，預計在2023年底可覆蓋80%病種的就診需求；同年12月，螞蟻集團正式開源國內(nèi)首個醫(yī)療專科推理數(shù)據(jù)集，意在提升大模型在醫(yī)療領域的專業(yè)性。

由此，業(yè)內(nèi)對醫(yī)療大模型“泛化”和“垂直”的討論持續(xù)不斷，陳潤生更支持后者。

“我自己覺得，泛泛地去談醫(yī)療大健康或大模型，實際上是很大的問題。我更傾向于做垂直大模型，就解決一件事兒，這樣才有價值。”

陳潤生的考慮依據(jù)是，在技術條件不變的前提下，醫(yī)療大模型的好壞是由積累數(shù)據(jù)數(shù)量決定的，而服務于臨床的大模型之所以難做，主要是數(shù)據(jù)比較難收集。一方面，像金融等行業(yè)一樣，醫(yī)學領域數(shù)據(jù)面臨隱私保護問題；另一方面，醫(yī)療過程涉及臨床檢驗、診斷等多個環(huán)節(jié)，做一個全覆蓋的泛醫(yī)療大模型，效果很難理想，倒不如聚焦某一環(huán)節(jié)做扎實。

但話說回來，數(shù)據(jù)收集還不是最難的環(huán)節(jié)。“最難的并不是說誰有什么數(shù)據(jù)，誰有什么模型，難的是要有一組人能夠確切地、客觀地了解信息學和生物學兩個方面”，這組人也就是業(yè)內(nèi)所稱的“復合型人才”。

陳潤生告訴《每日經(jīng)濟新聞》記者，大模型為多組學分析提供平臺，實際上是搭建了一個復雜的神經(jīng)網(wǎng)絡，就像人類儲存知識取決于每個神經(jīng)元的閾值，以及神經(jīng)元與神經(jīng)元間連接的權，每有一次知識輸入，這兩個參數(shù)都會發(fā)生變化。當知識反復輸入，而兩個參數(shù)不再發(fā)生變化時，就意味著達到“學會了”的狀態(tài)。而大模型學習、存儲知識的過程也與此類似，技術人員可以按照這一規(guī)律先后拿基因組數(shù)據(jù)、轉(zhuǎn)錄組數(shù)據(jù)、蛋白組數(shù)據(jù)訓練大模型，最終讓復雜網(wǎng)絡實現(xiàn)多組學數(shù)據(jù)的相互作用，也就是多模態(tài)融合。

視覺中國（不可商用）-健康、醫(yī)療、藥品-無菌細胞培養(yǎng)、科研人員、科學實驗、醫(yī)學實驗、顯微攝影、細胞培養(yǎng)、博士后、實驗室-VCG11385119793.jpg

圖片來源：視覺中國-VCG11385119793

不過，在實踐過程中，如何填平結(jié)構網(wǎng)絡技術人員與生物信息學研究人員之間的認知Gap（差距），還是國內(nèi)外企業(yè)共同面臨的難題，而這也促成了具有資源整合優(yōu)勢的頭部科技企業(yè)的成功，比如OpenAI和Google。

與此形成鮮明對比的，是國內(nèi)的“百模大戰(zhàn)”。去年11月15日，百度董事長兼首席執(zhí)行官李彥宏在深圳西麗湖論壇上表示，國內(nèi)已經(jīng)發(fā)布了238個大模型。這意味著，在進入2023年的兩百多天里，平均每天都有一個大模型問世，但基于大模型開發(fā)出來的AI原生應用卻非常少。

陳潤生也關注到了這一現(xiàn)象，并且表現(xiàn)出明確反對態(tài)度。他認為，那么多大模型更像是一種噱頭，一味宣傳數(shù)量帶來的只是進一步內(nèi)卷，最終導致人力和資源浪費。相應的部門應當考慮這些大模型之間的協(xié)同與整合問題，“‘各自為戰(zhàn)’效率肯定是低的”。

基礎研究數(shù)量領先，但缺乏有效產(chǎn)業(yè)化轉(zhuǎn)化機制

無論在大模型等工具層面，還是在基因編輯、細胞治療等創(chuàng)新技術、具體療法的創(chuàng)新適應癥上，中國企業(yè)的身影并不多，但中國是生物信息學基礎研究大國。

根據(jù)第三方平臺“科研貓”統(tǒng)計數(shù)據(jù)，2021年，全球生物信息學類發(fā)表期刊文章超過6700篇，來自中國科學家的論文數(shù)量超過4600篇，其中來自內(nèi)地的共4518篇，占比超66%，數(shù)量和占比遠超歐美發(fā)達國家。

過去，許多論文發(fā)表后被束之高閣，成果轉(zhuǎn)化的路并不順暢，陳潤生對此深有體會。“以前腦子里沒這個概念，科學家發(fā)了Paper（論文），發(fā)現(xiàn)某個靶點與腫瘤有關，但不會想到要把它變成一個藥，走不過這一步，所以我們沒法在成果端看到。”

如何補齊這一差距？陳潤生認為，最重要的是要建立一套更有效的轉(zhuǎn)化機制，最好是在大學內(nèi)部有專利團隊、法律團隊等“接口”，更便利地實現(xiàn)國內(nèi)現(xiàn)有基礎研究成果的轉(zhuǎn)化。以美國為例，在擁有雄厚科研力量的基礎上，基礎研究成果的產(chǎn)權問題由多項法案厘清，技術轉(zhuǎn)讓從最初的評估到最后的收入管理，則有高水平、專業(yè)化和系統(tǒng)化的“一條龍”服務。

值得一提的是，雖然美國的產(chǎn)業(yè)化轉(zhuǎn)化效率較高，但科學家創(chuàng)業(yè)熱情似乎不大、失敗率也較高。美國巴士底有限公司CEO布拉德利•拉尚接受媒體采訪時曾表示，美國高校教授嘗試創(chuàng)辦的公司，往往以驚人的速度倒閉，失敗率高達96%—97%，主要原因是科學家對自己領域的研究和專業(yè)知識充滿熱情，但缺乏管理經(jīng)驗；而隨著公司經(jīng)營受挫，技術也常常丟失。

陳潤生對此已有深刻的認知。為了加快科學成果在產(chǎn)業(yè)上的轉(zhuǎn)化速度，陳潤生作為“參謀”加入了翊博生物的DC細胞（樹突狀細胞，目前已知的體內(nèi)調(diào)節(jié)功能最強的抗原提呈細胞）前端的科研工作。陳潤生表示，DC細胞是免疫系統(tǒng)和疾病相關免疫研究的重要領域，是公司的主要研究方向。如何讓DC細胞發(fā)揮更大的作用，其對遺傳密碼的認知能派上用場。

“在推進科學轉(zhuǎn)化時，我們更多了解到公司的運營規(guī)律，深深體到我們不適合干那個（管理），我們的角色永遠是技術提供者。各取所長、分工協(xié)同，對于公司持續(xù)發(fā)展非常重要。”陳潤生坦言。

而這也符合陳潤生給自己的定位——一個純粹的科學家。他認為，不管時代怎么變，科學家精神是不變的，但也要有變的東西，比如順應發(fā)展的“四個面向”精神，要堅持面向世界科技前沿、面向經(jīng)濟主戰(zhàn)場、面向國家重大需求、面向人民生命健康，不斷向科學技術廣度和深度進軍。

另外，復合型人才的培養(yǎng)也是新時代提出的新命題。目前，BT（生物技術）和IT（信息技術）相結(jié)合是適應國際科學發(fā)展的明確信號和趨勢，但“要產(chǎn)生復合型人才，必須得有復合型人才去教”，可目前國內(nèi)符合條件的導師個體卻比較少。陳潤生認為，如果能建立一個具有融合特征的復合型導師團隊，會是一條不錯的探索路徑。

記者手記 | 一位83歲的科學家，很“年輕”

“科學家們就是要有科學精神，要真正地、老老實實地去學知識，達到一定深度了才能從事這個領域的工作。而不是說有萬能科學家，聽什么都懂，實際上是做不下去的。”

“您認為的科學家精神是什么？”

“我理解的‘科學家精神’就是鉆研科學規(guī)律，探索科學真理，實事求是地去了解客觀。”

初見陳潤生，會不自覺地被他中氣十足的聲音吸引，然后忘記他是一位83歲的老人。在陳潤生的身上，年齡似乎真的只是一個數(shù)字。

他告訴記者，自己依然每天看書，人工智能和大模型相關知識都是一點點自學的。“不能放棄學習，這是我們做科研的基本素質(zhì)。哪天不學習了，你肯定就跟不上了，這是一個自覺。”他笑著告訴記者，老了跟不上潮流很正常，但只要想跟上潮流，就必須強迫自己學習。

當然，這也是為了和年輕人交流。36年來，陳潤生一直堅持在中國科學院講授生物信息學，能容納千人的禮堂經(jīng)常座無虛席，不論專業(yè)是“數(shù)理化”還是“天地生”，研究生院的學生幾乎都去聽過陳潤生的課。這是一種令人羨慕的能力和魅力。

陳潤生慷慨地把其中的“秘訣”分享給記者：自己不是在講課，而是在與聽眾朋友交流，以學術為基礎來把方法論和感悟傳承下去，“共同去了解客觀”。

“你傳遞給人的是有用的東西，有用大家才聽，大家感興趣才聽。這里面除了知識之外，就是一種態(tài)度和交流，這很重要。”陳潤生說。

如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權，嚴禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。