每日經(jīng)濟新聞 2024-01-30 13:28:31
◎“我自己覺得,泛泛地去談醫(yī)療大健康或大模型,實際上是很大的問題。我更傾向于做垂直大模型,就解決一件事兒,這樣才有價值。”
◎“我理解的‘科學家精神’就是鉆研科學規(guī)律,探索科學真理,實事求是地去了解客觀。”
每經(jīng)記者 林姿辰 每經(jīng)編輯 董興生
“人生的抉擇是非常重要的。(我的人生至此經(jīng)歷了三次抉擇:)第一次是給沃森寫信,相信人類一定要破譯遺傳密碼,此后參加了中國的人類基因組研究;第二次是對人類基因組序列組裝后發(fā)現(xiàn),編碼蛋白質(zhì)的基因組序列只占人類基因組的一小部分(不超過5%),從而率先開展了非編碼研究;第三次,就是我最近參與學習、研究和推動大模型。”
說出這段話的,是今年已經(jīng)83歲的陳潤生。在網(wǎng)絡上搜索他的名字,“中國科學院院士”“國際歐亞科學院院士”“中國生物信息學研究第一人”等詞條依次跳出,暗示著這是一位“老派”科學家。但在以Z世代為主要用戶的B站上,一則由陳潤生主講的短視頻——“人類能用基因技術編輯出‘完美生物’嗎”,播放量破萬次。
AI(人工智能)發(fā)展日新月異的今天,年輕人對生物信息學更感興趣了,陳潤生也在緊追“潮流”。近日,在北京翊博生物集團有限公司(簡稱“翊博生物”)參與主辦的“北京CGT新勢發(fā)布會”上,《每日經(jīng)濟新聞》記者與陳潤生展開對話,走近了他心中的生物信息學和未來世界。
陳潤生是中國最早從事理論生物學、生物信息學以及非編碼RNA研究的科研人員之一,他主動給諾貝爾獎獲得者詹姆斯•杜威•沃森和中國科學院院士吳旻寫信、參與人類基因組計劃工作的經(jīng)歷是科學界的一段佳話。
生物信息學是以生物學、數(shù)學和信息科學為基礎的交叉科學,通過綜合運用數(shù)學和信息科學等多領域的方法和工具對生物信息進行獲取、加工、存儲、分析和解釋,來闡明大量生物數(shù)據(jù)所包含的生物學意義,研究重點主要是基因組學和蛋白質(zhì)組學,直逼人類基因深處的秘密。
在醫(yī)療科技助力下,生物信息學正以驚人的速度發(fā)展。即便是對這位老教授而言,2023年也是令他眼花繚亂的:
2023年7月31日,谷歌發(fā)布首個全科醫(yī)療大模型,懂臨床語言、懂影像,也懂基因組學;
2023年10月2日,諾貝爾生理學或醫(yī)學獎獲獎名單公布,獲獎者卡塔琳•卡里科(Katalin Karikó)、德魯•魏斯曼(Drew Weissman)在核苷酸堿基修飾方面的發(fā)現(xiàn),使mRNA疫苗能夠研制成功;
2023年11月,全球首個CRISPR/Cas9基因編輯療法Casgevy在英國獲有條件上市,用于治療鐮狀細胞病(SCD)和輸血依賴性β地中海貧血(TDT)
......
不過,在陳潤生看來,生物信息學的重要問題并無變化,仍是多組學分析。尤其是進入大數(shù)據(jù)時代,來自分子水平的數(shù)據(jù),包括單細胞的多組學數(shù)據(jù),依然是目前生物信息學要分析的重要方向。當前,學界關注的重要趨勢,是單細胞轉(zhuǎn)錄組和空間轉(zhuǎn)錄組等多組學分析,其中單細胞轉(zhuǎn)錄組能明確每個細胞與疾病間的關聯(lián);空間轉(zhuǎn)錄組則是確定多個基因在不同細胞類型、不同組織類型和不同發(fā)育階段中的表達,明確運作機制。
“我自己覺得,整個生物信息學越來越重要,它會滲透在整個未來生物醫(yī)學發(fā)展的方方面面。”陳潤生告訴記者。但他也承認,這個過程可能要面臨安全性和有效性的平衡,或者說政策和技術的平衡。以基因編輯為例,在未來生物技術中,基因編輯也絕對是有效的、獨特的、前沿的技術,但最重要的問題是它的安全性,在使用中一定要建立標準、共識和法規(guī)。
“基因編輯一般在單個細胞進行,改了一個細胞之后復制的細胞就都變了,所以原則來講應該100%有效才行;如果99%有效,那么它后續(xù)的效果是應當值得斟酌的。”陳潤生說。
另外,還有一系列技術問題亟待解決。目前,基因編輯只能定點解決一個DNA或RNA的問題,應用范圍相對較窄,比如Casgevy獲批的兩項適應癥均為單基因罕見病,對于上億個細胞發(fā)生變異的腫瘤疾病,基因編輯目前還無能為力。
“過去可能認為人工智能超過人是科幻,但現(xiàn)在看也變成科學了。”
陳潤生的感慨與2023年發(fā)生的另一大事件——ChatGPT橫空出世有關。隨著學科的發(fā)展,越來越多的數(shù)據(jù)需要分析,人工智能成為一個重要手段,其中以ChatGPT為代表的大語言模型的出現(xiàn),為數(shù)據(jù)分析帶來革命性的影響。
陳潤生認為,這是因為大模型帶來了兩個變化:一是解決了自然語言的識別問題,“計算機可以讀書了”;二是實現(xiàn)多模態(tài)的融合,從原來只會“下棋”的專家變成“雜家”。
“大模型是在原來AI基礎上的提高,這個提高最核心的問題就是它能像人一樣學習自然語言。一個計算機讀書是沒有限制的,所以它跟任何一個個體比,絕對是超過你的。”
陳潤生 圖片來源:受訪者供圖
比如,過去陳潤生參與的人類基因組計劃的DNA序列拼接、組裝和功能元件識別的方法研究,需要大量人工計算、資料整理。但大模型的出現(xiàn)使得轉(zhuǎn)錄組、表觀組和蛋白組的信息整合成為可能。而在創(chuàng)新藥物研發(fā)領域,無論是英國上市AI制藥公司Benevolent AI的AI增強大模型,還是2021年國內(nèi)發(fā)布的華為云盤古藥物分子大模型,都是人工智能輔助藥物設計的工具。
目前,陳潤生團隊也開發(fā)了一個醫(yī)學多模態(tài)數(shù)據(jù)智能整合計算平臺——靈樞,能夠?qū)斍吧镝t(yī)藥的大數(shù)據(jù)整合在一個大模型中。陳潤生表示,團隊正在探索性地將中醫(yī)藥相關數(shù)據(jù)整合到該模型中,希望實現(xiàn)“中西醫(yī)結(jié)合”,為疾病治療帶來更大的益處。
“用專業(yè)的數(shù)據(jù)把大模型訓練成一個特化的‘腦子’,仍然是當前大模型給各個領域提供的一個很好的工具,靈樞就是希望用中醫(yī)的知識建立這樣一個特化的模型。”陳潤生說。
不過,新事物也帶來新挑戰(zhàn)。當前的大模型提出了一系列具有挑戰(zhàn)性且十分尖銳的問題,即人工智能能否超過人腦(自然智能),什么時候超過,超過之后的社會結(jié)構、組織形式該如何運轉(zhuǎn)?陳潤生認為,這才是本次大模型的核心爭論,這個爭論不僅涉及科學、產(chǎn)業(yè),更重要的是對整個社會造成的沖擊。
另外,精準醫(yī)學發(fā)展是國家間科技競爭的一大關鍵,大模型的出現(xiàn)可能會導致進一步的知識壟斷。從長遠看,發(fā)展隸屬于國家、為未來發(fā)展服務的國家級大模型是必要的,而如何保證學術交流與本國資源保護也需要謹慎平衡,需根據(jù)某些共識和規(guī)則做決定。“但需要注意,這種抉擇是一種科學的抉擇,不可以一拍腦袋就畫死了線。”陳潤生說。
2023年5月25日,中國互聯(lián)網(wǎng)醫(yī)療公司醫(yī)聯(lián)發(fā)布了在研的醫(yī)療大語言模型“MedGPT”,整合了超過1000多種醫(yī)療模塊,預計在2023年底可覆蓋80%病種的就診需求;同年12月,螞蟻集團正式開源國內(nèi)首個醫(yī)療專科推理數(shù)據(jù)集,意在提升大模型在醫(yī)療領域的專業(yè)性。
由此,業(yè)內(nèi)對醫(yī)療大模型“泛化”和“垂直”的討論持續(xù)不斷,陳潤生更支持后者。
“我自己覺得,泛泛地去談醫(yī)療大健康或大模型,實際上是很大的問題。我更傾向于做垂直大模型,就解決一件事兒,這樣才有價值。”
陳潤生的考慮依據(jù)是,在技術條件不變的前提下,醫(yī)療大模型的好壞是由積累數(shù)據(jù)數(shù)量決定的,而服務于臨床的大模型之所以難做,主要是數(shù)據(jù)比較難收集。一方面,像金融等行業(yè)一樣,醫(yī)學領域數(shù)據(jù)面臨隱私保護問題;另一方面,醫(yī)療過程涉及臨床檢驗、診斷等多個環(huán)節(jié),做一個全覆蓋的泛醫(yī)療大模型,效果很難理想,倒不如聚焦某一環(huán)節(jié)做扎實。
但話說回來,數(shù)據(jù)收集還不是最難的環(huán)節(jié)。“最難的并不是說誰有什么數(shù)據(jù),誰有什么模型,難的是要有一組人能夠確切地、客觀地了解信息學和生物學兩個方面”,這組人也就是業(yè)內(nèi)所稱的“復合型人才”。
陳潤生告訴《每日經(jīng)濟新聞》記者,大模型為多組學分析提供平臺,實際上是搭建了一個復雜的神經(jīng)網(wǎng)絡,就像人類儲存知識取決于每個神經(jīng)元的閾值,以及神經(jīng)元與神經(jīng)元間連接的權,每有一次知識輸入,這兩個參數(shù)都會發(fā)生變化。當知識反復輸入,而兩個參數(shù)不再發(fā)生變化時,就意味著達到“學會了”的狀態(tài)。而大模型學習、存儲知識的過程也與此類似,技術人員可以按照這一規(guī)律先后拿基因組數(shù)據(jù)、轉(zhuǎn)錄組數(shù)據(jù)、蛋白組數(shù)據(jù)訓練大模型,最終讓復雜網(wǎng)絡實現(xiàn)多組學數(shù)據(jù)的相互作用,也就是多模態(tài)融合。
圖片來源:視覺中國-VCG11385119793
不過,在實踐過程中,如何填平結(jié)構網(wǎng)絡技術人員與生物信息學研究人員之間的認知Gap(差距),還是國內(nèi)外企業(yè)共同面臨的難題,而這也促成了具有資源整合優(yōu)勢的頭部科技企業(yè)的成功,比如OpenAI和Google。
與此形成鮮明對比的,是國內(nèi)的“百模大戰(zhàn)”。去年11月15日,百度董事長兼首席執(zhí)行官李彥宏在深圳西麗湖論壇上表示,國內(nèi)已經(jīng)發(fā)布了238個大模型。這意味著,在進入2023年的兩百多天里,平均每天都有一個大模型問世,但基于大模型開發(fā)出來的AI原生應用卻非常少。
陳潤生也關注到了這一現(xiàn)象,并且表現(xiàn)出明確反對態(tài)度。他認為,那么多大模型更像是一種噱頭,一味宣傳數(shù)量帶來的只是進一步內(nèi)卷,最終導致人力和資源浪費。相應的部門應當考慮這些大模型之間的協(xié)同與整合問題,“‘各自為戰(zhàn)’效率肯定是低的”。
無論在大模型等工具層面,還是在基因編輯、細胞治療等創(chuàng)新技術、具體療法的創(chuàng)新適應癥上,中國企業(yè)的身影并不多,但中國是生物信息學基礎研究大國。
根據(jù)第三方平臺“科研貓”統(tǒng)計數(shù)據(jù),2021年,全球生物信息學類發(fā)表期刊文章超過6700篇,來自中國科學家的論文數(shù)量超過4600篇,其中來自內(nèi)地的共4518篇,占比超66%,數(shù)量和占比遠超歐美發(fā)達國家。
過去,許多論文發(fā)表后被束之高閣,成果轉(zhuǎn)化的路并不順暢,陳潤生對此深有體會。“以前腦子里沒這個概念,科學家發(fā)了Paper(論文),發(fā)現(xiàn)某個靶點與腫瘤有關,但不會想到要把它變成一個藥,走不過這一步,所以我們沒法在成果端看到。”
如何補齊這一差距?陳潤生認為,最重要的是要建立一套更有效的轉(zhuǎn)化機制,最好是在大學內(nèi)部有專利團隊、法律團隊等“接口”,更便利地實現(xiàn)國內(nèi)現(xiàn)有基礎研究成果的轉(zhuǎn)化。以美國為例,在擁有雄厚科研力量的基礎上,基礎研究成果的產(chǎn)權問題由多項法案厘清,技術轉(zhuǎn)讓從最初的評估到最后的收入管理,則有高水平、專業(yè)化和系統(tǒng)化的“一條龍”服務。
值得一提的是,雖然美國的產(chǎn)業(yè)化轉(zhuǎn)化效率較高,但科學家創(chuàng)業(yè)熱情似乎不大、失敗率也較高。美國巴士底有限公司CEO布拉德利•拉尚接受媒體采訪時曾表示,美國高校教授嘗試創(chuàng)辦的公司,往往以驚人的速度倒閉,失敗率高達96%—97%,主要原因是科學家對自己領域的研究和專業(yè)知識充滿熱情,但缺乏管理經(jīng)驗;而隨著公司經(jīng)營受挫,技術也常常丟失。
陳潤生對此已有深刻的認知。為了加快科學成果在產(chǎn)業(yè)上的轉(zhuǎn)化速度,陳潤生作為“參謀”加入了翊博生物的DC細胞(樹突狀細胞,目前已知的體內(nèi)調(diào)節(jié)功能最強的抗原提呈細胞)前端的科研工作。陳潤生表示,DC細胞是免疫系統(tǒng)和疾病相關免疫研究的重要領域,是公司的主要研究方向。如何讓DC細胞發(fā)揮更大的作用,其對遺傳密碼的認知能派上用場。
“在推進科學轉(zhuǎn)化時,我們更多了解到公司的運營規(guī)律,深深體到我們不適合干那個(管理),我們的角色永遠是技術提供者。各取所長、分工協(xié)同,對于公司持續(xù)發(fā)展非常重要。”陳潤生坦言。
而這也符合陳潤生給自己的定位——一個純粹的科學家。他認為,不管時代怎么變,科學家精神是不變的,但也要有變的東西,比如順應發(fā)展的“四個面向”精神,要堅持面向世界科技前沿、面向經(jīng)濟主戰(zhàn)場、面向國家重大需求、面向人民生命健康,不斷向科學技術廣度和深度進軍。
另外,復合型人才的培養(yǎng)也是新時代提出的新命題。目前,BT(生物技術)和IT(信息技術)相結(jié)合是適應國際科學發(fā)展的明確信號和趨勢,但“要產(chǎn)生復合型人才,必須得有復合型人才去教”,可目前國內(nèi)符合條件的導師個體卻比較少。陳潤生認為,如果能建立一個具有融合特征的復合型導師團隊,會是一條不錯的探索路徑。
記者手記 | 一位83歲的科學家,很“年輕”
“科學家們就是要有科學精神,要真正地、老老實實地去學知識,達到一定深度了才能從事這個領域的工作。而不是說有萬能科學家,聽什么都懂,實際上是做不下去的。”
“您認為的科學家精神是什么?”
“我理解的‘科學家精神’就是鉆研科學規(guī)律,探索科學真理,實事求是地去了解客觀。”
初見陳潤生,會不自覺地被他中氣十足的聲音吸引,然后忘記他是一位83歲的老人。在陳潤生的身上,年齡似乎真的只是一個數(shù)字。
他告訴記者,自己依然每天看書,人工智能和大模型相關知識都是一點點自學的。“不能放棄學習,這是我們做科研的基本素質(zhì)。哪天不學習了,你肯定就跟不上了,這是一個自覺。”他笑著告訴記者,老了跟不上潮流很正常,但只要想跟上潮流,就必須強迫自己學習。
當然,這也是為了和年輕人交流。36年來,陳潤生一直堅持在中國科學院講授生物信息學,能容納千人的禮堂經(jīng)常座無虛席,不論專業(yè)是“數(shù)理化”還是“天地生”,研究生院的學生幾乎都去聽過陳潤生的課。這是一種令人羨慕的能力和魅力。
陳潤生慷慨地把其中的“秘訣”分享給記者:自己不是在講課,而是在與聽眾朋友交流,以學術為基礎來把方法論和感悟傳承下去,“共同去了解客觀”。
“你傳遞給人的是有用的東西,有用大家才聽,大家感興趣才聽。這里面除了知識之外,就是一種態(tài)度和交流,這很重要。”陳潤生說。
如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權,嚴禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關注每日經(jīng)濟新聞APP