亚洲永久免费/亚洲大片在线观看/91综合网/国产精品长腿丝袜第一页

每日經濟新聞
要聞

每經網首頁 > 要聞 > 正文

評分高達92.6%!谷歌AI醫療大模型重磅論文登上《自然》:水平媲美臨床醫生,但承認臨床應用前仍有限制需克服

每日經濟新聞 2023-07-13 22:01:06

◎ 谷歌醫療大模型Med-PaLM的回答獲得評分高達92.6%,與現實中臨床醫生的水平(92.9%)相當。

每經記者 蔡鼎    每經編輯 蘭素英    

“AI醫生”,離我們越來越近了。

7月12日,谷歌和DeepMind的科研人員在《自然》雜志上發表了一項研究,不僅提出了MultiMedQA(美國醫師執照試題)評估基準,用于評估大語言模型在編碼臨床知識方面的表現,還詳解了谷歌醫療大模型Med-PaLM的進化過程。

最終的研究結果顯示,一組臨床醫生對谷歌和DeepMind團隊的醫療大模型Med-PaLM回答的評分高達92.6%,與現實中人類臨床醫生的水平(92.9%)相當。此外,Med-PaLM僅5.9%的答案被評為可能導致“有害”結果,與臨床醫生生成的答案(5.7%)的結果相似。

盡管如此,該研究團隊承認,鑒于現實醫學領域的復雜性,在Med-PaLM實現大規模應用前,仍需克服不少限制。

谷歌醫療大模型Med-PaLM幾乎可媲美人類醫生

在這篇最新的《自然》論文中,谷歌和DeepMind科學家團隊介紹了全新的MultiMedQA評估基準,專門用于評估大語言模型在編碼臨床知識方面的表現

該基準結合了六個現有醫療問答數據集(MedQA 、MedMCQA 、PubMedQA、LiveQA 、MedicationQA和MMLU),涵蓋專業醫學、研究和消費者查詢等多個方面,以及一個全新的在線搜索醫療問題庫數據集HealthSearchQA,力圖從多方面把AI培養成一名合格的醫生。

此外,該團隊提出了一個基于人類評估的框架模型,該模型包括多個維度,例如事實、理解、推理,以及可能的偏見。

該團隊在MultiMedQA上對擁有5400億參數的谷歌大型語言模型PaLM(Pathways Language Model)及其變體Flan-PaLM進行了評估。

在實驗中,研究人員采用了提示策略組合,Flan-PaLM在每個MultiMedQA多選題數據集上都達到了極高的準確率,其中在MedQA(美國醫學執照考試類型問題)上的準確率為67.6%,比之前的技術水平高出17%以上。

圖片來源:《自然》

論文指出,雖然Flan-PaLM在MedQA的多項選擇題上表現出色,但它對病人醫療問題的回答卻暴露出關鍵的差距。為了解決這個問題,谷歌科學家團隊提出了指令提示調整,讓Flan-PaLM進一步與醫學接軌,產生了Med-PaLM。

在評估中,Med-PaLM表現令人鼓舞,一組臨床醫生對其回答的評分為92.6%,與現實中臨床醫生的水平(92.9%)相當。

圖片來源:《自然》

除了專家評估,研究團隊還邀請了五名非醫學領域專家(印度的非醫學背景普通人)來評估答案。

結果顯示,Flan-PaLM給出的答案在60.6%的案例中被認為是有用的,而Med-PaLM給出的答案準確度則增加到80.3%。同樣,在90.8%的情況下,Flan-PaLM的答案被判斷為直接解決了病人提出的問題,而Med-PaLM將這一比例提高到了94.4%,人類臨床醫生這一比列則在95.9%。換句話說,在直接解決病人問題方面,Med-PaLM幾乎可以和人類臨床醫生的能力相媲美。

圖片來源:《自然》

論文稱,雖然這些結果非常令人鼓舞,但現實中的醫學領域是相當復雜的。因此,還有必要對該大語言模型進行進一步評估,特別是在安全性、公平性和偏見方面。在將這些模型運用到臨床應用之前,還有許多限制需要克服。研究人員預計最新的這項研究將激發患者、消費者、AI研究人員、臨床醫生、社會科學家、倫理學家、政策制定者和其他利益相關方之間進一步對話和合作,從而負責任地將這些早期研究成果轉換為真正的現實應用。

但不可否認的是,谷歌科學家團隊的研究表明,隨著模型規模的擴大和提示詞的調整,其理解能力、知識回憶和推理能力均有所提高,這表明大語言模型在醫學領域具有潛在的實用性。此外,研究團隊的人類評估也揭示了當今大語言模型的局限性,也強調了評估框架和方法在為臨床應用創建安全、有用的大語言模型方面的重要性。 

AI醫療市場五年內或破千億美元,科技巨頭紛紛布局

基礎模型和大語言模型的出現為醫學AI的發展提供了助力。《每日經濟新聞》記者注意到,其實除了谷歌和其旗下的DeepMind外,微軟、IBM等科技大廠一直在持續關注AI醫療方面的應用落地。在這輪大模型浪潮之前,AI檢測心電圖、X光片已在一些醫院中投入應用。

IBM官網對醫學領域AI的介紹

過去數年來,AI在醫療領域的發展迅猛,為醫療行業帶來了革命性的變革和巨大的潛力。

根據麥肯錫咨詢的數據,AI每年可以創造3.5萬億至5.8萬億美元的商業價值。預計到2025年,全球AI應用市場總值將達到1270億美元,其中AI醫療占據1/5的份額,處于高速成長階段。

知名市場調研公司ReportLinker此前針對全球醫療保健AI市場的年度報告曾預測,全球醫療保健AI市場規模將從2023年的146億美元增長到2028年的1027億美元,期間復合年增長率為47.6%。

中國AI產業發展迅速,自2019年以來,AI醫療以40%~60%的增速快速發展,中國的AI醫療核心軟件市場規模已接近30億元,并且還有重資產性質的AI醫療機器人,總體規模接近60億元。

中泰證券在一份研報中指出,AI+醫療/醫藥未來空間廣闊,當下值得重點關注。該研報指出,AI病理、AI影像和AI制藥均是未來可能的應用領域。

中泰證券認為,傳統病理診斷方法主要依靠人工閱片分析提供依據,自動化程度低,耗時長效率低,且診斷正確與否比較依賴醫生閱片經驗以及主觀判斷;另一方面病理醫生培養周期長,從業門檻高,地域資源分布不均勻,供需極度不平衡,影響了行業整體的發展節奏。相比于傳統的病理診斷,AI輔助有望提升閱片速度、提高診斷精準度,加速市場擴容,是未來的行業趨勢。

圖片來源:中泰證券

“近年來,AI病理領域的監管條例、審核標準逐漸規范,技術應用越發成熟,我們預計 2023年首批AI病理診斷三類證有望獲批,行業有望率先在細胞病理領域迎來商業化拐點,當前正是布局的最佳時點,技術積累深厚,入院能力強的頭部玩家占據明顯優勢,有望帶動產品加速商業化放量。”中泰證券分析師在上述研報中寫道。

封面圖片來源:視覺中國-VCG111424718601

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。

Ai 醫療 谷歌 人工智能

歡迎關注每日經濟新聞APP

每經經濟新聞官方APP

0

0