ChatGPT能當“網絡醫(yī)生”嗎?新研究揭示了它的醫(yī)療問診能力與短板
在人們感到身體不適時,越來越多的人開始求助于ChatGPT等生成式人工智能來“自我診斷”。但這些AI給出的健康建議究竟有多靠譜?一項近期發(fā)表在《iScience》期刊的研究給出了初步答案,結果既令人驚喜,也揭示出值得警惕的問題。
這項研究由美國紐約州賓厄姆頓大學托馬斯·J·沃森工程與應用科學學院系統(tǒng)科學與工業(yè)工程學院的研究員Ahmed Abdeen Hamed主導,聯(lián)合波蘭AGH克拉科夫大學、霍華德大學和佛蒙特大學的科學家共同完成。
Hamed此前開發(fā)了一種名為“xFakeSci”的機器學習算法,能夠識別出高達94%的虛假科學論文,比現(xiàn)有常規(guī)數(shù)據(jù)挖掘方法準確率高出近一倍。他希望這項新研究能作為驗證大語言模型(LLMs)在生物醫(yī)學領域生成能力的下一步。
“現(xiàn)在很多人會直接對ChatGPT說:‘我有這些癥狀,是不是得癌癥了?是不是心臟病?該不該去看醫(yī)生?’”Hamed表示,“這其實非常危險,所以我們想測試一下,ChatGPT到底會給出什么樣的回答,以及這些回答是否能在生物醫(yī)學文獻中被驗證。”
研究團隊以疾病相關術語為核心,測試了三類醫(yī)學關聯(lián)信息:藥物名稱、基因信息以及癥狀描述。結果顯示,在識別疾病、藥物和基因方面,ChatGPT的準確率分別達到了88%~97%、90%~91%、以及88%~98%,表現(xiàn)遠超研究人員最初“25%左右”的預期。
“讓人驚訝的是,ChatGPT能正確識別‘癌癥是疾病’、‘高血壓是疾病’、‘發(fā)燒是癥狀’、‘瑞德西韋是藥物’,還能識別‘BRCA是與乳腺癌相關的基因’——這太不可思議了!”Hamed說道。
然而,在識別“癥狀”這一項上,ChatGPT的表現(xiàn)明顯遜色,準確率僅為49%~61%。研究人員分析,這可能與模型訓練的數(shù)據(jù)風格有關。醫(yī)生和科研人員習慣使用結構化的醫(yī)學本體(biomedical ontologies)來定義術語及其關系,而普通用戶則常用口語化表達。
“ChatGPT傾向于用更貼近大眾的語言交流,而不是學術文獻中的專業(yè)術語?!盚amed解釋道,“這可能導致模型在簡化醫(yī)學語言的過程中丟失了一些精確性。”
更令人困惑的是,當研究人員要求ChatGPT提供特定基因的數(shù)據(jù)庫編號(如BRCA1的編號為NM_007294.4)時,AI竟然“編造”出了看似合理卻完全不存在的編號。研究人員將這一現(xiàn)象稱為“幻覺”(hallucination),即AI憑空生成錯誤信息。
對此,Hamed指出:“也許我們可以考慮將真實的生物醫(yī)學本體引入到LLM訓練中,從而提高其準確性,消除幻覺現(xiàn)象,讓這些工具真正變得強大且可靠?!?/p>
Hamed自2023年開始關注ChatGPT,并意識到其在“事實核查”方面的局限。他希望通過暴露模型的缺陷,幫助數(shù)據(jù)科學家不斷優(yōu)化改進。
“當我試圖構建知識體系時,我必須確保剔除所有可能存在問題的信息,才有可能建立起真正可信的理論框架?!盚amed表示。
參考文獻:Ahmed Abdeen Hamed et al, From knowledge generation to knowledge verification: examining the biomedical generative capabilities of ChatGPT,?iScience?(2025).?DOI: 10.1016/j.isci.2025.112492
編輯:周敏
排版:李麗


本文系作者 @TIMEDOO 原創(chuàng)發(fā)布在 肽度TIMEDOO。未經許可,禁止轉載。