AI vs 醫生“各贏一局”:篩查快準狠,問診常“露怯”

來源: 更新:

先進AI模型在專業醫學考試中表現優異,那麼,真實場景下的AI醫生究竟靠譜嗎?

最新研究表明,AI模型在輔助疾病篩查等方面能夠發揮重要作用,但在與患者交流、收集病史並作出準確診斷等醫生最關鍵的任務上,仍然表現不佳。

AI加速癌症篩查

在由德國呂貝克大學教授亞歷山大·卡塔利尼奇團隊牽頭的一項迄今爲止規模最大的相關研究中,AI有助於放射科醫生在每1000例篩查中額外發現1例乳腺癌患者。

研究人員與近200位具備專業資質的放射科醫生合作,評估了這款可識別乳腺癌徵兆的AI模型。研究覆蓋了2021年7月至2023年2月在德國12個乳腺癌篩查中心進行的共計46萬餘名女性的篩查記錄。

實際操作中,放射科醫生可自主選擇是否使用AI輔助診斷。最終,約26萬名女性的篩查結果由AI與醫生共同評估,其餘20萬餘人則由醫生單獨判斷。結果顯示,使用AI輔助診斷的醫生檢測出乳腺癌的比率爲每千人6.7例,較未使用AI輔助的檢出率提高了約17.6%。

此外,在疑似患癌的女性接受活檢的案例中,AI輔助診斷的準確率也更高——其中64.5%的活檢結果證實爲惡性腫瘤,而未使用AI的活檢確診率爲59.2%。“AI在提升乳腺癌檢出率方面的表現超出預期。”卡塔利尼奇表示。

該研究得到了人工智能公司Vara的技術支持。公司首席技術官斯特凡·邦克表示,原本的研究目標是驗證AI在癌症診斷上的表現“不劣於”放射科醫生,由此證明AI在減輕醫生工作負擔上具備應用潛力。但最終結果證明,AI在某些方面的表現甚至“優於人類”。

儘管AI在醫療領域應用前景廣闊,但也引發了部分擔憂。一些專家指出,過度依賴AI可能導致漏診,或造成醫療資源分佈不均——經濟條件好的患者才能享有醫生的親自診療。

此外,研究還發現,當AI先行判斷某張醫療影像爲“正常”(即不太可能存在癌症風險)時,放射科醫生在審閱這類影像時平均僅花16秒;而對於AI無法明確判斷的影像,醫生平均花費30秒審閱。這提示我們,AI的判斷可能會潛移默化地影響醫生的注意力分配。

不過,英國帝國理工學院教授本·格洛克認爲,研究結果印證了在使用策略得當的情況下,AI是安全且有效的。格洛克肯定了該項研究允許醫生自主決定是否使用AI的做法,並呼籲進行更多類似的“真實世界”研究。

他指出,單靠實驗室模擬無法全面評估AI的臨牀價值,應更多地從實際應用中積累經驗。“這項研究進一步證明了AI在乳腺癌篩查中的優勢,也再次提醒政策制定者應加快相關技術的推廣步伐。”

AI看病輸在交流

哈佛大學生物醫學信息學系助理教授普拉納夫·拉傑普爾卡與同事一起開發了一種名爲CRAFT-MD的AI評估工具,該工具基於2000個來自美國醫學執照考試的病例構建,用於測試臨牀AI模型在模擬醫患對話場景中的推理能力。

實驗表明,四種主流大型語言模型——OpenAI的GPT-3.5和GPT-4、Meta的Llama-2-7b以及法國開源AI公司Mistral的Mistral-v2-7b——在醫患對話場景中的診斷表現,明顯不如它們根據書面病例的診斷表現。

例如,當GPT-4被提供結構化的病例摘要,並可從多個選項中選擇診斷結果時,其診斷準確率高達82%。但當它根據模擬患者對話進行診斷時,準確率驟降至26%。“大語言模型善於做選擇題,一旦進入動態對話場景,診斷準確率則大幅下降。”拉傑普爾卡說。

此外,這些AI模型在相當大比例的對話中未能完整獲取患者病史。即使是表現最好的GPT-4,也只在71%的模擬對話中成功獲取了患者的完整病史。即便成功收集到相關病史,這些AI模型也無法總是給出正確的診斷結果。

相關推薦
請使用下列任何一種瀏覽器瀏覽以達至最佳的用戶體驗:Google Chrome、Mozilla Firefox、Microsoft Edge 或 Safari。為避免使用網頁時發生問題,請確保你的網頁瀏覽器已更新至最新版本。
Scroll to Top