靠大模型就能看病?專家說:還不行

來源: 更新:

《自然-醫學》發表的一項研究指出,大語言模型(LLM)或許不能協助公衆作出更好的日常健康決策。

全球醫療機構提議將LLM作爲提升公衆獲取醫療信息的潛在工具,讓個人在向醫生求助前,先由LLM進行初步健康評估和疾病管理。但研究顯示,即使在醫師資格考試中得分很高的LLM也並不保證能有效完成真實世界的交互。

研究團隊對LLM進行了測試,看其是否能協助公衆精準辨別醫療病症——如普通感冒、貧血或膽結石——並選擇一種行動方案,如呼叫救護車或聯繫全科醫生。作者給1298名英國受試者每人指派了10種不同醫療情景,並讓他們隨機使用三個LLM中的一個,或使用他們的常用資源(對照組),如互聯網搜索引擎,來辨別自己的疾病並選擇行動方案。

不用人類受試者進行測試時,LLM能準確完成這些情景,平均能在94.9%的情況下正確辨別疾病,在56.3%的情況下選擇正確的行動方案。不過,當受試者使用相同的LLM時,相關病症的識別率低於34.5%,選擇正確行動方案的情況低於44.2%——該結果未超過對照組。

作者人工檢查了人類與LLM交互中的30種情況發現,受試者向模型提供的信息常常不完整或不準確,而且LLM有時也會生成誤導性或錯誤的信息。因此,當前的LLM尚未準備好直接用於患者醫療,因爲將LLM與人類用戶配對會產生現有基準測試和模擬交互無法預測到的問題。

相關推薦
請使用下列任何一種瀏覽器瀏覽以達至最佳的用戶體驗:Google Chrome、Mozilla Firefox、Microsoft Edge 或 Safari。為避免使用網頁時發生問題,請確保你的網頁瀏覽器已更新至最新版本。
Scroll to Top