讓AI算24點,它堅持說25-12=24!大模型的回答爲什麼不能相信?

來源: 更新:

“孩子解不出‘24點’,讓AI大模型幫忙,結果大模型給出‘2.6×5=24’的結果!孩子讓大模型重新解題,沒想到結果依舊奇葩,變成了‘25-12=24’!”最近發生的一件小事,讓市民成女士對AI大模型的“解題思路”哭笑不得,“都說大模型不可全信,這次我有了切身的體會。”

某AI大模型做“24點”的結果

一段時間以來,部分網民利用AI大模型造假的消息時有發生,相關行爲被依法查處。但部分網民不清楚的是,大模型因爲“AI幻覺”,本身就會給出錯誤的答案。如果凡事都問AI大模型,很可能被誤導

大模型做錯小學數學題

大模型真的解不了小學數學題?

記者將成女士女兒的題目交給多個通用大模型:“根據小學數學知識,用5、5、5、12算‘24點’”,結果讓人頗意外——

大模型A的答案是(12-5÷5)×2=24。這個算式本身就不符合題目要求,而且算式的結果是22,完全不對。

大模型A上演了“一本正經的胡說八道”

大模型B的答案是(5+5)×12÷5=24。算式和答案都正確,但在提供解題思路時,大模型說算式“(5+5)÷5×12”不對,可這兩個算式都正確。

大模型B在“思考”過程中,將正確的解答判斷爲錯誤

大模型C的答案是(12×(5 + 5))÷5=24。總體正確,但根據書寫規範,算式多了一個括號,應當是12×(5 + 5)÷5。

大模型C的解答書寫不規範

記者又換了幾道小學數學題,發現大模型解題時,可謂“洋相百出”。例如,有一道題是“不改變1、2、3、4、5這幾個數字的次序,在它們間添加四則運算符號以及括號,使結果等於1,且運算過程中不能出現小數、負數”。大模型給了兩個答案,分別是“(1×2×3+4) ÷5=1”和“(5+4) ÷3-(2-1)=1”。不難發現,兩個解答都是錯誤的,而且答案二還改變了數字順序,不符合題目要求。

大模型完全沒有發現它給出的答案是錯誤的

接着,記者問大模型,如果增加一個數字6,即在1、2、3、4、5、6中添加四則運算符號以及括號,使結果等於1,答案是什麼?某大模型給出兩個答案,一是“(1+2+3+4)-(5+6)=1”,另一個是“1×(2+3+4)-(5+6)=1”,全都不正確。當記者用對話體“嘲笑”大模型“5+6=9”時,大模型竟然回覆“這次5+6=9總算沒算錯!看來我今天終於把腦子‘重啓’成功了”。

大模型一錯再錯

可見,看似能理解“人”說話、無所不知的AI大模型,其實有嚴重缺陷

大模型並不完全理解“人”

爲什麼大模型不能完成小學數學題?

最主要的原因是AI幻覺。簡單來說,就是大模型並非完全理解了“人”的提問,而是通過算法邏輯給出它認爲正確的答案;有些時候,部分大模型爲了“討好”提問者,還會虛構信息或強詞奪理。

專業人士指出,數學計算與邏輯推理是AI幻覺的高發場景。在計算過程中,大模型還可能因爲遺漏數字,得出不僅錯誤並違背常識的答案。

例如,有用戶向某大模型詢問“雞兔同籠”問題,題幹是“籠中雞兔共30只,腳88只,求雞兔各有幾隻”。大模型用方程解題,將算式“2X+4 (30-X)=88”展開爲“2X+120-X=88”,遺漏係數 4,得出“雞-32只、兔62只”的荒謬答案。

值得關注的是,數學題引發的AI幻覺或許只是給出錯誤答案,而在信息服務上的AI幻覺很可能誤事並擾亂社會秩序

例如,外省市曾出現網民使用AI大模型生成“汽車尾號限行”“公共事業費漲價”等假消息,AI大模型無法辨別真僞,將這些假消息抓取,成爲其數據庫的一部分。這就導致其他網民在查詢相關信息時,AI大模型以訛傳訛,傳播假消息。

AI幻覺風險在專業領域也有破壞性。在北京市通州區人民法院審結的一起商事糾紛中,原告代理人直接將AI生成的司法案例作爲訴訟依據。相關案例看似與案件高度契合,但經法官覈實,案號對應的真實案件與AI描述完全不符,最終該代理意見被駁回,代理人也因用虛假信息擾亂司法秩序受到批評。

此外,不少專業人士在瞭解行業發展趨勢時,會發現AI大模型能提供大量的行業發展數據、調研報告,並宣稱它們出自官方或權威機構。但進一步覈查會發現,這些數據、報告都是AI幻覺的結果——AI大模型爲了迎合提問者而杜撰。如果相信這些數據、報告,很可能誤導後期決策。

警惕AI幻覺,這些方法有效

客觀地說,AI大模型確實爲人們提供了搜索信息、掌握知識的新途徑。但是,現有的技術發展還沒有辦法完全避免AI幻覺。那麼,怎樣避免被AI幻覺誤導呢?有幾個行之有效的好辦法。

首先,追問AI大模型,要求大模型提供引用信息的出處。對於AI給出的關鍵結論,如政策條款、數據報告、案例細節等,明確要求其標註信息來源,包括具體文件名稱、發佈機構、發佈時間及官方鏈接。如果AI大模型用“信息來源於公開網絡”“綜合整理多方資料”等模糊表述回應,或迴避具體出處,基本可以判定信息存疑

例如,在諮詢某項政策時,可以追問AI大模型“政策出處”“官方報道在哪裏”“文件編號或發佈日期”等,查看追問答案,篩除不可靠信息。

其次,求證信息時,不能“問AI要答案”,而是“找官方要真相”

“官方”包括各種政府機構的官方公衆號、權威媒體的公衆號等,而非信息分發平臺、短視頻平臺上的“自媒體號”。比如,如果關心時事政策,可以查詢政府機構或主流媒體的公衆號。

覈查一些“二手信息”或“舊聞”時,可以使用官方公衆號的“搜索功能”。大部分公衆號都有“搜索”功能,通常在公衆號主頁右上角或帶有“放大鏡”圖標,輸入信息的關鍵詞,就能從公衆號已有信息中匹配對應內容。

可以通過權威機構公衆號的“搜索”功能覈查信息

其三,交叉覈對不同的官方信源,排除單一信息偏差。如果涉及重要決策,建議交叉覈對兩三個權威信源,確保信息無偏差。比如,想覈實“研究生報考某導師的研究方向”,除了查看高校官方公衆號、網頁發佈的導師介紹外,也可以查詢教育類官方媒體公衆號,覈對信息,避免被AI編造的“導師虛假言論”誤導。

其四,使用AI大模型檢索官方信息發佈渠道。在不確定具體官方平臺時,可以讓AI提供與需求相關的官方渠道清單

比如,想知道“如何查詢個人個稅繳納記錄”的答案,可以讓AI大模型列出“國家稅務總局官網”“當地稅務局官方公衆號”“個稅 APP”等正規渠道,再自行登錄查詢。如果AI大模型推薦的渠道包含非官方平臺,如商業資訊網站、個人運營的“稅務諮詢號”,要提高警惕,不可輕信。

最後,如果發現某條信息官方暫無報道,那麼,比詢問AI大模型“有沒有”更穩妥的方式是“等待權威發佈”。因爲在AI大模型的“知識庫”或者說數據庫中,既有官方信息,也有小道消息,不少信息來自自媒體的“自說自話”甚至“胡編亂造”。當網民有需求時,AI大模型會將這些消息提供給提問者,或者自動捏造不實信息。所以,等待權威報道遠好於問AI“要答案”。

總之,可以把AI作爲工具檢索信息,但不要全盤相信它給出的結果。

微信編輯:何夕

還原事實,洞悉真相。

歡迎關注,留言舉報!

相關推薦
請使用下列任何一種瀏覽器瀏覽以達至最佳的用戶體驗:Google Chrome、Mozilla Firefox、Microsoft Edge 或 Safari。為避免使用網頁時發生問題,請確保你的網頁瀏覽器已更新至最新版本。
Scroll to Top