首頁娛樂健康美食旅遊體育遊戲搞笑親子寵物歷史文化科學正能量辟謠國風動漫漫畫時尚家居生活健身養生孕產情感星座

AI們數不清六根手指（不是畫畫），這事沒那麼簡單。

來源：果殼更新：07-18 06:24

7月10日Grok4發佈完以後，我隨手刷了一下X。

然後看到了一個非常有趣的帖子，來自@lepadphone。

我以爲，這就是Grok4的問題，模型能力不太行，把一個惡搞的6根手指，數成了5根。

我自己也去測了一下，確實數是5根。

我本來沒當回事。

直到，我隨手扔到了OpenAI o3裏，發現，事情開始不對了起來。因爲，o3回覆，也是5根手指。

我瞬間皺了眉頭，然後扔給了o3 pro。

在推理了48秒之後，還是5根。

然後我又把這張圖扔給了豆包、kimi、Gemini等等所有的有多模態的模型。

而無一例外，所有的模型，給我回復的，都是5根。

唯獨有一個活口，Claude 4，偶爾會回答正確。

瞬間一股子冷汗就下來了。

一個模型數錯了，可能是幻覺，所有的模型都數錯，那，模型的底層肯定有一些問題。

深夜在羣裏試圖問了一下，結果石沉大海。

那就只能靠自己了，再搜了一堆資料，用DeepReaserch做了深度搜索以後，我找到了一篇能完美解答這個現象的論文。

《Vision Language Models are Biased》（視覺語言模型存在偏見）

這篇論文發表於今年5月29號，至今也才1個多月的時間，還蠻新的。

我花了一些時間，連夜學習完了這篇論文，我覺得，還是有一些有趣的知識可以寫給大家看看。

這篇論文，最核心的觀點就是：

大模型，其實從來都沒真的在看圖片。

是的，AI們根本就沒有用眼睛看世界，它們用的是記憶。

我給你舉個生活化的例子。

我相信大家一定在各種社交媒體上看過一些搞笑的山寨商品。

比如，不知道大家有沒有買到過這個。

雷碧。

你不止能買到雷碧，還能買到農夫山賊，白事可樂。

我相信很多人買到山寨品，除了確實圖便宜之外，更多的人，還是因爲：

沒注意細看。

因爲我們腦子裏，看到綠色瓶子的清爽檸檬味汽水，就會非常自然的覺得，哦這是雪碧。

但，你的雪碧也可能是雷碧。

我們爲什麼這麼容易看錯，原因其實特別簡單，也特別扎心。

因爲人類大腦在識別世界的時候，並不總是用眼睛。

我們很多時候，憑的都是記憶，或者更準確地說，是一種印象。

就像你每天上班會經過一家熟悉的包子鋪，你可能從未認真地盯着包子鋪的招牌細看，每次走過時，你只會隨便掃一眼，確認一下顏色、字體，然後大腦迅速告訴你：

“是的，沒錯，這就是那個你天天濾過的熟悉的包子鋪。”

直到有一天，這家店鋪其他的都沒變，但是悄悄的，把招牌從包子鋪改成了，勺子鋪，說實話，你可能根本不會發現。

除非哪天你特別閒，盯着招牌看了幾秒鐘，你纔會忽然驚呼。

臥槽，老子的包子店呢？？？

這個認知機制，就是人類大腦的快速決策機制。

它能幫你迅速處理日常生活中絕大多數無關緊要的信息，避免你陷入無止境的分析和糾結。

但這種機制也有代價，那就是容易被偏見矇蔽雙眼。

而我們如今引以爲傲的視覺理解大模型，正在用一模一樣的機制看待世界。

在論文《Vision Language Models are Biased》裏面，研究人員做了一個特別簡單的實驗：

他們給頂級AI模型看了一張阿迪達斯運動鞋照片，這雙鞋上的三條經典斜紋，被悄悄多加了一條，變成了四條。

但當研究人員問AI：“請問這雙阿迪達斯鞋上的條紋有幾條？”

所有的AI模型，包括Gemini-2.5 Pro、o3、GPT-4、Claude 3.7，通通斬釘截鐵地回答：

“3條！”

哪怕你再三強調請只根據圖片回答，不要憑印象，AI們依然不爲所動，還是固執地回答3條。

還有更好玩的。

研究人員展示了5條腿的獅子、3條腳的鳥、5條腿的大象、3只腳的鴨子、5條狗的腿。

當時最頂級的大模型們，幾乎全軍覆沒。

可憐的平均準確率，只有2.12%。

100次，

相關推薦

請使用下列任何一種瀏覽器瀏覽以達至最佳的用戶體驗：Google Chrome、Mozilla Firefox、Microsoft Edge 或 Safari。為避免使用網頁時發生問題，請確保你的網頁瀏覽器已更新至最新版本。

Scroll to Top