都別爭了,放着我來:Gemini 3生成一切
終於,在吊了大家很久胃口之後,昨晚 Gemini 3 上線。用近乎恐怖的實力,碾壓各大模型。
一句話就能生成 3D 模型、做網站,甚至做一個開放世界遊戲……
現在,進入 Google AI Studio,你就能直接體驗 Gemini 3 Pro 預覽版。至於面向更加大衆的 Gemini 網站和 app,也會很快上線。
我不是針對誰,我是說在座的各位……
Gemini 3 Pro 曬出成績單,它不僅完全把前輩 Gemini 2.5 Pro 拍死在沙灘上,還在除“解決真實 GitHub 問題(SWE-Bench Verified)”這一項之外,全面碾壓了 Claude Sonnet 4.5 和 GPT-5.1。
這就好像一個班裏有幾個語數外偏科的尖子生,這時候來了一個各科滿分的三好生小霸王,你說氣人不?嚇人不?
學霸的成績單裏,有幾項值得重點關注。
ARC-AGI-2 這一項,Gemini 3 Pro 以 31.1% 的成績斷層領先第二名的 Claude Sonnet 4.5。這是用來檢驗 AI 抽象推理能力的高難度測試,被認爲是檢驗通用人工智能水平的重要標準。
AIME 2025 和 MathArena Apex 代表的是解決數學問題的能力。其中,Gemini 3 Pro 在 MathArena Apex 這一項拿下了 23.4% 的分數。別看分數不高,對手們只有不到 2%,可能是連題目都還讀不懂呢。
ScreenSpot-Pro 和 Vending-Bench 2 這兩項就有意思了。前者用來評估 AI 能否像人類一樣看懂 UI 界面並進行操作,而後者則是測試 AI 在複雜長程任務和跨場景下的任務執行能力。
翻譯一下:Gemini 成了 Siri 想而不得的樣子。
假設倒黴老闆(我說可是你的)把會議臨時改到了傍晚,你擔心開完會趕不上女兒的演出。這時候你問 AI,AI 調取你手機裏的各種數據,比如會議結束時幾點,日曆裏演出是幾點,那段時間路況大概如何之後,判斷你能不能順利趕上。
隔壁花了兩年時間還在“預備”,谷歌現在直接給你端上來了。
谷歌全家桶下,開啓 Gemini Agent 模式,並對 Gemini 授權,它就能調動你手裏各種谷歌設備裏的數據,幫你實現上述的例子。
再比如,你對 Gemini說,“根據我郵件裏的信息,幫我預定一輛下週旅行需要租的中型 SUV,租金不超過 80 美元一天。”然後你下了飛機,直接取車就完了。
還有一項,它在被譽爲“人類最後一場閉卷考試”的“Humanity''s Last Exam”這一項中也拿下目前最高分37.5%,比第二名 GPT-5.1 的 26.5% 高出一大截。
也就是說,Gemini 3 Pro 是目前最接近“人類通才”的模型。
到這還沒完。當開啓 Gemini 3 Deep Think(深度思考模式)後,它在“Humanity''s Last Exam”成績還能在不使用工具的情況下將分數提升到 41%。此外,面對需要嚴密邏輯和專業知識的複雜科學問題(GPQA Diamond)時,Gemini 3 Deep Think 拿下了 93.8% 的高分。
上面提到的 ARC-AGI-2,Gemini 3 Deep Think 更是斬獲 45.1% 的高分,把只拿了 4.9% 的 Gemini 2.5 Pro 按在地上摩擦。
設計師危險了
過去,如果要開發一款 app 或網頁,就需要設計師先畫出 UI 及各種素材,然後再由程序員用代碼調用,最終實現一個可交互的產品發佈。
而現在用一句話,就能讓 Gemini 做出高質量的交互式 SVG。比如下面這個在 X 上很火的“電風扇”,不僅圖像精美,而且還能動、能交互,完全到了可以直接拿來用的程度。
除此之外,還有網友讓 Gemini 畫“遊戲裏的水管工”;
五缸的發動機......
我也嘗試讓 Gemini 畫了一個燈泡,還給燈泡加了個可以操作的開關,它 35 秒就幫我搞定了;
以及復刻一下我家的貓咪,別說,畫得可還真像。
可交互的 SVG 不只是讓大家玩得開心。它有更大的意義和野心。
谷歌表示,基於 Gemini 3 強大的推理和多模態能力,他們將在未來的 Gemini App 裏推出一個名叫“生成式 UI”的新功能。
簡單來說,Gemini 應用未來可以直接用可交互的 UI 來回答你的問題,響應你的指令。而不再是以往一個模子刻出來,“一問一答”的大模型交互形態和使用方式了。
比如,谷歌官方的例子,讓 Gemini 給你計劃一個明年夏天去羅馬的 3 天旅行。然後,它就會生成一個類似雜誌一樣的動態內容,你不僅可以瀏覽,還能點進去和裏面的元素交互。
這種多模態的能力大概也是谷歌口中可以”建造任何東西”的底氣了。
(部分)程序員又一次更危險了……
某種意義上來說,SVG 畫圖也是編程的一種。說到編程,那可就是 Gemini 的拿手好戲了。
根據 X 上的網友測試,Gemini 3 Pro 在 DesignArena 的好幾個項目裏又是斷層第一。
現在,只要一段不那麼長的描述,就能讓 Gemini 3 給你寫個“macOS 操作系統”。點擊運行之後,它不僅會走一遍“開機”的流程,更厲害的是,你還能在它寫的“macOS”裏上網衝浪、跑終端……
這還屬於基本操作。有網友讓 Gemini 3 做了個《我的世界》,Gemini 做得像模像樣。
我自己也實際測了一番。我讓 Gemini 幫我做了個個人網站,要求是有四個頁面,分別是主頁、個人介紹、作品、聯繫方式。風格要現代簡約,高端大氣。
Gemini 只用一分半鐘的時間就搞定了。導航欄還用了蘋果同樣的毛玻璃風格,而且連裏面的按鈕、輸入框都是有效的狀態,不是純粹的裝飾性內容。
不過,目前生成的網頁只能算中規中矩。
於是我和它說,“我想要全球頂尖設計工作室網站的風格,色彩和排版可以更大膽一些。”
45 秒之後,Gemini 3 Pro 的交付讓我驚歎。
至於復刻某個設計,那就更不是難事了。
我還看到更離譜的,X 的網友讓 Gemini 3 做了個 3D 樂高編輯器,一次性實現了用戶界面、代碼構建和他需要的各項功能。
在 Gemini 3 Pro 上線不到一個小時的時間,Cursor 這類 vibe coding 軟件就在第一時間提供了支持。
而面對專業的開發者,谷歌也發佈了 Antigravity,一個看似是 IDE 實則是 vibe coding 的平臺。它讓 AI 真正成爲了程序員的“生產力助手”,能自主跟進開發進展、做任務列表或者 PPT、寫代碼,然後再自己去瀏覽器裏驗證代碼的效果,甚至還能自我總結和提升。
在這個過程裏,Antigravity 還會學習你的代碼風格和各種開發偏好。
這樣看,或許跑分沒那麼重要了,比起切實打破“想”和“做”之間的壁壘。就拿寫代碼來說,技術的門檻已經被鏟地七七八八,寫前端代碼,調框架也許都沒那麼重要了,能拉開人和人之間差距的,就只有想象力了。
正如谷歌所說,Gemini 1 打一開始就具備多模態能力,Gemini 2 具備更強的推理能力,讓 AI Agents 能自主思考、編程、行動。Gemini 3 藉助全新的生成式 UI 界面,生成用戶想要的各種各樣輸出格式。可以說一路穩紮穩打,套用一句網絡流行語,他們都看好你,恰好,你也挺爭氣的。
作者:宛潼
編輯:沈知涵
封面圖及配圖來源:Google與作者提供
本文來自果殼,未經授權不得轉載.
如有需要請聯繫[email protected]