一句話,AI 直接給我建了個能跑能跳的「吉卜力」3D小鎮
這周的大模型熱點除了 Anthropic 剛剛發佈的 Opus 4.7,世界模型成了另一塊角力的陣地。
短短几天內,AI 圈幾乎是連珠炮式地發佈了一系列重磅世界模型。
先是李飛飛的 World Labs 開源了 Spark 2.0,緊接着騰訊在昨天正式發佈並開源了混元 3D 世界模型 2.0(HY-World 2.0)。
騰訊混元 3D 世界模型 2.0 體驗地址:
https://3d.hunyuan.tencent.com/sceneTo3D
阿里也馬不停蹄,新成立的 ATH 旗下創新事業部團隊,剛剛纔官宣了 HappyHorse,立刻又發佈世界模型 HappyOyster。
阿里 HappyOyster 官網截圖:
https://www.happyoyster.cn/
最容易忽略的還有英偉達 Lyra 2.0,沒有發佈會和新聞稿,旗下的空間智能實驗室直接甩出一篇論文,「可探索的生成式 3D 世界。」
英偉達研究博客:
https://research.nvidia.com/labs/sil/projects/lyra2/
這種密集程度讓人產生一種錯覺,那些生圖生視頻模型是不是都弱爆了。現在的 AI 已經從「生成一張圖、一段視頻」的平面階段,大步來到「構建一個世界」的 3D 空間時代。
不僅技術端在狂飆,資本市場也給出了強烈的回應。
今天,羣核科技正式登陸港交所。這家空間智能公司一直致力於推動 AI 進入物理世界。它的成功上市,標誌着「世界模型第一股」的正式誕生,也向外界釋放了一個明確信號:世界模型,真的開始火了。
而在熱鬧之餘,我們也發現雖然這些公司都叫世界模型,但是路線完全不同,只能生成視頻的像是一個 Demo 產品;能生成 3D 資產的看似可以融入開發設計的工作流;還有在論文裏的未來工作暢想,希望用於機器人的訓練。
目前,騰訊混元 3D 世界模型 2.0 已經開放了申請。我們第一時間進去體驗了一波,試圖從中找到一個答案:這些被認爲是 AI 下一階段的世界模型,到底能解決真實世界的哪些問題?
從看電影到開始遊戲
此前我們聊世界模型,大多像在聊一個「更長、更懂物理規律、一致性保持更強的視頻」。但這次體驗混元 2.0,最直接的衝擊力在於,它生成的不再是 MP4,而是真正的 3D 資產文件。
在體驗中,我用簡單的提示詞輸入了「吉卜力風格的山間小鎮,黃昏」。在幾分鐘的計算後,出現在屏幕上的畫面像是一個大世界遊戲。
點擊下載,混元 3D 提供了全景圖、Splats 的 .spz 文件和 .ply 文件,以及 Collider mesh 一共四種 3D 資產文件格式。
四種文件類型涵蓋了 Mesh(三角面片網格)、3DGS(3D 高斯潑濺)、點雲等多種格式的 3D 資產文件,這些文件可以直接導入 Unity、Unreal Engine,遊戲開發者拿到手之後可以繼續編輯、調整、搭建關卡。
所生成的世界同樣可以保存爲全景圖片,原圖約 20MB。
在世界生成任務上,除了常見的文生世界,混元 3D 同樣支持圖生世界。我們找了一張《拯救計劃》電影截圖,Rocky 最後在波江座人給他搭建的世界裏漫步,讓混元來還原整個波江座。
由於電影截圖裏就有顯示一個外殼包圍着 Rocky 居住的海邊,所以混元生成的世界也有一塊「黑影」
當使用 Unsplash 上下載的高清雪山圖片時,混元 3D 世界模型 2.0 生成的雪景,畫質和真實感都更強。
全景圖和導演模式下的角色漫遊
無論是上傳圖片還是文字提示詞,應用內都有相關的指引,例如上傳的圖片分辨率不能小於 512*512,避免畫面出現人物,不要有動物/人物特寫,避免使用純色、純紋理圖片;以及天空、星空等畫面佔比較大圖片也不適合等。
而文本提示詞,最好是場景類別(沙漠、海面、房間等)+ 場景特徵(物體、天空等視覺描述)+ 風格(可選,卡通/寫實/油畫風格等)。
混元 3D 世界模型 2.0 的風格化控制表現也很好,從官網已有的世界案例能看到,無論是溫馨的繪本風還是寫實的遊戲風,它對語義的解析非常精準;牆壁的紋理、地牢的陰影和光感都極具沉浸感。
除了能生成可用的 3D 資產,混元 2.0 真正讓我感到「世界」屬性的,是它的角色模式。
現在我們可以直接操控一個角色在剛剛生成的場景裏行走、加速、跳躍、轉彎、探索,整個過程就像是在玩一個大世界遊戲。同時,它自帶物理碰撞,角色不會穿牆而過,也不會掉出地圖邊緣。
這種即刻生成、即刻可玩的體驗,確實在模糊了 AI 生成與遊戲引擎之間的邊界,隨着能生成世界的範圍不斷擴大,角色的探索或許會更有意思。
實時生世界時,我們能直接控制角色的行動,混元 3D 模型會自動生成對應的世界,單次生成的時長是一分鐘。
對比之前的混元 3D 模型,這次的 2.0 版本在一句話/一張圖生世界任務上,不僅支持下載 3D 資產文件,推出了全新的角色模式,而且在畫面精細度和真實感方面,也從底層的模型架構進行了重新設計。
混元世界模型 2.0 多模態世界架構|
https://3d-models.hunyuan.tencent.com/world/
新的模型架構,打通了「理解、生成、重建」的閉環。
- HY-Pano-2.0: 不需要專業的相機參數,普通圖片就能映射出 360° 全景。
- 空間 Agent 技術: 像給 AI 裝上了導航,它能智能規劃漫遊軌跡,確保護理和視覺上的銜接不會穿幫。
- HY-WorldMirror 2.0: 保證了即使是在大幅度的視角變換下,物體側面和背面的完整度依然在線。
在世界重建任務上,混元世界模型 2.0 輸入多張圖或視頻流,就能做到重建真實場景。
在過去,我們想要構建/重建一個可互動的 3D 世界,需要成體系的團隊和數月的打磨;而現在,通過混元 2.0 這樣的工具,只需要一個創意。
並且,這個創意,無論是以文字、圖片還是視頻的形式呈現,它都可以生成一個拖進 Unity 的原型,哪怕質量還需要調整,哪怕很多細節還要人工修改,但整個設計的工作流,AI 也開始在發力了。
瘋狂的世界模型周,瘋狂的 AI
當我們再把視線從混元 3D 世界模型 2.0 的資產生成、角色模式、世界重建,拉回本週連發的其他幾個世界模型,我們會發現,這些不同在不同維度突圍的世界模型,正共同拼湊出世界模型更明確的樣子。
阿里 HappyOyster 目前還在主打漫遊和導演模式,讓我們用自然語言隨時介入世界演化,改寫劇情走向和角色動作。
英偉達 Lyra 2.0 用一張圖就能生成長達 90 米的連貫 3D 環境,它生成的場景甚至能直接丟進 Isaac Sim 給機器人做物理訓練。
李飛飛 Spark 2.0 打通「交付最後一公里」,前面那些模型都在解決怎麼造世界,而 Spark 2.0 已經開始解決怎麼給人看。它通過獨創的流式加載和虛擬內存技術,把上億個 3DGS 粒子的超大世界,硬生生塞進了普通手機的網頁瀏覽器裏。
World Lab 生成界面,提示詞:吉卜力風格的山間小鎮,黃昏
看着這些各顯神通的世界模型界面,一個現實的結論是:很明顯,世界模型還沒迎來它的 ChatGPT 時刻。
四家公司這一週的密集發佈更像是在爲這個時刻做準備,畫面質量、交互能力、資產格式、交付方式、仿真精度,每個都在朝着自己的方向優化。但把這些塊拼成一個「讓普通人願意每天打開」的產品,還沒有模型做到。
在過去兩年裏,隨着 AI Coding 重塑代碼開發、Nano Banana 等模型顛覆平面設計,前端工程師和平面設計師們已經經歷了「xxx is DEAD」。現在,這朵雪花大概是要飄到 3D 設計的護城河上。
隨着更多模型廠商的下場,3D 設計的工作流也會慢慢從 AI 輔助走向 AI 主導。到那時,生成並體驗一個 3D 互動世界,將會像今天我們在手機上刷短視頻一樣流暢、低成本且理所當然。
畢竟,在所有的科幻敘事裏,沒有任何人會抗拒自己成爲「造物主」,去自定義一個新世界。
#歡迎關注愛範兒官方微信公衆號:愛範兒(微信號:ifanr),更多精彩內容第一時間爲您奉上。