國產開源世界模型來了,我們離“用AI做出可玩世界”更近了嗎?

來源: 更新:


在去年,谷歌DeepMind放出世界模型Genie 3之後,利用AI生成可探索的互動場景成了值得關注的新焦點:AI世界仿真技術的重大突破,讓開發者和普通用戶都第一次直觀感受到——AI或許真的能生成一個“可以被操作的世界”。

而在昨天上午,螞蟻集團旗下的具身智能公司螞蟻靈波科技也放出了自家的世界模型LingBot-World,把這股熱潮又往前推了一步。

利用AI生成視頻對於大家已經不陌生,不管是騎着飛龍翱翔天際,還是在車水馬龍的城市中駕車穿行,如今的AI都能夠輕鬆做到,畫面效果也愈發難辨真假。

但“世界模型”展示出的效果,則有着截然不同的潛力——創作者生成的並非一段孤立的視頻片段,而是可以持續探索、自由控制的虛擬場景。

比如在LingBot-World的其中一個演示視頻中,就出現了一段類似於“步行模擬”的場景。

創作者使用WASD控制角色向着遠方的教堂前進,還可以隨時停下來環顧四周,回望來時的小道,再回過身來,繼續向着教堂走去:

在另一個名爲“噴泉”的Demo中,LingBot-World則展示了改變世界的能力:通過使用“青蛙”、“花瓣”和“魚”等不同提示詞,出現在噴泉中的物體也會發生相應的改變,或是乾脆將畫面變成像素風。但與此同時,不管操作者如何轉動視角,噴泉的主體結構和周圍的場景都會保持一致。

這樣的Demo在LingBot-World的頁面上有超過20餘個,既有修仙、科幻類天馬行空的場景,也能生成生活氣息濃郁的日常畫面。

不論哪一個,都可以通過移動進行探索、調整視角自由觀察。哪怕是見多識廣的玩家,第一眼也很容易把它當成某個遊戲開發者做出的可玩Demo——你甚至會忍不住想,真把它轉發到“相親相愛一家親”羣裏,能唬住多少親戚朋友。


1

結合Demo的展示,我們其實已經能把LingBot-World的能力拆成幾個更“落地”的模塊來看。

可以生成多種不同風格的場景自不必多說,在這個基礎上,它還能維持相對高保真的場景細節和令人信服的一致性。

比如在前面提到的“步行模擬”Demo中,場景位於一條山間小路上,當視野轉向側邊時可以看到兩邊的山澗,看向後方則是一條蜿蜒過來的山路,這都和大家的直覺相似。

更能展現技術力的則在視角重新轉回正面之後,畫面上出現的小路、教堂和遠景與最初的場景完全一致。

在AI生成領域,上下文記憶一直是令從業者十分頭疼的問題,而根據LingBot-World技術文檔的介紹,模型可以保證分鐘級的一致性。在目前展示的特定條件下,即使建築、雕塑、車輛等物體離開視野範圍60s左右,再度進入鏡頭時依舊能保證外觀一致。

自由探索的能力也是世界模型和此前的視頻生成類AI決定性的區別,LingBot-World在訓練時除去使用海量視頻作爲訓練素材,也引入了WASD等動作控制的指令。

這種訓練方式讓模型的預測、聯想能力不僅限於單一的時間流逝,而是要在訓練中引入WASD等動作信號作爲條件,讓生成過程從‘時間驅動’轉向‘動作驅動’:用戶輸入動作,模型生成與動作一致的後續畫面,並儘量維持場景結構穩定。

LingBot-World當前能以每秒16幀的速度生成實時畫面,指令輸入到響應之間的延遲小於1秒。結合前文提到的長一致性,這些特點讓“給定一套世界設定→生成一個可探索的世界”變成可能。

去年穀歌公開的Genie 3在驚豔之餘也有些遺憾,該模型並未立即向大衆開放,因此,即使大家見識到了新模型的強大之處,卻不能上手真的嘗試一番。

在這點來說LingBot-World在策略上展現得更明確和大膽一些:項目選擇了直接開源,使開發者能夠下載並在本地部署、驗證與迭代。畢竟AI領域從來沒有一成不變的事物,只有在實踐中不斷嘗試、測試,才能發現改進的方向。

LingBot-World的項目代碼已經放到了開源平臺Github上


而在LingBot-world發佈一天之後,谷歌也終於開放了Genie 3的付費體驗(對Google AI Ultra 訂閱用戶開放了 Project Genie 的訪問權限),進一步說明這種注重交互體驗的世界模型,需要更多的人親身參與進來。

在技術領域,世界模型被認爲是AI技術的下一個階段,可以給自動駕駛、仿真機器人訓練等領域提供大量的訓練數據。放進螞蟻靈波最近幾天連續開源的產品序列裏,LingBot-World也像是具身智能基礎設施的一塊關鍵拼圖——與負責“感知”的LingBot-Depth、負責“決策與操作”的LingBot-VLA相互配合,形成了一個從真實數據到模擬環境、再回到真實世界的閉環。

對於遊戲行業的從業者和普通玩家來說,這個聽上去很“硬核”的世界模型,也同樣會影響到未來的遊戲體驗與內容生產。


2

當然,雖然看着像“直接生成遊戲世界”,但絕大多數遊戲有着更長的單次遊戲時間,更爲複雜的交互邏輯,這些都超過了目前世界模型的生成能力範圍。

可以肯定的是,雖然LingBot-World呈現出了很多類似遊戲的表現,但世界模型目前並非是遊戲的“成熟平替”,它與遊戲的關係,反而更值得從兩個方向去看。

在前面我們提到過,LingBot-World等世界模型的訓練和一般的AI並不相同,訓練素材需要引入方向、視角等指令。AI訓練所需要的素材是海量的,通過現實世界快速而大量地獲取這類素材並非易事,但以“玩家交互”爲核心的電子遊戲卻能成爲天然的“素材庫”。

除去遊戲,虛幻這種成熟的遊戲引擎也可以提供訓練素材


這某種程度上也解釋了LingBot-World的遊戲味。比如在演示Demo中有一段以“林教頭風雪山神廟”爲主題的視頻,角色的動作和周圍的場景和虛幻引擎的呈現效果十分相似。剎那間讓人產生了一種“有人做了個水滸傳遊戲”的錯覺。

如果把視線拉長,Genie 3這類世界模型的研究路徑裏一直都有遊戲的影子。

我們此前也報道過,DeepMind的研究者們曾在GameNGen模型中,用《毀滅戰士》這類規則簡單明確的遊戲環境做技術驗證(當然還有一部分原因是全球玩家都對玩壞DOOM喜聞樂見):

把玩家的動作輸入(如移動、轉向、射擊等控制信號)與對應的畫面序列配對,用來訓練模型在動作條件下預測後續畫面與世界演化。

這類研究之所以常從遊戲出發,是因爲遊戲能提供高密度、可規模化的交互數據與規則反饋,便於檢驗模型的一致性與可控性。換句話說,電子遊戲顯然是世界模型在訓練中最重要的基石之一。

另一方面,長期來看,世界模型也的確能參與到遊戲研發的諸多環節當中,對開發者的助力不可小覷。

在近些年,隨着國內遊戲產業在技術、項目管理等方面的快速追趕,一個個全新的遊戲項目如雨後春筍湧現。大夥在預告看個飽的同時,也藉着這個機會和本土的開發者們近距離交流,更熟悉開發背後的祕辛。

比如在遊戲公開首個預告之前,通常有着一段十分緊張的“試錯期”。開發團隊要嘗試不同的美術風格、遊戲玩法,確定遊戲的最終方向。對於財力緊張的中小型團隊來說,能否儘快做出一個玩法原型,爭取到足夠的投資,有時候能決定整個項目的命運。

在這個階段,製作團隊不可避免的會遇到“走彎路”的情況,可能是玩法沒有想象中的那麼好,或是美術風格不盡如人意。

比如V社的《傳送門2》,曾曝光過有一個稱作“F-Stop”的玩法廢案:開發者製作了一套使用相機的新玩法,玩家可以用相機把物體“拍下來”,再在另一個位置把它“洗”出來——相當於把3D場景壓成一張2D圖,再以另一種方式還原回3D空間。

V開發團隊甚至真的做出了一段流程不短的測試關卡,最終卻因種種原因(比如“不夠傳送門”)而將整個方案廢棄。直到今天,仍有愛好者嘗試挖掘數據,在起源引擎上重現“F-Stop”。

Project Capture:一部分愛好者根據V社遺留內容嘗試復現當年的廢案


對於V社這種“頗有家資”的團隊而言,這種壯士斷腕的行爲可以作爲精益求精的正面案例,但是很多中小團隊並沒有嘗試這種高難開發行爲的餘裕,類似規模的試錯,可能就意味着項目資金鍊斷裂,或者被迫大幅降檔。

這也正是世界模型在短期內更可能切入遊戲行業的位置:它未必能替代引擎和完整製作流程,但有了LingBot-World這樣的世界模型,就可以用較小的成本實現玩法和美術上的呈現(尤其是上面“3D拍照”這種高難度的點子),從而幫助團隊更快地完成早期試錯,少走彎路。

從長遠上講,這也是LingBot-World背後團隊所樂於見到的。如果能有更多的遊戲出現在市場上,未來也會有更多成熟的素材用於模型訓練,實現AI模型和遊戲開發領域的雙贏。


結語

和Genie 3相似,LingBot-World展現出的階段性成果遠到不了完美無瑕的地步。但將AI模型從單純的內容生成推進到可互動的大型場景上,這樣的技術嘗試和進步的確值得肯定,也讓人期待未來更進一步的潛力。

其實在去年,Genie 3的發佈尚未讓很多開發者感受到這種“潛力”——彼時外界最初能接觸到的主要還是研究展示層面的內容,公開信息多以演示與論文/博客爲主,因此普通的遊戲開發者,也很難直觀感受到“這東西到底有什麼用”。

到了今天,Genie 3正式對付費訂閱用戶開放,LingBot-World則選擇走免費開源路線,這種“潛力”不再是紙面上的空談,遊戲開發團隊可以親手部署、試用、復現上面提到的一切。更現實的想象是,它短期內可能扮演一種“原型工具”或“探索組件”的角色——幫助團隊用更低成本把想法快速做成可體驗的交互片段,用於早期展示和試錯。

在AI技術的發展過程中,人類被替代曾是不少人所擔心的。但隨着AI繪畫和AI視頻生成的逐漸成熟,這份擔憂也在不斷化解: AI產物無法取代高水平的創作者,更爲成熟的運用是利用AI加速製作,或是降低門檻,讓大家可以輕鬆地將自己有趣的創意轉化爲實際的作品。

對於AI世界模型來說,它在遊戲領域要扮演的角色也並非是取代遊戲引擎與專業製作流程,而是降低開發者的時間和人力成本,縮短從大腦裏的創意到“可體驗原型”的距離。

對遊戲開發來說,AI工具的加速賦能顯然是重大利好:當這種距離被持續壓縮,遊戲創作與交互形態的演化,也就有了新的驅動力。

相關推薦
請使用下列任何一種瀏覽器瀏覽以達至最佳的用戶體驗:Google Chrome、Mozilla Firefox、Microsoft Edge 或 Safari。為避免使用網頁時發生問題,請確保你的網頁瀏覽器已更新至最新版本。
Scroll to Top