騰訊這款3D模型生成AI,讓多少遊戲人驚訝了?
AI生成3D模型,似乎即將進入一個新階段。
就在這週二(1月21日),騰訊混元宣佈開源3D生成大模型2.0版本。
去年11月,騰訊開源的混元3D 1.0版本,作爲業界首個同時支持文字、圖像生成3D的開源大模型,能力固然夠讓人感到新奇。但是這纔過去2個月,他們居然就折騰出了2.0?這麼短的時間內,他們到底能有多大進步?
葡萄君很快就去體驗了一下。結果真挺令人驚訝:這模型,完全是衝着當實用工具來的。
根據我個人的體驗,就目前這款模型所製作的資產質量而言,說它能直接用於很多小遊戲和休閒遊戲,並不誇張。如果人工介入對這些模型做一些修改,或許還可以用於更大的項目。再結合它分鐘級別的出圖速度……細思極恐。
空口評價沒什麼意思,我們不妨一邊體驗一邊聊。
01
混元3D有多實用?
在我看來,一款工具是否實用,分爲兩個點:一個是能力達標;另一個則是功能齊全,可以接入實際工作流。
目前,混元3D模型可以在GitHub、Hugging Face等平臺上直接下載並使用,也可以通過他們發佈的一站式3D內容AI創作平臺「混元3D AI創作引擎」體驗它的功能。
官網地址:
https://3d.hunyuan.tencent.com
而通過混元3D AI創作引擎,我們可以看到,混元3D生成大模型的核心能力是「文生模」和「圖生模」。
從體驗來看,用戶只需要輸入中/英文提示詞,提供對模型主題的描述、特徵、風格等Prompt,就能快速同時生成4個3D模型,葡萄君自己實際體驗的感受是,如果僅對模型做最基礎的要求,那麼基本上只要30秒左右,4個模型就能全部生成。
在混元3D AI創作引擎的Prompt輸入框下方,還提供了多個更加細化的功能。這些功能幾乎都在告訴你,混元3D不打算只當個玩具,而是真想要介入生產。
比如用戶可以選擇低多邊形模型生成,據官方介紹,它可以根據物體複雜程度,自適應生成幾百至數千面的三角mesh,拓撲佈線更符合美術標準,更適用於遊戲引擎模型渲染;
再比如用戶可以選擇不同紋理風格。混元3D還同時支持PBR貼圖,可以通過模擬物理特性生成更具真實感的材質貼圖效果。
混元3D在生成的過程中,也會考慮用戶需求。比如生成一個3D角色,其他模型可能會把3000面平均分佈在這個角色身上。而混元3D會考慮到在開發中,角色的動作和表現力主要來自與面部和動作,所以他會按照頭部最多,上身其次,下肢最少的邏輯分配3D模型的面數。
如果用戶採用圖生模,製作出來的模型質量明顯會更高。不過目前,混元3D AI創作引擎還僅支持單圖生成模型,騰訊混元3D負責人郭春超表示,他們在近期還會推出多個視圖生成3D模型的功能,可控性會有比較好的提升,更適合製作遊戲資產。
混元3D 2.0的「實用」不僅在於讓用戶可以直接拿來用,同樣也在於它可以讓用戶定製更多流程上的細節。
觀察它的模型生成過程,我們不難發現,這個流程可以分爲幾何和紋理生成兩部分。
官方表示,這實際上是因爲混元3D實際上由多種模型組合。幾何大模型由Hunyuan3D-DiT模型和Hunyuan ShapeVAE組成,專注於捕捉物體的形狀、結構和空間關係,能實現超高精度的白模生成。
而紋理大模型Hunyuan3D-Paint則採用多視圖擴散生成的方案,專注於顏色、細節和表面特徵,可以基於用戶輸入的參考圖像對生成的幾何白模進行紋理貼圖。它可以單獨使用,用戶只需要用文本或圖像引導混元3D,它就可以給輸入的幾何模型生成紋理。
這種二者分開的模式,可以讓每個模型能在其領域內進行更深入的學習和優化,同時,幾何與紋理解耦生成,也能讓模型生成更精細和真實的3D結果。
通用風格PBR紋理下生成的漢堡
這個解耦的設計,也讓混元3D AI創作引擎可以自主設計更細緻的3D生成工作流。用戶除了可以根據個人需求輸入提示詞或上傳圖片,還能調整節點生成參數,生成更加定製化、更具可控性的3D資產。
它還有更多有趣或實用的功能。在混元3D AI創作引擎上,我們除了能生成和編輯模型,以及剛纔提到的單獨使用紋理模型功能外,還能用草圖生成3D、頭像照片轉3D人物、製作一些簡單的3D人物動畫,甚至直接創作3D小遊戲等。
其中,最令我注意的還是3D動畫生成。無論是用戶用混元3D製作的模型,還是本地上傳的模型,它都可以自主進行骨骼綁定,並按照預設的多種常用動作模板運動。對於遊戲開發和動畫製作而言,這個功能或許能節省不少時間。
總的來說,在我看來,對於小遊戲或者休閒品類,目前混元3D基本上已經能夠勝任角色和道具類等常用模型的生成工作。
當然,它依然還沒有脫離那種早期的「稚氣」。在文生模的條件下,對於一些講究對稱的工業產品,或者一些細節較多的道具,混元3D的表現還不盡如人意。
比如要是想用混元3D建一個正比例的、細緻的人物模型,尤其是二次元風格,不論使用文生模還是圖生模,多半情況下還是隻能產生一些「邪神」:
再比如讓它生成一輛汽車的模型,結果往往看起來會像是一塊融化的蛋糕;
不過在圖生模情況下,這個問題還是能得到比較好的改善。這是我採用圖生模、低多邊形和PBR貼圖後產生的結果:
角色建模方面,如果是頭像或胸像,或者是一些Q版風格的角色全身像,結果也挺不錯:
根據騰訊混元自己從定量和定性兩個維度所做的評估,不論是端到端最終3D資產的質量,還是幾何結構以及生成紋理的質量,混元3D 2.0均優於包括閉源模型在內的當前最先進模型。
而從整體滿意度、3D 物體質量和指令遵循三個維度進行用戶主觀評估,混元3D在生成質量上也優於當前最先進的開源模型。
只能說3D生成大模型這個領域,目前還有比較長的路要走。不過就混元3D目前所能取得的成果而言,或許已經能夠幫助開發者在一些細枝末節的資產上節省不少時間。
02
3D生成模型,比賽還在上半場
實際上,混元3D早就已經開始在騰訊內部的一些業務和場景中開始應用,例如UGC 3D創作、商品素材合成、遊戲3D資產生成等。
比如騰訊地圖,他們基於騰訊混元3D大模型,發佈了自定義3D導航車標功能,支持用戶創作個性化的 3D 導航車標。據內部統計,這種方式相比傳統的3D車標重建方案速度提升了91%。
騰訊內部遊戲業務也開始使用混元3D生成能力,混元官方稱,他們生成3D的質量在幾何佈線合理性、貼圖準確性與骨骼蒙皮合理性等方面,已能滿足部分遊戲3D資產標準。
騰訊某在研遊戲研發製作人王智剛也分享了他的感受:「3D環節的成本之前是以天計算,現在分鐘來計算。這個東西拿出來之後,不是100%用,但是花一兩天,把AI做得不夠的部分做一下修補,性價比提升非常顯著。」
但騰訊混元3D負責人郭春超認爲,目前的混元3D還有很大的進步空間。這主要是因爲相比於對話和生圖大模型,目前3D和視頻大模型的成熟度還沒有到充分的拐點。
「如果說對話模型的合格率可以達到95%,生圖模型達到90%以上,那麼3D生成模型的成熟度、可用性大概在60%,仍處於比賽的前半場。」
他表示,目前這類模型面臨的最大挑戰,一是數據的不足,只有千萬量級的數據,並且沒有被充分的利用;二是3D模型本身相對於別的模態約束比較少,比如視頻雖然也是橫向在時間軸上拓展,但是很少有突變,上一幀和下一幀只有部分的像素改變,但3D模型做任何動作,上一個切片和下一個切片可能有很多數不清的圖片,所以模型本身的挑戰比較大,無論從數據而言還是從技術特點本身而言,要解決的問題都很多。
因此,當下混元3D計劃繼續在提高生成單體3D質量的同時,進一步擴展管線和功能上的應用,爭取從量變引發拐點級的質變。
3D生成大模型一旦產生質變,會發生什麼?
或許很多人第一時間想到的,可能是會導致建模行業的萎縮。不過往好處看,這實際上或許更能推動不少中小團隊的成長。
對於不少小遊戲或者休閒賽道產品來說,比拼的不僅是出點子的能力,有時候更關鍵的是落地速度和質量。有了3D生成大模型的加持,對於很多原創團隊來說,也就能夠將自己的點子更快更好地呈現出來,具備更強的競爭力。對於一些獨立遊戲團隊來說,也是同理。
另外,從生圖大模型的發展歷程來看,無論模型產出的圖片品質有多高,仍然需要有專業人士來挑選和修改。郭春超也表示,「我們的目標並不是替代設計師,而是成爲他們的好幫手,如果加了一些引導可以生成質量比較高的,之後再稍微的修一修,相輔相成,結伴前行,最終這件事能更好的推廣起來」。
此前,米哈遊蔡浩宇對AIGC時代遊戲行業的發展預測,曾引發了不少爭議。不過在我看來,相比於如今中小團隊的生存困局,AI或許反而能夠成爲他們翻盤的勝負手。或許在未來,無論何種規模的團隊,都會因此站在同一起跑線,通過更純粹的創意品質,而非資金投入來一決高下。這樣一來,產業會變得更好嗎?我們難以預測,但我希望事情最終會偏向那一美好的可能性。