大學教授跳槽騰訊,用1年時間解決行業難題?
又是一年GDC落幕。這個關乎遊戲產業未來的「遊戲圈春晚」,年年都是神仙打架。今年的情況可能更特別——「AI+遊戲」是這一年的關鍵詞,這是現在最前沿、最受關注的領域。所以沒兩把刷子的團隊,可能都很難在這裏分享。
不過中國團隊還是很爭氣,以騰訊、網易、米哈遊、字節爲首,他們組團參與這個頂級盛會,就AI、渲染、跨端等多個維度與全球遊戲開發者做了分享和交流;騰訊系海外全資及控股工作室Digital Extremes、拳頭、Supercell等也帶來近10場分享。足以見得,我們整體上在很多方面的水平確實已經上了國際牌桌。
這些分享中讓我印象深刻的一場,是騰訊魔方技術中心AI團隊負責人Elvis分享的技術:「《火影忍者》手遊:針對格鬥遊戲大規模強化學習的優化」。它是GDC AI峯會16場主題分享中的一場,含金量相當高。研發遊戲AI的團隊並不少,它特別在哪兒?
你可以這麼理解:在格鬥遊戲領域,這是全球首次這樣應用強化學習技術——在此之前,根本就沒多少人嘗試用三四百個機制各異的角色,去做大規模的強化學習,畢竟這訓練成本想想就非常恐怖。但魔方這支AI團隊花了一年多時間,就找到了高效率的解決方案,報名GDC後,這個議題也很快被官方pick了。
在這背後,他們到底經歷了什麼?我們和負責人Elvis聊了聊,發現Elvis和這支團隊近年的歷程還挺有趣。
01 20年經驗學術大佬,加入騰訊做AI
我們不妨從Elvis的故事聊起:和很多人一樣,他小時候的夢想是當科學家;但和大多數人不一樣的是,他真的一步一步讀到博士,實現了科研夢想。
早期他研究過遊戲引擎,拿過中國發明家協會的發明銀獎;讀博時,他研究的專業是仿真系統;後來他又去IBM研究過超級計算機的大規模仿真系統,順便拿了ACM的全球論文獎……後來,他就一直在海外擔任大學教授,課程依然涉及遊戲開發。到現在,他在物理仿真、大規模虛擬世界、遊戲AI等領域的研發經驗已經有20多年。
這樣一個學術大佬,爲什麼選擇加入騰訊做遊戲AI?
最大的原因,可能是在高校任職多年後,他逐漸發現:夢想並不像現實那樣美好。
Elvis說,之前在海外時,大部分高校的運作模式和他小時候的想象不太一樣——「大家都很重視KPI,可能每年會給你一個棒形圖作爲推手,統計每個教授的文章發表數量、排名。」重視研究倒無可厚非,但關鍵在於,他們在申請研究經費時,往往要寫上未來三年的發表量,如果某一年審覈不達標,經費可能就拿不到了。
這一點讓Elvis挺迷惑:「如果真的要做一個很有影響力的研究,你怎麼可能在還沒做之前就知道自己每一年能發表多少呢?你連研究是否成功還不知道呢!」特別是久而久之,許多年輕的教授都會順着這樣的規則,傾向於去做非常保守、安全,基本沒什麼應用場景的研究。因爲考慮到經費和學校給到的壓力,他們沒有這個冒險的空間。
但Elvis可能天生是個不安分的人:他真正想做的,是更有影響力、有大規模應用場景的事。結果機緣巧合,他20多年的老朋友——魔方的技術總監,正好和他聊到了這件事。聊過後,他很快就決定加入魔方,去從頭組建一支AI技術團隊。
有騰訊的平臺在,這支團隊組建得不算困難,成員中既有遊戲行業從業者,也有像Elvis一樣的科研工作者。有意思的是,比起團隊成員的實踐能力,Elvis最看重的一個因素,是聽起來比較虛的「熱情」。
熱情這種事要怎麼測試?Elvis說,他每次在面試環節,都喜歡提兩個特別的問題——爲了保護「機密」,題目我不能具體描述,但你可以想象到,他提的是那種常見的開放性題目。比如經常被網友調侃的「一頭牛重800公斤,一座橋承重700公斤,請問牛怎麼過橋?」(僅爲舉例,真實題目還是更嚴謹一些)
當然,他問這個不是爲了一個標準答案,或者抖機靈的回答,而是會一直問面試者:「還有沒有更好的方案?有沒有更好的回答?」一次一次問下去,即便說不出最優解,但只要能耐心地一直探究下去,這種熱情其實就比大多數人強了。
02 一年時間,解決世界性難題
團隊組建起來之後,Elvis面對的第一個項目,就是個艱鉅的挑戰。
這個項目,是用強化學習的方式,爲《火影忍者》手遊研發角色的對戰AI。爲什麼魔方會想到做這個?Elvis說,他們並非一個純粹的科研團隊,而是貼近產品的技術團隊,他們做的事都是爲了解決項目組的需求。
而這個AI主要解決兩個需求:一個是在「曉·覺醒」和「爬塔玩法」等AI挑戰賽中挑戰AI;另一個是因爲《火影忍者》手遊角色超多,光靠人力驗證平衡性會很難,如果能用AI的自我對戰提供大量數據參考,調整起來就會更有效率。聽起來很實在,但講真,這無論對《火影忍者》手遊,還是魔方來說,都算是一個相當激進的創新。
強化學習和傳統的行爲樹AI不一樣,不是靠固定的動作路數來出招,也沒有數值上的加成,而是要通過自博弈(Self-play)的訓練方法,讓AI左右互搏,模擬人類的反應、技巧,像真人一樣公平地走位、玩心機、拼操作,不斷提升水平。在技術層面,這倒不至於特別難。
但對《火影忍者》手遊這種類型的產品,它太難了:遊戲裏的角色有三四百個,每個人都有一套獨立的機制、動作模組,總技能數上千。這個數量一多,訓練時間和算力成本就成倍上升——「20個角色的對局要訓兩天,如果是400個角色,對局數起碼是200多倍。你可以想象,這樣訓下去可能一年多才能訓完一次,這是不可行的。」
在初期,Elvis就和團隊攻堅這個難題。大概一年後,他們找到了一種巧妙的方法,直接讓訓練需要的時間和資源都下降了90%。
對這種方法,Elvis有一個比喻:「張無忌學太極劍時,張三丰讓他忘記招式,我們的做法有點類似。」在傳統方案中,AI要記住每個對手的技能,再一一查找ID,進而用對應的方式反擊——這就好比讓張無忌把天下所有門派的武功招式都記住再去打架練習,等他一遇到新的對手,又要從頭學習一遍。
而新的方案,就是「忘記招式」——不再讓AI查找技能,而是把所有技能標出詳細的屬性,比如XY軸的攻擊範圍、起手的速度、後搖時間的長短……讓AI識別這些泛化的屬性,把所有招式都看成同一種武功心法,用已有的經驗應對。這樣一來,既能省去查找和訓練的時間,也不用擔心遇到新角色要再次學習。
解決了這個最大的難題,魔方在格鬥遊戲AI上的強化學習技術和應用,可以說已經在世界範圍內領先了。《火影忍者》手遊本身也很爭氣,已經保持了8年常青和連續增長。
除此之外,他們也會遇到一些其他層面的問題。比如AI的打法非常務實:爲了保證獲勝,它往往會只用效果最好的技能,結果就是一些輔助手段一直捏在手裏沒用過。這種做法其實沒什麼不對,但從項目組的角度來看,這種模式不夠「擬人」,也體現不出很多角色的設計特點。
爲了解決這個問題,他們又引入了更加豐富的獎懲體系——強化學習的基礎原理,就是通過不同的獎懲條件,讓AI一次次不斷接近更加「正確」的行爲模式。舉例來說,設置「三技能使用」的獎勵,就是鼓勵AI多用大招,要麼用來斬殺對手,要麼在保證能銜接技能的情況下放大招。這些如果放在AI絕對理性的判斷下,可能沒那麼「有效」,但這種打法顯然是更精彩、更擬人的,畢竟哪個人類玩家會不喜歡秀呢?
後來,除了解決一開始的兩個需求外,這項技術也被應用到了《火影忍者》手遊2022年的「曉•覺醒」活動裏。這場人機大戰一開打,就引起了相當多玩家的挑戰和熱議。有趣的是,在活動最難的第三階段,還有10%的玩家戰勝了AI。
在未來,這項技術還有很大的發展空間。比如結合角色設定,他們可以嘗試訓練出更加性格化的AI,讓角色給人的感受更加立體、真實;另外,他們也正在探索一些類似爬塔的,與玩法相結合的新模式。不管怎麼用,大概都能讓玩家有更新奇多元的體驗。
03 遊戲行業的能量,遠超我們想象
在GDC之前,這套技術方案已經在去年的世界人工智能大會分享過一次,這次也是它第二次在世界舞臺上露面。GDC現場,Elvis分享完後,不少遊戲開發者都忍不住圍上來,排隊與他繼續交流。
有一位海外開發者問到「如何保證AI忍者的樂趣?」,Elvis說:「遊戲的核心還是要好玩,所以AI的難度設計並不是越難越好。實際上,經過我們的測試,如果僅保留以勝利爲目標的獎懲體系,AI爲了獲勝,戰鬥行爲會變得非常保守,讓戰鬥體驗不那麼有趣,這也是爲什麼我們還加入了第二套更加細緻定義忍者行爲的獎懲體系,讓AI忍者的行爲更有個性,更好玩。」
和Elvis聊到這些經歷,讓我挺感慨的——魔方在GDC分享了全球首次將強化學習應用於格鬥遊戲的經驗,只是上千場演講中的一個例子而已。那麼多團隊,有那麼多故事,他們的能量彙集在一起,遊戲行業的勢能其實遠超我們想象。而國內大廠的這麼多前沿技術探索在GDC亮相,背後的意義可能也比我們想象中還要深遠。
在36年前,首屆GDC大會由Chris Crawford在自家的客廳中舉辦,參會人數僅僅25人;而36年後,這一屆GDC在美國舊金山最大的會議中心舉辦,裏面聚集了1000多場演講、近3萬名從業者,演講提案要經過專家委員會多輪篩選,據說申報最終通過率可能不足15%……有如此強大的影響力,可以說GDC已經代表着遊戲行業最前沿的動向和未來趨勢。
反過來說,這些登上GDC的開發者和團隊,都在積極擁抱全球化的遊戲研發進程,並用自己的探索影響着遊戲行業的未來。不管平時怎麼調侃國內大廠,這一點我還是挺Respect。
就拿魔方來說,從一個玩家的角度出發,我從來沒期望過《火影忍者》手遊搞這麼前沿的AI技術;從開發者角度思考,從頭建團隊、做這麼激進的方案,好像也有點危險。尤其是在這幾年,能把團隊養活都不錯了,還有多少人顧得上搞這種超長線的投資?
但從功利的角度想想,這或許也是因爲此前的一些經歷,讓魔方對前沿產品所需的積累和儲備格外敏感、敢去衝這樣的項目。好比Enzo(魔方總裁張晗勁)說的:「就像自己天天在家練功夫,突然有一天發現外面的人都用上機關槍了。這時你的第一反應不會是爲什麼我這次沒打贏,而是開始懷疑,我大概率打一萬次也打不過。」
原文:晚點LatePost報道
所以,自從魔方AI團隊的技術以《火影忍者》手遊爲範本取得多項專利後,他們的「集海訓練系統」也陸續應用到FPS領域的《暗區突圍》手遊,以及另外三款在研新品中。AI團隊規模人數,在2023年擴充了50%左右。除了遊戲內的智能AI外,他們也開始探索應用於不同品類遊戲的生成式AI項目,大大加速了遊戲美術和動畫資源的生產效率。
在產品層面上,整個射擊品類的成績,也是靠他們這種勢頭衝出來的。從《獨立防線》到《王牌戰士》,再到《暗區突圍》,在付出八年時間、三代產品前赴後繼的努力之後,魔方終於拿到了射擊品類的門票——發行1年,全球用戶已經超過了1億。
而上升到騰訊,乃至其他頭部大廠的層面,這一點其實是一樣的——如今騰訊已經有了足夠充分的條件和位置,他們就是一定要走向全球、影響未來的。
怎麼影響呢?有一些挺實在的例子可以聊聊。比如Elvis就提到,他在魔方很開心的一個原因是:他在高校的研究成果,可能只會有幾百人看看論文,根本沒地方應用;而在遊戲團隊的研發成果,大概率會和數百萬玩家見面。
這或許也關係到做學術和做工程的本質區別。Elvis舉了另一個例子:「科學跟工程最大的區別在哪?有一篇關於網絡遊戲架構的論文曾在2004年發表,它是這個領域裏引用量最高的論文。但是從2004年到2024年,從來沒有一個成功的遊戲應用它的架構,一個也沒有。」
原因在於,論文裏提到了用串流技術來架構網遊,但與視頻相比,網遊的數據變化頻率極高、數據量小,用針對大量下載數據流量的技術來探討網遊架構,從邏輯上已經錯了。但是因爲這篇論文寫得很好、實驗合規,也夠創新,所以上了很多頂會頂刊,但一直都很難投入大規模應用。
「我經常舉這個例子——科學跟工程最大的區別就在這裏,工程不一定要非常創新,不一定要做很多高大上的事情,但一定要解決真正的問題。」
而放眼全球,遊戲廠商的優勢就在這裏。以騰訊爲例,如今它已經在海外通過投資併購,或者自建了龐大的團隊,全球化也早就佈局已久——早在2008年就投資了拳頭,2021年還組建了Level Infinite全面出海;最關鍵的,是它擁有極大規模的用戶,這正好就是行業未來發展所必需的,前所未有的技術挑戰和訓練條件,在這麼多用戶的接觸和碰撞之下,真正的應用會放出火花。
如今,中國廠商已經在這條路上邁出了一大步。我相信在不久的未來,我們還能見到更厲害的成果,看到他們實實在在地讓遊戲行業變得更好。