專訪智源理事長黃鐵軍:通往AGI的路已經找到

來源: 更新:


智源研究院理事長黃鐵軍


導讀

今年2月,由北京智源研究院的論文"Multimodal learning with next-token prediction for large multimodal models(通過預測下一個詞元進行多模態學習的多模態大模型)"在Nature上發表。這是繼DeepSeek登上封面後,第二個中國大模型團隊研究成果在Nature正刊發表,同時這也是國內科研機構的首次上刊。


撰文|張天祁



當下的多模態模型主要依賴專門化路徑,文本、視頻與圖像的處理範式各不相同。是否存在可以統一多模態的通用路線,此前一直缺乏定論。智源研究院在Nature發表的這項研究,基於其多模態模型 Emu3表明:只需採用自迴歸路線,也就是像大模型處理文本一樣,通過預測序列中的下一個詞元(Next-token Prediction)來理解和生成數據,就可以實現多模態學習的邏輯統一。


Emu3 在感知和生成任務上均達到了成熟特定任務模型的性能,匹配旗艦系統的表現。更重要的是,在同一套統一架構下,該模型展現了極強的通用性,能自然地擴展到機器人操作以及多模態交互內容生成等任務。


本文通訊作者之一,智源研究院理事長、北京大學計算機學院教授黃鐵軍接受了《知識分子》的訪談。他詳細介紹了 Emu3 如何通過自迴歸路線實現多模態的統一,並對當前通用人工智能(AGI)發展的技術路線發表了見解。





01 通往 AGI 的路已經找到,接下來就是把它走透


《知識分子》:近年的AI能力進步很快。智源一直關注着AI領域的變化,如果回頭看近年以來的突破,您認爲真正關鍵的轉折什麼?


黃鐵軍:從 2018 年到現在,人們找到了一條能走通的技術路線,就是自迴歸路線:基於Transformer的結構,用預測下一個詞元(Token)的方式去訓練模型。這是最重要的從0到1的突破,這條路通向了通用人工智能(AGI)。


智源一直在堅持一個信念,既然Transformer 加上預測下一個詞元的路線,在語言模型上徹底走通了,那它能不能拓展到所有模態的數據,無論是語言、圖像、視頻,還是視覺—語言—動作(VLA)等多模態數據?這件事在方法論上,我認爲是完全可行的。


大家現在談語言、圖像、視頻,其實只是我們最常見、最容易理解的數據形態,實際上這個方法可以裝得下任意的數據形態,包括這個世界不同層次的各種數據。


但這還只是我們的信念,如果要真正實現,就得繼續用這些數據去實踐。技術創新只能靠時間去淘洗,靠結果來證明。


《知識分子》:您把2018年視作一個轉折點,2018年前後發生了什麼變化?


黃鐵軍:2018 年之前,人工智能主要還是由人主導的,也就是由人來設計智能。無論知識庫還是專家系統,設計師像上帝一樣掌控着系統背後的每一個邏輯,這是一種偏向傳統科學思維的模式,認爲先要把具體的原理搞清楚,再去基於原理人工設計一個系統。


但 2018 年之後,隨着第一代GPT的誕生,出現了所謂的生成式人工智能,它的方法論發生了根本變化。很多人把“生成”理解爲系統能生成文本、圖像或視頻,但我更傾向於把生成理解爲類似地球生命生成的過程,也就是一種演化生成(evolutionary generation)。


地球上從沒有生命到有生命,從簡單到複雜,背後有沒有激勵機制?當然有。但背後的激勵機制,我們到現在爲止還很不清楚。生命科學、腦科學搞了這麼多年,總體上還是一個“黑暗森林”,我們只是在一點點地試圖發現背後的原理。


2018年後發生的變化也是這樣。人們找到了走向通用人工智能的一條可行技術路線,通過數據驅動的方法訓練模型,讓智能湧現,但是這個技術路線下發生相互作用的過程,我們不清楚。


《知識分子》:您說自迴歸路線是通向AGI的唯一路徑。但對於AGI的定義爭論很多,您對它的看法是?


黃鐵軍:我的觀點是,通用人工智能已經在一定程度上實現了。


按照傳統思維方式,大家會覺得沒實現,因爲還沒搞清楚它的原理,怎麼就算實現了呢?但現在的大模型已經表現出很強的通用能力。你可以測試它,如果從能力上講,它比很多人還強。在這種情況下,我們還要堅持說它不是一個具有通用的智能系統,這就有點不講道理。


大家對 AGI 的認知變化,也和人工智能歷史上概念的變化有關係。最早的通用人工智能定義,是從行爲、功能、表現上看的,也就是圖靈測試。如果用一個第三方測試,在互動中判斷不出哪個是人、哪個是機器,那就說明這臺機器通過了測試。現在大模型已經達到了這個要求。


AGI這個詞差不多是在 90 年代末出現的,至今也就二十幾年的時間。大家認爲 AGI 就是通用人工智能。但按照嚴格的定義,90 年代提出的 AGI 概念其實是更難實現的,它認爲AI需要有自我意識。


如果AGI是指有自我意識的人工智能,我認爲今天還沒實現,或者這至少是一個開放性問題。但如果我們不採取這種過於嚴格的概念,說 AGI 指的一定是有自我意識,而只是說它能像人一樣完成各種不同的任務,具備這種通用性,那我認爲現在是已經有了。


《知識分子》:自迴歸這條路線爲什麼能夠帶來變革。


黃鐵軍:這種方法抓到了智能演化的關鍵。“預測下一個詞元”看起來簡單,但實際是智能的核心問題。因爲所有智能系統本質上都在做一件事:用歷史推測未來。


動物要根據過去的經驗判斷是否逃跑;人類根據歷史推斷經濟走勢;讀書是爲了提升對未來判斷的能力。智能的最基本功能,就是在不確定環境中,提高做出合理預期的概率。生物智能進化過程,也就是合理選擇的概率不斷提升的過程。


這條路包含兩個缺一不可的部分。第一個是 Transformer。如果用生命科學類比,它就是“結構基礎”。生命科學裏講“結構決定功能”,有什麼樣的 DNA,就決定了什麼樣的生理形態。在 AGI 領域,Transformer 就是那個基本結構。


但僅有基礎還不夠。智能是在與周圍世界互動中慢慢演化的。人類大腦也一樣,它的智能不是一次性形成的,而是在環境變化中逐漸演化。這是所謂功能塑造結構,環境的壓力在推動結構的改變。


在人工智能中,這種演化依賴數據驅動。大模型通過自迴歸訓練,也就是不斷預測下一個詞元來學習規律。每一次預測都是一次嘗試:如果預測錯了,模型就根據數據調整內部參數。預測對了,就強化這些連接。這樣,模型在海量數據作用下逐漸掌握語言、邏輯,甚至多模態信息的規律。 Transformer加上自迴歸訓練,滿足了智能演化的基本條件。


《知識分子》:預測下一個詞元是如何發揮作用的?


黃鐵軍:詞元是自然語言處理的基本單元,可以是單詞、詞組或詞根,也可以是標點符號或人工定義的標記,本質上只是符號。理解符號的意義有兩種方式,一種是直接感受,但AI 沒有身體,它只能通過符號與符號之間的關係來學習意義。


2018年之前,早期的詞向量方法通過統計詞與詞之間的共現關係,把每個詞映射到一個高維向量空間。誰經常和誰一起出現,它們在空間中的距離就更近。


但這一階段的表示是“固定”的。一個詞無論出現在什麼語境中,其向量基本不變。模型學到的是詞的平均意義,而不是語境中的動態角色。也就是說,它解決了“詞是什麼意思”的問題,卻沒有解決“詞在這句話裏是什麼意思”的問題。


Transformer 的出現改變了這一點。舉個例子,《紅樓夢》書中前後幾十回的伏筆是相互關聯的,理解人物不能只看名字,而是要看他與誰互動、經歷過什麼。Transformer 能夠做的,是在給定的詞元序列中,發現任意兩個詞元之間的關係。放到《紅樓夢》裏,就是能夠計算出書中任意兩個字的相關性。


人的智能要理解一部小說或長文章,其實也是在上下文中建立關係、反覆推敲邏輯。模型本質上就在做這件事,只不過它是在更大規模、更高維度上完成的。不僅理解了內容,甚至比我們絕大多數人讀書理解得都要透徹。


所以,當模型預測下一個詞元時,它並不是簡單地做詞頻統計。它是在調用一個高度複雜的結構,對當前上下文的全部關係進行壓縮表達。預測只是它的表現,真正發生的是結構對規律的內化,並通過這種關係推演出後續的發展。


02 讓AI像預測語言一樣預測物理世界


《知識分子》:人工智能現在表現出的能力已經相當強。但很多研究者認爲,如果不能把模型內部機理完全解釋清楚,它就不能算真正的通用人工智能。


黃鐵軍:說實話,這是一種典型的書呆子思維。DeepSeek引發全球震動後,DeepMind CEO哈薩比斯評論道,“DeepSeek可能是中國最好的人工智能模型,但沒展示任何新的科學進展”。這種批評就是戴着科學的眼鏡來看技術創新問題。


如果一定要類比,人類歷史上很多偉大的技術突破都是“先有技術路徑,後有科學原理”。比如飛機的發明,萊特兄弟造出飛機時,空氣動力學還遠未完善,飛機的飛行原理在當時也未能完全被理論界解釋清楚,但這並不妨礙飛機已經成功飛上了天,並改變了世界。


人工智能的發展目前也處於這個階段。大模型現在更接近一項工程創新,而非傳統意義上純粹的科學探索。通過“預測下一個token”這個方法論,人類已經制造出了具備通用能力的智能系統,這種實踐上的成功是無可辯駁的。


另外,我們必須明確一點:智能本身是極其複雜的,它不能被簡化成一套幾條規則或者公式。僅僅因爲它不符合特定的原理或規則,就否定當下大模型的智能水平,這像拒絕承認飛機會飛那樣可笑。


《知識分子》:但如果一直搞不清楚大模型背後的原理,這種技術創新能算是一門嚴謹的科學嗎?


黃鐵軍:原理並不是必要的。我之所以強調“不必要”,並不是說原理沒有用、不好,而是說不要以它爲前提。現在的問題是,一旦講“必要”,很多人就會認爲要發明一套原理才能往下走。我覺得這種認知真的限制了一些人做出更大貢獻的機會,因爲他們的思維太固化了。其實我以前也是這樣的,但我後來終於解放了自己。


我們發現了一套有效的方法論,能把海量數據轉化爲智能,這套方法已經跑通了。至於其中的機制,那是後續科學研究的任務,不能作爲我們放棄技術創新的前提。我們不應因爲迷信已知的科學思維方式,就去否認技術創新的客觀結果。


當下的重點是工程化、規模化,把這條路走深、走透徹。至於人工智能的科學原理,自然會有後來的研究者完成。


《知識分子》:如果不能總結成一些規則或者公式,可以有一些標準判斷智能發展到什麼程度了嗎?


黃鐵軍:可以設定一些測量指標,但隨着智能的複雜化,測量它的尺子也要有變化。真正的智能的複雜性是無窮無盡的,我們不能削足適履,只拿着靜態的標準去丈量智能。有限的測量只能是一個瞭解它的一個窗口,遠遠不是全部。


《知識分子》:您此前多次提到,大模型首先是一種技術創新。但像Nature這樣的頂級期刊,往往更看重基礎科學和理論上的原創貢獻。智源這次選擇把 Emu3 這種相關的成果投給它,是出於什麼考慮?


黃鐵軍:我希望能糾正傳統自然科學的偏見。很多自然科學背景的人,被自己的思維方式固化了。他們習慣於先有一個客觀存在的對象,然後去尋找它背後的規律。


但人工智能不是這樣。人工智能這個系統本身並不存在於自然界,它是需要被創造出來的,是一個技術創新。和傳統自然科學研究的內容,可以說是完全相反的兩個方向,用一個方向的思維方式去套到另外一個方向,是南轅北轍的。


很多人總在問:“人工智能背後的規律是什麼?”可問題是,首先得有一個已經存在的事物,才談得上研究它的規律。生命存在,所以可以研究生命規律。但人工智能這個系統本身還在被建造之中,還沒做出來就追問它的終極原理,那等於把技術創新的過程卡死了。


如果我們等到完全搞清楚原理纔開始動手,那可能 300 年都做不出來。技術史從來不是這樣走的。歷史的常態,是先有技術突破,後有科學解釋。先有飛機,後有空氣動力學的發展。先去開發人工智能,再去研究人工智能科學。所謂“事有終始,知所先後,則近道矣”,順序都沒有弄清楚,就用自然科學的尺度去判斷完全不同的方向,有什麼可驕傲的呢?


03 用自迴歸路線,統一多模態


《知識分子》:這篇發表在Nature的論文,核心發現是僅通過自迴歸路徑即可實現多模態學習的統一。在您看來,目前主流多模態模型的技術侷限在哪裏?


黃鐵軍:現在說到多模態,大家容易想到的是“多個模態”。也就是把視覺、聽覺、文字這些模態簡單拼在一起,就成了所謂多模態。


例如,Transformer在文字任務上表現優秀,但沒有覆蓋多模態。現在圖像和視頻生成領域主要使用的是Diffusion模型,它的原理是通過迭代去噪實現高分辨率合成。視覺-語言感知方面,主要依賴組合式方法,利用 CLIP 編碼器與大模型。


如果只是爲了解決某個特定模態的問題,針對它的特點去找一些專用的架構或算法,效果確實能做得比較好。但是,如果每一個模態都要靠特殊的補丁去縫合,那就不能叫做通用智能。我們關心的是,有沒有一條通用路線,可以解決各種模態、各種數據的智能問題。


這就是自迴歸路線的價值所在,也是我們認定未來構建通用人工智能的核心思路。Emu3 就是在這一思路下誕生的。通過對 Emu3 的實驗驗證,我們發現即使不依賴擴散模型或組合式架構,純粹的自迴歸模型在感知和生成上也能達到旗艦模型水平。


《知識分子》:論文提到 Emu3 採用純自迴歸路徑生成視頻,且性能表現足以對標目前主流的擴散模型(Diffusion Model)。純自迴歸與擴散模型在本質區別上是什麼?


黃鐵軍:Diffusion的生成,是生成內容本身,並不是我前面提到的演化生成,這兩者有根本區別。


自迴歸路線適合所有類型的數據,是個通用的方法。通過預測下一個詞元,它能夠對所有類型的數據進行建模。圖像、視頻,甚至是機器人的動作,這種方法都能處理。這也是我們堅持自迴歸路線的理由,它有很大希望能夠統一所有的模態。


Diffusion 模型在生成圖像和視頻時表現很出色,它的核心是模擬物理擴散過程:比如墨水滴在水中擴散,從初始狀態到混合狀態,然後通過逆向過程生成圖像或視頻。這類方法擅長生成視覺效果,畫面看起來逼真,但它並不關注畫面背後事物之間的真實規律。這種方法適合圖像生成這個相對較窄的領域,是一個專用的方法。


當面對語言或其他抽象數據時,情況就不同了。語言中,詞語之間存在複雜的語義和結構關係,小說中的角色、事件和概念相互聯繫,形成龐大而複雜的網絡。這種複雜性遠超過物理世界中分子或像素的相互作用,Diffusion 方法在這種情況下無法有效建模。它無法捕捉詞語之間深層的邏輯關係,也不能推演未來的發展。


《知識分子》:後續的研究,還會進一步擴展到其他模態嗎?


黃鐵軍:這篇論文已經給出了答案。我們把 Emu3 轉化成視覺-語言-動作(VLA)模型,直接去跑機器人操作任務。在 CALVIN 這個長程操作的基準測試裏,這種通用路線做出來的效果,完全不輸給那些專門針對機器人開發的模型。


有一點很重要:我們是直接做視覺、語言和動作的離散編碼,不像有些路徑還需要專門搞視頻後訓練。這再次證明了,自迴歸就是一個普適邏輯。它不需要針對特定任務打補丁,只要邏輯通了,就能從感知和生成自然地延伸到具身領域。


Nature發表的這項工作,其實是我們在 2024 年基於 Emu3 的初始版本完成的。到了 2025 年,我們又推出了 Emu3.5。


圍繞這個新版本,我們有了更深層的發現:隨着模型參數、數據和算力的規模增長,模型對物理世界的動態、時空關係以及因果邏輯,表現出了明顯的理解和預測能力的湧現。這說明大模型的 Scaling Law 不僅僅在語言上靈驗,把它擴展到比語言更復雜、充滿物理規律的真實世界,這條路同樣是走得通的。


《知識分子》:雖然 Emu3 證明了自迴歸路線在多模態上的潛力,但目前這仍然是一種路徑嘗試。要真正實現“世界模型”,我們還缺什麼?


黃鐵軍:最近很多人在討論 Scaling Law 是不是到頭了,我認爲這個說法是不對的,不是這條規律到頭了,而是語言相關的數據挖掘到頭了。


大家現在談“世界模型”,但什麼才叫“世界”?對機器人來說,進房間不碰桌子、抓杯子知道力道,這就算認識世界了嗎?遠遠不夠。真實的客觀世界有複雜的物理相互作用:你撞牆時,牆是水泥的還是木頭的?如果是玻璃,你能不能直接衝過去?這些關於力學、關於物質屬性的邏輯,在今天的模型訓練裏其實是缺失的。


往深了說,原子與分子之間的相互作用、混凝土凝固後的硬度,難道不是世界的一部分嗎?如果是,那科學實驗的數據、對分子測量的各種數據,都該拿來訓練。只靠今天互聯網上的這點語言和圖像數據,是撐不起真正的通用人工智能的。


哪怕建模了人類已知的所有細節,我們也遠沒有窮盡這個世界。客觀世界的複雜性是無限的,我們只能不斷去逼近它。只要這種無限性還在,只要我們能引入更深層的科學數據,Scaling Law 就沒有頭。


《知識分子》:智源一直在支持來自高校和企業界的學者。那作爲一個獨立研究機構,智源做的研究和大學以及企業做的研究有什麼不同。


黃鐵軍:智源不做大學和企業正在做的事情。


有些事情大學做不了,不是因爲沒有能力,而是條件不夠。想做一個有系統的、實際可操作的項目,需要團隊、經費、時間去搭建。學校裏,老師可以自己琢磨理論問題,但要做一個完整的系統,就必須先找經費、組團隊,這個週期很長。而 AI 的迭代速度根本不等你慢慢跑經費。等你花一年時間把錢拿到手,技術風向可能早就變了。


再說企業。企業是務實的,當一條技術路線還沒有徹底跑通、還只是一種信念的時候,企業是不敢砸重金去試錯的。企業願意做的是別人已經試過了、行之有效的東西,然後迅速把它變成可預期的產品。


智源處在大學和企業之間的中間地帶。我們有相對穩定的經費和團隊,我們只要達成共識,自迴歸路線是解決所有模態的唯一通用路線,那我們就直接動手幹。工程技術的東西,對不對不是靠說服,而是要拿實際的結果來證明。


我們要做的就是花時間把東西做出來。一旦證明這條路通了,企業自然會跟進,花更多的錢去產業化。

相關推薦
請使用下列任何一種瀏覽器瀏覽以達至最佳的用戶體驗:Google Chrome、Mozilla Firefox、Microsoft Edge 或 Safari。為避免使用網頁時發生問題,請確保你的網頁瀏覽器已更新至最新版本。
Scroll to Top