智源研究院理事長黃鐵軍

導讀
今年2月，由北京智源研究院的論文"Multimodal learning with next-token prediction for large multimodal models（通過預測下一個詞元進行多模態學習的多模態大模型）"在Nature上發表。這是繼DeepSeek登上封面後，第二個中國大模型團隊研究成果在Nature正刊發表，同時這也是國內科研機構的首次上刊。

撰文｜張天祁

當下的多模態模型主要依賴專門化路徑，文本、視頻與圖像的處理範式各不相同。是否存在可以統一多模態的通用路線，此前一直缺乏定論。智源研究院在Nature發表的這項研究，基於其多模態模型 Emu3表明：只需採用自迴歸路線，也就是像大模型處理文本一樣，通過預測序列中的下一個詞元（Next-token Prediction）來理解和生成數據，就可以實現多模態學習的邏輯統一。

Emu3 在感知和生成任務上均達到了成熟特定任務模型的性能，匹配旗艦系統的表現。更重要的是，在同一套統一架構下，該模型展現了極強的通用性，能自然地擴展到機器人操作以及多模態交互內容生成等任務。

本文通訊作者之一，智源研究院理事長、北京大學計算機學院教授黃鐵軍接受了《知識分子》的訪談。他詳細介紹了 Emu3 如何通過自迴歸路線實現多模態的統一，並對當前通用人工智能（AGI）發展的技術路線發表了見解。

01 通往 AGI 的路已經找到，接下來就是把它走透

《知識分子》：近年的AI能力進步很快。智源一直關注着AI領域的變化，如果回頭看近年以來的突破，您認爲真正關鍵的轉折什麼？

黃鐵軍：從 2018 年到現在，人們找到了一條能走通的技術路線，就是自迴歸路線：基於Transformer的結構，用預測下一個詞元（Token）的方式去訓練模型。這是最重要的從0到1的突破，這條路通向了通用人工智能（AGI）。

智源一直在堅持一個信念，既然Transformer 加上預測下一個詞元的路線，在語言模型上徹底走通了，那它能不能拓展到所有模態的數據，無論是語言、圖像、視頻，還是視覺—語言—動作（VLA）等多模態數據？這件事在方法論上，我認爲是完全可行的。

大家現在談語言、圖像、視頻，其實只是我們最常見、最容易理解的數據形態，實際上這個方法可以裝得下任意的數據形態，包括這個世界不同層次的各種數據。

但這還只是我們的信念，如果要真正實現，就得繼續用這些數據去實踐。技術創新只能靠時間去淘洗，靠結果來證明。

《知識分子》：您把2018年視作一個轉折點，2018年前後發生了什麼變化？

黃鐵軍：2018 年之前，人工智能主要還是由人主導的，也就是由人來設計智能。無論知識庫還是專家系統，設計師像上帝一樣掌控着系統背後的每一個邏輯，這是一種偏向傳統科學思維的模式，認爲先要把具體的原理搞清楚，再去基於原理人工設計一個系統。

但 2018 年之後，隨着第一代GPT的誕生，出現了所謂的生成式人工智能，它的方法論發生了根本變化。很多人把“生成”理解爲系統能生成文本、圖像或視頻，但我更傾向於把生成理解爲類似地球生命生成的過程，也就是一種演化生成（evolutionary generation）。

地球上從沒有生命到有生命，從簡單到複雜，背後有沒有激勵機制？當然有。但背後的激勵機制，我們到現在爲止還很不清楚。生命科學、腦科學搞了這麼多年，總體上還是一個“黑暗森林”，我們只是在一點點地試圖發現背後的原理。

2018年後發生的變化也是這樣。人們找到了走向通用人工智能的一條可行技術路線，通過數據驅動的方法訓練模型，讓智能湧現，但是這個技術路線下發生相互作用的過程，我們不清楚。

《知識分子》：您說自迴歸路線是通向AGI的唯一路徑。但對於AGI的定義爭論很多，您對它的看法是？

黃鐵軍：我的觀點是，通用人工智能已經在一定程度上實現了。

按照傳統思維方式，大家會覺得沒實現，因爲還沒搞清楚它的原理，怎麼就算實現了呢？但現在的大模型已經表現出很強的通用能力。你可以測試它，如果從能力上講，它比很多人還強。在這種情況下，我們還要堅持說它不是一個具有通用的智能系統，這就有點不講道理。

大家對 AGI 的認知變化，也和人工智能歷史上概念的變化有關係。最早的通用人工智能定義，是從行爲、功能、表現上看的，也就是圖靈測試。如果用一個第三方測試，在互動中判斷不出哪個是人、哪個是機器，那就說明這臺機器通過了測試。現在大模型已經達到了這個要求。

AGI這個詞差不多是在 90 年代末出現的，至今也就二十幾年的時間。大家認爲 AGI 就是通用人工智能。但按照嚴格的定義，90 年代提出的 AGI 概念其實是更難實現的，它認爲AI需要有自我意識。

如果AGI是指有自我意識的人工智能，我認爲今天還沒實現，或者這至少是一個開放性問題。但如果我們不採取這種過於嚴格的概念，說 AGI 指的一定是有自我意識，而只是說它能像人一樣完成各種不同的任務，具備這種通用性，那我認爲現在是已經有了。

《知識分子》：自迴歸這條路線爲什麼能夠帶來變革。

黃鐵軍：這種方法抓到了智能演化的關鍵。“預測下一個詞元”看起來簡單，但實際是智能的核心問題。因爲所有智能系統本質上都在做一件事：用歷史推測未來。

動物要根據過去的經驗判斷是否逃跑；人類根據歷史推斷經濟走勢；讀書是爲了提升對未來判斷的能力。智能的最基本功能，就是在不確定環境中，提高做出合理預期的概率。生物智能進化過程，也就是合理選擇的概率不斷提升的過程。

這條路包含兩個缺一不可的部分。第一個是 Transformer。如果用生命科學類比，它就是“結構基礎”。生命科學裏講“結構決定功能”，有什麼樣的 DNA，就決定了什麼樣的生理形態。在 AGI 領域，Transformer 就是那個基本結構。

但僅有基礎還不夠。智能是在與周圍世界互動中慢慢演化的。人類大腦也一樣，它的智能不是一次性形成的，而是在環境變化中逐漸演化。這是所謂功能塑造結構，環境的壓力在推動結構的改變。

在人工智能中，這種演化依賴數據驅動。大模型通過自迴歸訓練，也就是不斷預測下一個詞元來學習規律。每一次預測都是一次嘗試：如果預測錯了，模型就根據數據調整內部參數。預測對了，就強化這些連接。這樣，模型在海量數據作用下逐漸掌握語言、邏輯，甚至多模態信息的規律。 Transformer加上自迴歸訓練，滿足了智能演化的基本條件。

《知識分子》：預測下一個詞元是如何發揮作用的？

黃鐵軍：詞元是自然語言處理的基本單元，可以是單詞、詞組或詞根，也可以是標點符號或人工定義的標記，本質上只是符號。理解符號的意義有兩種方式，一種是直接感受，但AI 沒有身體，它只能通過符號與符號之間的關係來學習意義。

2018年之前，早期的詞向量方法通過統計詞與詞之間的共現關係，把每個詞映射到一個高維向量空間。誰經常和誰一起出現，它們在空間中的距離就更近。

但這一階段的表示是“固定”的。一個詞無論出現在什麼語境中，其向量基本不變。模型學到的是詞的平均意義，而不是語境中的動態角色。也就是說，它解決了“詞是什麼意思”的問題，卻沒有解決“詞在這句話裏是什麼意思”的問題。

Transformer 的出現改變了這一點。舉個例子，《紅樓夢》書中前後幾十回的伏筆是相互關聯的，理解人物不能只看名字，而是要看他與誰互動、經歷過什麼。Transformer 能夠做的，是在給定的詞元序列中，發現任意兩個詞元之間的關係。放到《紅樓夢》裏，就是能夠計算出書中任意兩個字的相關性。

人的智能要理解一部小說或長文章，其實也是在上下文中建立關係、反覆推敲邏輯。模型本質上就在做這件事，只不過它是在更大規模、更高維度上完成的。不僅理解了內容，甚至比我們絕大多數人讀書理解得都要透徹。

所以，當模型預測下一個詞元時，它並不是簡單地做詞頻統計。它是在調用一個高度複雜的結構，對當前上下文的全部關係進行壓縮表達。預測只是它的表現，真正發生的是結構對規律的內化，並通過這種關係推演出後續的發展。

02 讓AI像預測語言一樣預測物理世界

《知識分子》：人工智能現在表現出的能力已經相當強。但很多研究者認爲，如果不能把模型內部機理完全解釋清楚，它就不能算真正的通用人工智能。

黃鐵軍：說實話，這是一種典型的書呆子思維。DeepSeek引發全球震動後，DeepMind CEO哈薩比斯評論道，“DeepSeek可能是中國最好的人工智能模型，但沒展示任何新的科學進展”。這種批評就是戴着科學的眼鏡來看技術創新問題。

如果一定要類比，人類歷史上很多偉大的技術突破都是“先有技術路徑，後有科學原理”。比如飛機的發明，萊特兄弟造出飛機時，空氣動力學還遠未完善，飛機的飛行原理在當時也未能完全被理論界解釋清楚，但這並不妨礙飛機已經成功飛上了天，並改變了世界。

人工智能的發展目前也處於這個階段。大模型現在更接近一項工程創新，而非傳統意義上純粹的科學探索。通過“預測下一個token”這個方法論，人類已經制造出了具備通用能力的智能系統，這種實踐上的成功是無可辯駁的。

另外，我們必須明確一點：智能本身是極其複雜的，它不能被簡化成一套幾條規則或者公式。僅僅因爲它不符合特定的原理或規則，就否定當下大模型的智能水平，這像拒絕承認飛機會飛那樣可笑。

《知識分子》：但如果一直搞不清楚大模型背後的原理，這種技術創新能算是一門嚴謹的科學嗎？

黃鐵軍：原理並不是必要的。我之所以強調“不必要”，並不是說原理沒有用、不好，而是說不要以它爲前提。現在的問題是，一旦講“必要”，很多人就會認爲要發明一套原理才能往下走。我覺得這種認知真的限制了一些人做出更大貢獻的機會，因爲他們的思維太固化了。其實我以前也是這樣的，但我後來終於解放了自己。

我們發現了一套有效的方法論，能把海量數據轉化爲智能，這套方法已經跑通了。至於其中的機制，那是後續科學研究的任務，不能作爲我們放棄技術創新的前提。我們不應因爲迷信已知的科學思維方式，就去否認技術創新的客觀結果。

當下的重點是工程化、規模化，把這條路走深、走透徹。至於人工智能的科學原理，自然會有後來的研究者完成。

《知識分子》：如果不能總結成一些規則或者公式，可以有一些標準判斷智能發展到什麼程度了嗎？

黃鐵軍：可以設定一些測量指標，但隨着智能的複雜化，測量它的尺子也要有變化。真正的智能的複雜性是無窮無盡的，我們不能削足適履，只拿着靜態的標準去丈量智能。有限的測量只能是一個瞭解它的一個窗口，遠遠不是全部。

《知識分子》：您此前多次提到，大模型首先是一種技術創新。但像Nature這樣的頂級期刊，往往更看重基礎科學和理論上的原創貢獻。智源這次選擇把 Emu3 這種相關的成果投給它，是出於什麼考慮？

黃鐵軍：我希望能糾正傳統自然科學的偏見。很多自然科學背景的人，被自己的思維方式固化了。他們習慣於先有一個客觀存在的對象，然後去尋找它背後的規律。

但人工智能不是這樣。人工智能這個系統本身並不存在於自然界，它是需要被創造出來的，是一個技術創新。和傳統自然科學研究的內容，可以說是完全相反的兩個方向，用一個方向的思維方式去套到另外一個方向，是南轅北轍的。

很多人總在問：“人工智能背後的規律是什麼？”可問題是，首先得有一個已經存在的事物，才談得上研究它的規律。生命存在，所以可以研究生命規律。但人工智能這個系統本身還在被建造之中，還沒做出來就追問它的終極原理，那等於把技術創新的過程卡死了。

如果我們等到完全搞清楚原理纔開始動手，那可能 300 年都做不出來。技術史從來不是這樣走的。歷史的常態，是先有技術突破，後有科學解釋。先有飛機，後有空氣動力學的發展。先去開發人工智能，再去研究人工智能科學。所謂“事有終始，知所先後，則近道矣”，順序都沒有弄清楚，就用自然科學的尺度去判斷完全不同的方向，有什麼可驕傲的呢？

03 用自迴歸路線，統一多模態

《知識分子》：這篇發表在Nature的論文，核心發現是僅通過自迴歸路徑即可實現多模態學習的統一。在您看來，目前主流多模態模型的技術侷限在哪裏？

黃鐵軍：現在說到多模態，大家容易想到的是“多個模態”。也就是把視覺、聽覺、文字這些模態簡單拼在一起，就成了所謂多模態。

例如，Transformer在文字任務上表現優秀，但沒有覆蓋多模態。現在圖像和視頻生成領域主要使用的是Diffusion模型，它的原理是通過迭代去噪實現高分辨率合成。視覺-語言感知方面，主要依賴組合式方法，利用 CLIP 編碼器與大模型。

如果只是爲了解決某個特定模態的問題，針對它的特點去找一些專用的架構或算法，效果確實能做得比較好。但是，如果每一個模態都要靠特殊的補丁去縫合，那就不能叫做通用智能。我們關心的是，有沒有一條通用路線，可以解決各種模態、各種數據的智能問題。

這就是自迴歸路線的價值所在，也是我們認定未來構建通用人工智能的核心思路。Emu3 就是在這一思路下誕生的。通過對 Emu3 的實驗驗證，我們發現即使不依賴擴散模型或組合式架構，純粹的自迴歸模型在感知和生成上也能達到旗艦模型水平。

《知識分子》：論文提到 Emu3 採用純自迴歸路徑生成視頻，且性能表現足以對標目前主流的擴散模型（Diffusion Model）。純自迴歸與擴散模型在本質區別上是什麼？

黃鐵軍：Diffusion的生成，是生成內容本身，並不是我前面提到的演化生成，這兩者有根本區別。

自迴歸路線適合所有類型的數據，是個通用的方法。通過預測下一個詞元，它能夠對所有類型的數據進行建模。圖像、視頻，甚至是機器人的動作，這種方法都能處理。這也是我們堅持自迴歸路線的理由，它有很大希望能夠統一所有的模態。

Diffusion 模型在生成圖像和視頻時表現很出色，它的核心是模擬物理擴散過程：比如墨水滴在水中擴散，從初始狀態到混合狀態，然後通過逆向過程生成圖像或視頻。這類方法擅長生成視覺效果，畫面看起來逼真，但它並不關注畫面背後事物之間的真實規律。這種方法適合圖像生成這個相對較窄的領域，是一個專用的方法。

當面對語言或其他抽象數據時，情況就不同了。語言中，詞語之間存在複雜的語義和結構關係，小說中的角色、事件和概念相互聯繫，形成龐大而複雜的網絡。這種複雜性遠超過物理世界中分子或像素的相互作用，Diffusion 方法在這種情況下無法有效建模。它無法捕捉詞語之間深層的邏輯關係，也不能推演未來的發展。

《知識分子》：後續的研究，還會進一步擴展到其他模態嗎？

黃鐵軍：這篇論文已經給出了答案。我們把 Emu3 轉化成視覺-語言-動作（VLA）模型，直接去跑機器人操作任務。在 CALVIN 這個長程操作的基準測試裏，這種通用路線做出來的效果，完全不輸給那些專門針對機器人開發的模型。

有一點很重要：我們是直接做視覺、語言和動作的離散編碼，不像有些路徑還需要專門搞視頻後訓練。這再次證明了，自迴歸就是一個普適邏輯。它不需要針對特定任務打補丁，只要邏輯通了，就能從感知和生成自然地延伸到具身領域。

Nature發表的這項工作，其實是我們在 2024 年基於 Emu3 的初始版本完成的。到了 2025 年，我們又推出了 Emu3.5。

圍繞這個新版本，我們有了更深層的發現：隨着模型參數、數據和算力的規模增長，模型對物理世界的動態、時空關係以及因果邏輯，表現出了明顯的理解和預測能力的湧現。這說明大模型的 Scaling Law 不僅僅在語言上靈驗，把它擴展到比語言更復雜、充滿物理規律的真實世界，這條路同樣是走得通的。

《知識分子》：雖然 Emu3 證明了自迴歸路線在多模態上的潛力，但目前這仍然是一種路徑嘗試。要真正實現“世界模型”，我們還缺什麼？

黃鐵軍：最近很多人在討論 Scaling Law 是不是到頭了，我認爲這個說法是不對的，不是這條規律到頭了，而是語言相關的數據挖掘到頭了。

大家現在談“世界模型”，但什麼才叫“世界”？對機器人來說，進房間不碰桌子、抓杯子知道力道，這就算認識世界了嗎？遠遠不夠。真實的客觀世界有複雜的物理相互作用：你撞牆時，牆是水泥的還是木頭的？如果是玻璃，你能不能直接衝過去？這些關於力學、關於物質屬性的邏輯，在今天的模型訓練裏其實是缺失的。

往深了說，原子與分子之間的相互作用、混凝土凝固後的硬度，難道不是世界的一部分嗎？如果是，那科學實驗的數據、對分子測量的各種數據，都該拿來訓練。只靠今天互聯網上的這點語言和圖像數據，是撐不起真正的通用人工智能的。

哪怕建模了人類已知的所有細節，我們也遠沒有窮盡這個世界。客觀世界的複雜性是無限的，我們只能不斷去逼近它。只要這種無限性還在，只要我們能引入更深層的科學數據，Scaling Law 就沒有頭。

《知識分子》：智源一直在支持來自高校和企業界的學者。那作爲一個獨立研究機構，智源做的研究和大學以及企業做的研究有什麼不同。

黃鐵軍：智源不做大學和企業正在做的事情。

有些事情大學做不了，不是因爲沒有能力，而是條件不夠。想做一個有系統的、實際可操作的項目，需要團隊、經費、時間去搭建。學校裏，老師可以自己琢磨理論問題，但要做一個完整的系統，就必須先找經費、組團隊，這個週期很長。而 AI 的迭代速度根本不等你慢慢跑經費。等你花一年時間把錢拿到手，技術風向可能早就變了。

再說企業。企業是務實的，當一條技術路線還沒有徹底跑通、還只是一種信念的時候，企業是不敢砸重金去試錯的。企業願意做的是別人已經試過了、行之有效的東西，然後迅速把它變成可預期的產品。

智源處在大學和企業之間的中間地帶。我們有相對穩定的經費和團隊，我們只要達成共識，自迴歸路線是解決所有模態的唯一通用路線，那我們就直接動手幹。工程技術的東西，對不對不是靠說服，而是要拿實際的結果來證明。

我們要做的就是花時間把東西做出來。一旦證明這條路通了，企業自然會跟進，花更多的錢去產業化。