從“百模大戰”到“十個手指頭能數過來”,我們爲什麼還要“死磕”基礎大模型
2023年,中國人工智能(AI)行業上演了一場“百模大戰”,截至當年年底,全國擁有10億參數以上的大模型有近80個、100億參數級的大模型逾10個,場面一度繁榮至極。兩年多過去,當初的喧囂已逐漸平息。據業內人士透露,還在持續研究基礎大模型的企業已不足10家,其中包括商湯科技、稀宇科技、階躍星辰等幾家上海企業。
2025年,各種AI應用層出不窮,寫文案、情感陪伴、重塑供應鏈……當甜美的果實已唾手可得,爲什麼上海AI企業還在“死磕”基礎大模型?
Gemini 3成爲爆款源於一次逆風堅守
2025年,AI領域的高潮一波接一波。11月,谷歌發佈新一代人工智能模型Gemini 3,在最能體現大模型整體實力的LMArena排行榜上,它以1501分穩居第一;在“地獄難度”的數學能力測試中,它以23.4%的得分率遠超競爭對手,而OpenAI的GPT-5.1等模型得分率僅在1%左右。
這被視作谷歌在AI領域的一場“絕地反擊”,也徹底扭轉了其在大模型競賽中落後的風評。在2022年底ChatGPT引爆生成式AI浪潮後,被業內公認爲AI“優等生”的谷歌一度陷入被動,產品迭代節奏滯後、市場信心動搖,有人不客氣地評價它“起了個大早,趕了個晚集”。
上海模速空間內AI應用層出不窮。受訪者提供
逆風局中,谷歌沒有跟風OpenAI的“模仿學習到強化學習”路線,而是繼續堅持自己的“理解生成一體化”路線,這與谷歌將大模型定義爲提升效率的超級工具,而非情感伴侶有關。在生成式AI的長跑中,谷歌試圖以耐力超越對手。憑藉着出色的理解和推理,Gemini 3在應用市場上表現強勁,截至去年11月,其全球月活躍用戶同比增長170%。
堅持是大模型研究的“稀有品質”。國內“百模大戰”期間,復旦大學計算機科學技術學院教授邱錫鵬就注意到大模型同質化問題嚴重。在他看來,這些大模型雖然名字、作用不同,但背後都是“一張臉”,更令他焦慮的是,該領域的基礎研究卻在萎縮。以自然語言處理爲例,2015年前,這個領域有對話、問答、機器翻譯等各種方向,那時的學者互相分享自己的研究,並從別人那裏獲得靈感,而當大家都湧向語言模型這條賽道時,更多的可能性被扼殺了。
基礎大模型決定應用能力上限
“我們會一如既往堅持基礎大模型研究。”階躍星辰副總裁李璟說。這家成立不到3年的滬上AI企業已累計發佈22款基座模型,其中包括擁有強大視覺感知和複雜推理能力的新一代基礎大模型Step 3。
階躍星辰選擇“死磕”基礎大模型的邏輯相當簡單:基礎大模型的能力決定了應用的上限,目前大模型技術尚未收斂,如果過早將資源押注應用開發,一旦底層技術發生根本性變革,之前的研發將很快被新技術所取代。
在成立第十個年頭、生成式AI成爲產業主線的背景下,商湯於2024年底啓動業務與組織架構分拆,推出“1+X”戰略:將偏向應用層的智能駕駛“絕影”、家庭機器人“元蘿蔔”、智慧醫療“善萃”、智慧零售“善惠”等業務整合爲“X創新業務”,自身則進一步聚焦生成式AI與視覺AI雙引擎這“1”核心。
商湯元蘿蔔下棋機器人。受訪者提供
這一調整並非技術路線的試探,而是商湯在完成AI代際轉換之後,對核心能力與資源配置的再聚焦。生成式AI對商湯而言,已不再只是技術層面的突破,而是成爲驅動公司未來增長的核心業務。
2025年,AI世界熱點轉換,世界模型成爲焦點。美國斯坦福大學教授李飛飛領導的World Labs(世界實驗室)推出3D世界生成模型Marble,並直言AI的下一個10年屬於空間智能。同年,商湯也推出“開悟”世界模型3.0,在業內人士看來,該模型在對真實世界的建模能力上表現出色,其生成的視頻具備很強的時間與空間一致性,有能力與Marble展開直接競爭。更令人驚訝的是,商湯早在2024年就已推出這一模型。
“不同的聲音”正在復甦
產品覆蓋200多個國家和地區、個人用戶超2億、月活用戶超2700萬——在個人用戶端風生水起的Minimax(稀宇科技)也沒有放棄基礎大模型的研發。
去年10月,稀宇科技掀起一場AI技術的“全家桶”發佈,文本大模型M2、視頻模型海螺2.3、語音模型Speech 2.6和音樂模型Music 2.0,標誌着中國AI企業在全模態技術領域的全面突破。
Minimax在港交所上市。受訪者提供
其中,僅有10B激活參數的M2大模型在全球權威測評榜單Artificial Analysis(AA)上取得歷史性突破——總分衝入全球前五、開源第一,躋身全球文本模型第一梯隊。更令人稱奇的是,M2的綜合成本只有名列全球大模型“S級”梯隊中的Claude 4.5的8%,推理速度卻是後者的近兩倍。這種“高智能,更實惠”的理念正在從根本上改寫AI領域的“算力遊戲”規則。
有意思的是,AI賽道上“不同的聲音”正在復甦。復旦大學計算與智能創新學院教授張軍平就提醒,現在AI的研究路徑可能走反了,人類智能的進化應先從“感知”開始,再發展“認知”,也有人仍堅信能從以IBM沃森機器人爲代表的“AI符號主義”技術路線中尋得新突破。
創新成果越是唾手可得,爆款越有可能出自冷門,這正是顛覆式創新的神奇之處。歷史經驗告訴人們,需要有組織的科研去捕捉“異常”,甚至顛覆已有體系。所以,爲什麼上海AI企業仍要“死磕”大模型?因爲技術尚未收斂,一切皆有可能。