上海“書生”大模型奧數高分奪金,解法“前所未見”讓閱卷專家驚歎

來源: 更新:

數學奧賽猶如智慧皇冠上的明珠,是頂尖智力的競技,也一度成爲人工智能(AI)難以攻克的高地。在近日揭曉的全國中學生數學奧林匹克競賽(CMO)決賽中,由上海人工智能實驗室(上海AI實驗室)研發的“書生”科學多模態大模型(Intern-S1)斬獲102分的高分,不僅遠超78分的金牌分數線,更跨過了87分的國家集訓隊入選線,位列大模型得分榜首。

這一突破標誌着國產大模型在複雜邏輯推理方面邁出關鍵一步。上海AI實驗室青年領軍科學家陳愷認爲,數學奧賽終於迎來“AlphaGo時刻”,顯示出人工智能在高難度代數、幾何、數論、組合數學證明題領域的巨大潛力。

從“做對題”邁向“創造性解題”

CMO是中國最高規格的高中生數學奧林匹克競賽,難度不亞於國際數學奧林匹克競賽(IMO),試題以條件隱蔽、邏輯鏈條極長等著稱,且所有題型均爲證明題,相比解答題,對AI的挑戰要大得多。本次CMO決賽的700多名參賽者中,首次納入AI模型,堪稱一場史無前例的“人機同考”,雙方面臨的是相同的時長和閱卷標準。

最終,“書生”大模型展現出了驚人的思維能力。在全部6題中,有4題獲得滿分21分,另兩題則因爲“未證明最優性”“部分不嚴格”而分別得到9分。閱卷專家驚歎其表達方式“非常接近人類”。

最震撼的是其中第4題的解答,這是一道涉及30種顏色、2100張紙牌操作的複雜組合題。“書生”模型不僅在規定時間內得出了正確結論,其解題思路被專家評價爲“一個新的解法,巧妙的調整法,在學生的解法中沒有見過”。

未曾見過的解法,對AI來說,意味着它絕非“知識的搬運工”,而是可以突破人類思維侷限,從“做對題”邁向“創造性解題”。而這一點,哪怕是對人類參賽者而言,這也是一個了不起的成就。

對於此次“書生”大模型的突破,第50屆國際數學奧林匹克競賽金牌選手鄭凡表示,這徹底改變了他對當前大模型數學能力上限的看法,未來大模型有望成爲一名真正的“研究夥伴”,和人類攜手探索數學,乃至更廣闊的科學疆域。

“通專融合”走出“第三條路”

“書生”模型之所以能取得如此突破,關鍵在於它採用了上海AI實驗室提出的“通專融合”技術架構。

當前,全球圍繞科研領域的AI競賽存在兩條主要技術路線:一條是“專業派”,以谷歌AlphaProof爲代表,核心是基於形式化語言的專業模型,其推理過程絕對嚴謹,但泛化性差、效率低;另一條是“通用派”,主要採用基於自然語言的通用模型,泛化性強,但容易產生幻覺,難以保證推理的嚴謹性。

“書生”走出了獨特的“第三條路”。據項目團隊介紹,該模型通過多項核心技術創新,實現了“通專融合”,使得通用模型也具備進行超長程的嚴謹推理能力。

首先是以數學引理爲核心的多輪分層推理機制。面對高難度數學問題,大模型像數學家一樣將複雜推理拆解爲一個個可複用的“引理模塊”,通過多種模型的分工協作,突破了單次上下文長度限制,實現了分階段探索與校驗。

二是基於結果的過程校驗。針對AI在進行長鏈條推理時容易出錯的痛點,科研人員引入了高密度的監督機制,顯著提升了證明過程的嚴謹性。

三是將通用模型與專業符號引擎結合,使AI兼具“發散性思維”和精確嚴謹,使其能像人類科學家一樣逐步推導、試錯和修正。

值得一提的是,上海AI實驗室的這一技術路線已展現出極高的數據效率。相比於谷歌的幾何模型AlphaGeometry2,“書生”僅需不到萬分之一的訓練樣本就實現了超越,擺脫了對超大規模合成數據的依賴。

上海AI實驗室主任、首席科學家周伯文

AI接連攻克基礎科學堡壘

此次在數學奧賽中取得佳績,並非上海AI實驗室在科學領域的“首金”。就在上個月,該實驗室的AI模型同樣經受了2025年國際物理奧賽(IPhO)的考驗,並拿下金牌,成爲首個也是唯一獲得金牌的開源模型。接連攻克兩座基礎科學的“堡壘”,某種意義上標誌着AI正從單一任務的求解者,逐漸向具備跨學科能力的“全能科學家”演進。

當前,全球科技巨頭都在競相佈局AI for Science(人工智能驅動的科學研究),但往往受困於無法突破“長程思考”的瓶頸。上海AI實驗室的探索證明,“通專融合”在賦能多領域科研方面的技術可行性。

正如上海AI實驗室主任、首席科學家周伯文所說,AI for Science應當在未來邁向AGI(通用人工智能) for Science,這意味着需要從純粹依賴自然語言,走向自然語言與符號語言等多種表示形式的融合。“書生”模型正是這一理念的體現。

當前,不少科學領域都積累了許多專業工具和計算引擎。一旦AI模型能夠展現出足夠的泛化能力,那麼採取“通專融合”的路線,疊加相關學科領域的專業工具,AI有望快速達到該領域專家水平。

據上海AI實驗室透露,他們計劃將“書生”模型的長程推理能力,拓展至物理、化學、生命科學等更廣泛的基礎科研領域,不斷推進“長時間獨立思考”,甚至是“長時間獨立科研”,從而加速各領域科研範式的根本性變革,爲重大科學突破提供關鍵支撐,賦能未來的科學發現進程。

相關推薦
請使用下列任何一種瀏覽器瀏覽以達至最佳的用戶體驗:Google Chrome、Mozilla Firefox、Microsoft Edge 或 Safari。為避免使用網頁時發生問題,請確保你的網頁瀏覽器已更新至最新版本。
Scroll to Top