丘成桐給AI出了多道數學題,上海四大模型現場解答,結果……

來源: 更新:

昨天(26)舉行的“人工智能的數學邊界與基礎重構”論壇上,一場沒有硝煙的挑戰賽正在上演:出題方是以首位華人菲爾茲獎獲得者丘成桐爲首的“數學家天團”,答題方則是上海人工智能的“頂流”——人工智能實驗室、商湯科技、階躍星辰和MiniMax。

邏輯推理是數學的核心。數百年來,數學家僅憑一張紙、一支筆,就能從迷宮中找到通往真理的路徑,而如今的大模型已展現出強大的推理能力。這場挑戰的結果是:4個本土大模型均通過“最強數學大腦”的命題考驗,展現了上海AI的硬核實力。

論壇上還爲Hitchin–Ngo 實驗室(聚焦代數幾何與數學物理)與Fefferman 實驗室(深耕流體力學與納維 - 斯托克斯方程)舉行揭牌儀式,標誌着全球頂尖數學力量落戶上海。

賽題設計直擊AI推理核心

一開始,大模型並不擅長數學。它們常常出現“幻覺”,甚至可能被誤導相信2+2=5。但新一代大型推理模型展現的能力令數學家眼前一亮。不同於過去“一錘定音”式輸出結果,這些模型開始嘗試模擬數學家逐步推理的思考過程。

丘成桐對給AI出題表現出巨大興趣,他不僅指派團隊精心遴選多道高質量數學題並親自審覈把關,還邀請英國、日本的院士專門命題。

上海人工智能實驗室拿到的是2025國際數學奧林匹克競賽的一道幾何題,但沒有提供圖片,大模型需要根據文字描述理解題目並給出證明;階躍星辰拿到的是不等式極值求解題,需要給出複雜分式約束下的最小值證明;MiniMax拿到的是概率遞歸題,需要給N對襪子配對;商湯科技拿到的是平面幾何題,有多種解法。4道題均需完成自然語言推理+形式化驗證的雙重挑戰,難度對標數學博士入門級研究。

頂級數學家爲何熱衷於給AI出題?在中國科學院院士、數學家徐宗本看來,數學不僅是工具,也是一門技術,一方面它爲AI框定能力邊界和行爲準則,另一方面,人們也能從答題過程中窺見AI的“內心戲”。

差異化答題揭示AI數學潛力

面對博士級難題,大模型們各顯神通。因爲沒有給圖片,上海人工智能實驗室的書生模型決定“以力破巧”。“模型用超長時間對上下文進行思考後,開始去編寫一個嚴謹的證明,而且整個過程不是以形式化語言(精確的數學或機器可處理的公式定義語言),而是以自然語言形式來完成的。”上海人工智能實驗室技術專家張文蔚說。

深思熟慮是大模型推理能力提升的重要標誌。一年前,OpenAI發佈的推理模型o1,展現出此前模型所不具備的超級推理能力。o1與其他模型的最大差別就是它會深入思考,生成一個較長的內部思維鏈,包括複述一遍問題的要求、拆解任務、明確最終目標以及查漏補缺,它甚至還會提醒自己其中可能存在陷阱,並列出需要用到的知識點和步驟。完成這些之後,它纔開始工作。張文蔚判斷,書生的解題思路和o1完全一致。

階躍星辰的step大模型則是通過一邊解題、一邊調用工具糾錯的方式,實時推演成功。有意思的是,階躍星辰技術專家萬若斯發現,在解題過程中,step湧現出未被預設的全新解題思路。

AI是數學家的對手還是助手?從這兩題的解答過程就能窺見一二。西班牙數學科學委員會研究員鄭凡認爲,AI既可以任勞任怨完成繁瑣的推理工作,也具備“靈光一閃”提出新思路的能力,無論成爲哪種角色都潛力巨大。

AI與數學“雙引擎”加速耦合

上海科技大學數學科學研究所教授蔡明亮已習慣於有AI助手,他發現,有思路是解題的第一步,這道理適用於人,也適用於AI。

作爲MiniMax拿到的那道題的出題者,他曾用它“考驗”過許多AI,如果沒有思路,即便把N設定爲10,大模型也答不出來。當詢問MiniMax的M1大模型爲何能闖關成功時,技術專家周海剛回答裏的一個詞提醒了蔡明亮,答案正是思路。周海剛提到,MiniMax在讓大模型獲取高質量數據時,不會直接給答案,而是像教孩子一樣,把最優的解答過程“喂”給大模型,這意味着好的知識沉澱往往要從過程中來。

大模型也深受使用者的影響。商湯科技的日日新大模型在解題時會根據不同提示詞給出不同解法。這預示了在未來的工作中,人與AI的協同是多麼重要。

當前,AI與數學這對“雙引擎”正加速耦合,AI展現的強大推理能力,正將數學家從繁複的計算與驗證中解放出來,使他們得以聚焦於更本源、更具創造性的問題,以及需要深刻直覺和想象力的領域。儘管大多數專家認爲真正的創新和突破仍屬人類,但前菲爾茲數學科學研究院院長庫馬爾·穆爾蒂不忘提醒人們,不要忽視想象的力量,甚至不要輕視大模型的幻覺,要把數學嵌入到AI之中,跳出思維定式,去提出更好的問題。

相關推薦
請使用下列任何一種瀏覽器瀏覽以達至最佳的用戶體驗:Google Chrome、Mozilla Firefox、Microsoft Edge 或 Safari。為避免使用網頁時發生問題,請確保你的網頁瀏覽器已更新至最新版本。
Scroll to Top