MiniMax上市後編程模型首次更新,智能體“打工”1小時成本1美元
2026年春節前夕,MiniMax正式上線新一代文本模型MiniMax M2.5。當各家大模型廠商圍繞“春節檔”展開密集發佈與營銷攻勢,這款定位爲“原生Agent生產級模型”的產品,正式加入這場被業界稱爲“AI諸神之戰”的競爭。
儘管有着編程、工具調用、辦公等生產力場景全球SOTA成績,這家在資本市場備受矚目的公司卻想拋開參數規模與模型榜單的簡單比拼,而是在科技圈打開另一種敘事:重新定義Agent2.0時代。
10B激活參數跑出旗艦成績
在編程能力方面,M2.5在權威榜單SWE-Bench Verified得分80.2%、Multi-SWE-Bench得分51.3%,較上一代顯著提升;在Multi-SWE-Bench等多語言複雜環境中超越Opus 4.6,達到了行業最好的水平。更重要的是,模型展現出“原生Spec能力”——在編碼前主動拆解架構與功能規劃,更接近真實架構師的工作模式。
工具調用和搜索能力方面,模型能夠自動處理複雜任務,在BrowseComp、Wide Search等多項 Agent 任務中以更低的輪次消耗取得了更優的效果,相較於上一代模型表現提升20% ,達到了行業頂尖水平。
辦公場景中,在 Word、PPT、Excel 金融建模等 Workspace 高階場景中取得了顯著的能力提升,在測評框架GDPval-MM與主流模型的對比取得了 59.0%的平均勝率。
極致推理重構Agent經濟
性能之外,M2.5的另一核心亮點在於極致的推理速度與成本控制。M2.5-lightning版本支持100 TPS以上輸出速度,是主流模型的2倍左右;輸入價格約0.3美元/百萬Token,輸出約2.4美元/百萬Token。按每秒輸出100 Token計算,連續運行一小時成本約1美元;若按50 Token計算,成本約0.3美元。
這意味着1萬美元理論上可支持4個Agent連續工作一年。MiniMax方面認爲,當性能與成本不再構成約束,Agent規模化部署的經濟模型將發生根本變化。
在Vibecoding(氛圍編程)越來越火的當下,M2.5的極致性價比可謂直接定義了真實世界工作王者。
獨創Agent RL支撐高速進化
過去108天,MiniMax從M2、M2.1迭代至M2.5,在SWE-Bench Verified成績從69.4提升至80.2,進步曲線在同業中尤爲陡峭。團隊將這一躍遷歸因於大規模Agent強化學習(RL Scaling)。
其自研Forge框架通過解耦訓練引擎與Agent,實現對任意Agent腳手架和工具的泛化優化,並通過異步調度與樹狀合併策略實現約40倍訓練加速。同時,在算法層面採用CISPO優化與過程獎勵機制,緩解長上下文場景中的信用分配問題,並將“任務真實耗時”納入獎勵函數,在效果與響應速度之間取得平衡。
M2.5已於2月12日在 MiniMax Agent上線,並於13日全球開源支持本地化部署。不到一天,來自全世界的用戶已經在MiniMax Agent上構建了1萬多個專家,且仍在快速增長。
MiniMax表示,希望在持續提升模型能力的同時,構建一個可持續擴展的Agent生態-Agent Universe。當模型能力、泛化性和成本都不再是瓶頸,Agent滲透到工作和生活的各個角落——從編程、辦公到創作、娛樂,大幅促進Agentic應用的進一步發展。