豆包多模態躋身全球第一梯隊,以“理解與創造”推開AI規模化應用大門
AI浪潮席捲全球。大模型的發展,已從單點突破進入全面競速與深度融合的新階段。
2025年年末,國內外互聯網大廠紛紛迭代了多模態大模型。在FORCE原動力大會上,火山引擎一口氣更新了多個版本,豆包1.8在多模態深度理解與智能體(Agent)能力上樹立標杆,Seedance 1.5 pro則在音視頻生成領域實現飛躍。同一天,谷歌發佈了Gemini3的FLASH版本,OpenAI則剛剛收到一筆來自迪士尼的10億美元投資……大模型的競爭,變成以日爲計數單位。
與年初相比,競爭又變得完全不同,無論是國內的豆包、千問,還是國外的Gemini3、OpenAI,都聚焦於多模態能力——即模型對文本、圖像、音頻、視頻等多元信息的統一理解與生成能力,它被視爲解鎖下一代AI應用、實現通用人工智能(AGI)願景的關鍵階梯。在這條“多模態”綜合競賽的關鍵賽道上,中國力量正強勢崛起。權威評測顯示,豆包大模型家族在多模態理解、生成能力及Agent(智能體)能力上,已穩居全球第一梯隊。這些技術突破以前所未有的規模和速度融入千行百業,驅動從技術能力到產業生態的深刻變革。
“理解世界”能力躍遷
衡量AI發展速度的核心指標是什麼?在火山引擎總裁譚待看來,答案很簡單——Tokens調用量。“模型只有被調用才能發揮價值;而越有價值的模型,調用量就會越多。”他說,截至今年12月,豆包大模型日均調用量已突破50萬億Tokens,自發布至今實現了417倍的爆炸式增長,相比去年同期也增長了超過10倍。
“這不僅是火山引擎的速度,更代表了AI行業的加速發展。”譚待說。
飛速增長的調用量背後,是模型能力質的飛躍,尤其是多模態理解能力的突破。譚待介紹,本次發佈的豆包大模型1.8,在設計伊始就面向複雜的多模態Agent場景進行了定向優化。得益於這一目標,其在視覺理解上有顯著升級,單次視頻理解幀數從640幀倍增至1280幀,並創新性地支持“低幀率掃視全局+高幀率聚焦關鍵”的協同理解模式。
這意味着什麼?現場一個生動的案例足以說明問題。面對一段長達1小時4分鐘的監控錄像,用戶可以直接將其拋給豆包1.8。模型會先以低幀率快速“瀏覽”完整個視頻,初步鎖定可疑時段,隨後自動調用“Video Cut”工具,對關鍵片段進行高幀率的“仔細審視”,最終精準定位到肇事車輛及事故發生的準確時間。
這代表大模型“理解世界”的能力有了顯著躍升。譚待介紹,豆包1.8在視覺判斷準確性、空間理解、文檔解析、視頻運動識別能力上已超越 Gemini 3,展現出全球領先的競爭力。
“多模態其實代表着模型的應用進入更深的領域。”他表示,與去年相比,模型已經能解決非常多問題了,模型的進化速度非常快的,正在不斷解鎖新領域、催生新爆發。以這種“理解世界”的能力爲例,它可以直接應用於安防巡檢、在線教育內容分析、工業生產線實時質檢等複雜場景。
“創造世界”生產加速
如果說“理解”是AI感知世界的基礎,那麼“創造”則是AI賦能價值的昇華。在視頻內容需求呈指數級增長的當下,火山引擎推出的Seedance 1.5 Pro音視頻創作模型,試圖重塑AI視頻的生產範式。
記者注意到,與上一代相比,Seedance 1.5 Pro最大的突破在於採用了原生音視頻聯合生成架構,實現了“音畫同出”的毫秒級“神同步”。在對白上,模型可實現多人多語言對話,更覆蓋了中文方言、英文及多種而且小語種,爲全球化、本地化的內容創作打開了想象空間。分析人士認爲,這一技術攻克了長期困擾AI視頻生成的“聲畫兩張皮”難題,極大地提升了內容的真實感與沉浸感。
Seedance 1.5 Pro對敘事與情感張力的駕馭能力也顯著提升。據悉,模型具備了電影級的自發運鏡能力,可自動實現長鏡頭跟隨、希區柯克式變焦等高級技巧,並精準捕捉人物微妙的情緒變化。
另一方面,強大的生成能力帶來了新的挑戰。此前不少用戶反饋,AI生成視頻的過程猶如“抽盲盒”,創作者需要反覆嘗試才能獲得滿意結果。爲此,Seedance團隊創新性地提出了“Draft樣片”功能。模型可首先生成低分辨率但關鍵要素與成片高度一致的視頻草稿,供創作者快速驗證創意。數據顯示,這一功能能將整體創作效率提升65%,減少60%的無效創作成本,將AI從“炫技工具”轉變爲實用的“生產力夥伴”。
隨着豆包1.8的深度理解、Seedance 1.5 Pro的影視級生成的發佈,至此,火山引擎的“豆包大模型家族”全景圖正緩緩鋪開,涵蓋了圖像、視頻、語音、語義及多模態深度思考模型,構成了一個從感知、理解到決策、創造的完整能力閉環。
“賦能世界”產業落地
技術的領先,最終要體現在推動產業進步的深度與廣度上。火山引擎智能算法負責人吳迪判斷認爲,隨着大模型智能水平的不斷提升,智能體正逐漸進入企業的核心業務:“可以預見在未來的兩三年內,智能體會帶來巨大的生產力提升。”
“我們正處於從PC、移動到AI這三個時代的變化之中。技術主體發生了重大變化,PC時代的主體是web,移動時代是APP,而AI時代則是Agent。”譚待觀察認爲,與前兩者不同,Agent能夠自主地感知、規劃和執行復雜任務,“軟件第一次從被動的工具,變成主動的執行者。”
能看到的是,豆包大模型的多模態能力,正成爲構建這些“主動執行者”的核心引擎。在智能終端這一前沿陣地,全球Top10手機廠商中,有9家與火山引擎開展了深度合作,將大模型應用於更智能的語音助手、更強大的創作工具和更極致的效率提升中。
代表高端製造與消費的汽車行業,或是更有標杆意義的產業落地。“我們與火山引擎合作,將豆包大模型深度融合DiLink系統,實現了語音交互、內容推薦與出行服務的無縫連接。從聯合開發到上車落地,僅用了4個多月。”比亞迪集團高級副總裁楊冬生介紹,高效落地的背後,是豆包大模型強大且易用的多模態能力在支撐。
根據IDC報告,火山引擎在中國公有云大模型服務調用量上穩居第一,市場份額從2024年的46.4%進一步提升至2025年的49.2%。這意味着,中國公有云上每兩個Tokens中就有一個由火山引擎生產。在Gartner的全球AI應用開發平臺魔力象限中,火山引擎更位列挑戰者首位,位居中國第一。
可以說,豆包大模型的發展軌跡清晰地勾勒出中國AI產業從追趕到並跑、在部分領域實現領先的奮進之路。
面向未來,AI大模型的價值在哪裏?譚待也給出了自己的觀點:“我覺得模型最大的價值肯定不是去寫點打油詩,生產一些合成的照片,而是更好地幫人成長,教育、醫療,做新的科研,我覺得這個是大家對AI最大的期許。”