豆包多模態躋身全球第一梯隊，以“理解與創造”推開AI規模化應用大門-文化-漫步新聞-陪你看看

AI浪潮席捲全球。大模型的發展，已從單點突破進入全面競速與深度融合的新階段。

2025年年末，國內外互聯網大廠紛紛迭代了多模態大模型。在FORCE原動力大會上，火山引擎一口氣更新了多個版本，豆包1.8在多模態深度理解與智能體（Agent）能力上樹立標杆，Seedance 1.5 pro則在音視頻生成領域實現飛躍。同一天，谷歌發佈了Gemini3的FLASH版本，OpenAI則剛剛收到一筆來自迪士尼的10億美元投資……大模型的競爭，變成以日爲計數單位。

與年初相比，競爭又變得完全不同，無論是國內的豆包、千問，還是國外的Gemini3、OpenAI，都聚焦於多模態能力——即模型對文本、圖像、音頻、視頻等多元信息的統一理解與生成能力，它被視爲解鎖下一代AI應用、實現通用人工智能（AGI）願景的關鍵階梯。在這條“多模態”綜合競賽的關鍵賽道上，中國力量正強勢崛起。權威評測顯示，豆包大模型家族在多模態理解、生成能力及Agent（智能體）能力上，已穩居全球第一梯隊。這些技術突破以前所未有的規模和速度融入千行百業，驅動從技術能力到產業生態的深刻變革。

“理解世界”能力躍遷

衡量AI發展速度的核心指標是什麼？在火山引擎總裁譚待看來，答案很簡單——Tokens調用量。“模型只有被調用才能發揮價值；而越有價值的模型，調用量就會越多。”他說，截至今年12月，豆包大模型日均調用量已突破50萬億Tokens，自發布至今實現了417倍的爆炸式增長，相比去年同期也增長了超過10倍。

“這不僅是火山引擎的速度，更代表了AI行業的加速發展。”譚待說。

飛速增長的調用量背後，是模型能力質的飛躍，尤其是多模態理解能力的突破。譚待介紹，本次發佈的豆包大模型1.8，在設計伊始就面向複雜的多模態Agent場景進行了定向優化。得益於這一目標，其在視覺理解上有顯著升級，單次視頻理解幀數從640幀倍增至1280幀，並創新性地支持“低幀率掃視全局+高幀率聚焦關鍵”的協同理解模式。

這意味着什麼？現場一個生動的案例足以說明問題。面對一段長達1小時4分鐘的監控錄像，用戶可以直接將其拋給豆包1.8。模型會先以低幀率快速“瀏覽”完整個視頻，初步鎖定可疑時段，隨後自動調用“Video Cut”工具，對關鍵片段進行高幀率的“仔細審視”，最終精準定位到肇事車輛及事故發生的準確時間。

這代表大模型“理解世界”的能力有了顯著躍升。譚待介紹，豆包1.8在視覺判斷準確性、空間理解、文檔解析、視頻運動識別能力上已超越 Gemini 3，展現出全球領先的競爭力。

“多模態其實代表着模型的應用進入更深的領域。”他表示，與去年相比，模型已經能解決非常多問題了，模型的進化速度非常快的，正在不斷解鎖新領域、催生新爆發。以這種“理解世界”的能力爲例，它可以直接應用於安防巡檢、在線教育內容分析、工業生產線實時質檢等複雜場景。

“創造世界”生產加速

如果說“理解”是AI感知世界的基礎，那麼“創造”則是AI賦能價值的昇華。在視頻內容需求呈指數級增長的當下，火山引擎推出的Seedance 1.5 Pro音視頻創作模型，試圖重塑AI視頻的生產範式。

記者注意到，與上一代相比，Seedance 1.5 Pro最大的突破在於採用了原生音視頻聯合生成架構，實現了“音畫同出”的毫秒級“神同步”。在對白上，模型可實現多人多語言對話，更覆蓋了中文方言、英文及多種而且小語種，爲全球化、本地化的內容創作打開了想象空間。分析人士認爲，這一技術攻克了長期困擾AI視頻生成的“聲畫兩張皮”難題，極大地提升了內容的真實感與沉浸感。

Seedance 1.5 Pro對敘事與情感張力的駕馭能力也顯著提升。據悉，模型具備了電影級的自發運鏡能力，可自動實現長鏡頭跟隨、希區柯克式變焦等高級技巧，並精準捕捉人物微妙的情緒變化。

另一方面，強大的生成能力帶來了新的挑戰。此前不少用戶反饋，AI生成視頻的過程猶如“抽盲盒”，創作者需要反覆嘗試才能獲得滿意結果。爲此，Seedance團隊創新性地提出了“Draft樣片”功能。模型可首先生成低分辨率但關鍵要素與成片高度一致的視頻草稿，供創作者快速驗證創意。數據顯示，這一功能能將整體創作效率提升65%，減少60%的無效創作成本，將AI從“炫技工具”轉變爲實用的“生產力夥伴”。

隨着豆包1.8的深度理解、Seedance 1.5 Pro的影視級生成的發佈，至此，火山引擎的“豆包大模型家族”全景圖正緩緩鋪開，涵蓋了圖像、視頻、語音、語義及多模態深度思考模型，構成了一個從感知、理解到決策、創造的完整能力閉環。

“賦能世界”產業落地

技術的領先，最終要體現在推動產業進步的深度與廣度上。火山引擎智能算法負責人吳迪判斷認爲，隨着大模型智能水平的不斷提升，智能體正逐漸進入企業的核心業務：“可以預見在未來的兩三年內，智能體會帶來巨大的生產力提升。”

“我們正處於從PC、移動到AI這三個時代的變化之中。技術主體發生了重大變化，PC時代的主體是web，移動時代是APP，而AI時代則是Agent。”譚待觀察認爲，與前兩者不同，Agent能夠自主地感知、規劃和執行復雜任務，“軟件第一次從被動的工具，變成主動的執行者。”

能看到的是，豆包大模型的多模態能力，正成爲構建這些“主動執行者”的核心引擎。在智能終端這一前沿陣地，全球Top10手機廠商中，有9家與火山引擎開展了深度合作，將大模型應用於更智能的語音助手、更強大的創作工具和更極致的效率提升中。

代表高端製造與消費的汽車行業，或是更有標杆意義的產業落地。“我們與火山引擎合作，將豆包大模型深度融合DiLink系統，實現了語音交互、內容推薦與出行服務的無縫連接。從聯合開發到上車落地，僅用了4個多月。”比亞迪集團高級副總裁楊冬生介紹，高效落地的背後，是豆包大模型強大且易用的多模態能力在支撐。

根據IDC報告，火山引擎在中國公有云大模型服務調用量上穩居第一，市場份額從2024年的46.4%進一步提升至2025年的49.2%。這意味着，中國公有云上每兩個Tokens中就有一個由火山引擎生產。在Gartner的全球AI應用開發平臺魔力象限中，火山引擎更位列挑戰者首位，位居中國第一。

可以說，豆包大模型的發展軌跡清晰地勾勒出中國AI產業從追趕到並跑、在部分領域實現領先的奮進之路。

面向未來，AI大模型的價值在哪裏？譚待也給出了自己的觀點：“我覺得模型最大的價值肯定不是去寫點打油詩，生產一些合成的照片，而是更好地幫人成長，教育、醫療，做新的科研，我覺得這個是大家對AI最大的期許。”