大曉機器人開源實時生成世界模型開悟3.0,以 “原生大腦” 讓機器人幹活

來源: 更新:

大曉機器人近日開源開悟世界模型3.0(Kairos 3.0)-4B系列具身原生世界模型,作爲業內首個實現“多模態理解—生成—預測”一體化的開源具身原生世界模型,Kairos 3.0-4B以六大核心優勢,打破行業瓶頸,推動具身智能從“行爲模仿”向“物理級深度理解”跨越,爲規模化落地提供核心引擎。

當前,具身智能行業深陷數據稀缺割裂、長時序交互不足、部署成本高昂等困境,傳統生成式模型多爲“大模型改款”,缺乏對物理世界的深度認知。而Kairos 3.0-4B從架構底層重構設計,以自然界物理規律與因果規律爲根基,融合機器人真機交互、人類行爲結構化與思維鏈文本三類關鍵數據,打破多元數據壁壘,實現了“理解世界、生成世界、預測世界”的一體化能力,讓模型真正做到“知其然更知其所以然”。

作爲全球首個可端側驅動具身智能本體控制的世界模型,Kairos 3.0-4B在部署與執行能力上實現重大突破。該模型部署於Jetson Thor T5000端側平臺,算力可達517 TFLOPS,是行業內首個在THOR端側平臺達成1:1.5(視頻生成時間:視頻時長)實時生成的具身世界模型。依託端側部署優勢,模型可直接輸出機器人全身體控制指令,省去中間轉譯環節,不僅能在3D仿真環境中精準規劃機械臂運動軌跡,更能實現機器人本體的真實驅動與作業執行,讓機器人真正從“會表演”走向“能幹活”。

物理因果一致性是具身智能的核心競爭力,Kairos 3.0-4B在該領域全面領先全球主流模型。在倒水、疊平衡石等複雜物理交互場景中,模型能精準復現物理規律:倒水時水流平穩、液體總量符合水杯容量,完全遵循質量守恆與流體動力學;疊平衡石時嚴格遵循重力與支撐結構規律,無懸浮、剛性喪失等異常。相比之下,Cosmos 2.5、Lingbot等競品均出現物理邏輯失真問題,凸顯了Kairos 3.0-4B的技術硬實力。

長時序交互能力的突破的爲具身智能落地開闢新路徑。Kairos 3.0-4B結合Agent智能體技術,可將複雜交互指令層級拆解,通過精細化預測與自我反思機制,生成長達7分鐘的連貫具身動態交互視頻。在家庭場景Demo中,機器人可一鏡到底完成整理桌面、衣物清洗、早餐製備等全流程自主作業,無斷點、高保真地展現了動態交互、物體識別與多場景規劃能力,驗證了其在家庭服務、工業製造等領域的應用潛力。

輕量化與高效能的結合,讓Kairos 3.0-4B打破“大參數=高性能”的行業固有認知。該模型以4B輕量化參數實現23.5GB顯存佔用,遠低於同類競品,完美適配端側實時推理需求。在A800 GPU Benchmark評測中,其推理速度較Cosmos 2.5提升72倍,完成10秒生成任務僅耗時9.5秒,較Lingbot快約151倍;同時率先實現雲側1:1實時推理,適配英偉達、沐曦等多款GPU,大幅降低部署門檻。

多本體泛化能力則破解了傳統具身模型“一本體一訓練”的痛點。Kairos 3.0-4B支持跨本體任務一鍵生成,可無縫適配單臂、雙臂、靈巧手等不同形態機器人,無需額外訓練即可生成適配執行策略,同時深度支持智元-精靈G1、宇樹G1等主流機器人硬件,打破設備本體壁壘。

權威評測進一步印證了Kairos 3.0-4B的綜合實力。

在PAI-Bench-robot、WorldModelBench-robot TI2V、DreamGen Bench三項全球權威Benchmark中,該模型均斬獲第一:PAI-Bench-robot以80.03分領跑,WorldModelBench-robot TI2V以9.08分超越所有競品,DreamGen Bench中物理對齊(PA)與交互保真(IF)指標均全面領先,其中PA得分較阿里Wan 2.2-5B提升近70%。

作爲中國自研的具身原生世界模型,Kairos 3.0-4B不僅可作爲高效數據仿真器,低成本放大訓練數據體量,破解真機數據稀缺難題,更能直接驅動機器人完成實體任務,打通虛擬仿真到物理執行的全鏈路。此次開源將進一步推動技術普及與生態共建,爲具身智能在工業、家庭、安防等多領域規模化落地提供核心支撐,也爲全球具身智能行業發展貢獻領先的中國方案。

相關推薦
請使用下列任何一種瀏覽器瀏覽以達至最佳的用戶體驗:Google Chrome、Mozilla Firefox、Microsoft Edge 或 Safari。為避免使用網頁時發生問題,請確保你的網頁瀏覽器已更新至最新版本。
Scroll to Top