具身智能落地難?智元讓機器人走出數採廠,在“幹中學”

來源: 更新:

2025年是具身智能極速狂飆的一年。從展會到論壇,人形機器人隨處可見:禮賓引導、搬運料箱、分揀快遞、摺疊衣服、整理冰箱……熱鬧背後卻藏着一個尷尬現實:落地難——具身智能展現出的相當部分技能尚屬於按部就班的“表演”,難以應對意外。

機器人學習疊衣服

“現實世界從來不是 Demo(演示)。”智元機器人合夥人、首席科學家羅劍嵐指出,真實環境充滿了不可控因素,決定機器人能否真正落地的,不是它會不會做,而是它是否足夠可靠、能否隨機應變。

在這一背景下,智元機器人最新推出面向真實世界部署的在線後訓練系統SOP。SOP重構了機器人的學習範式,將其從封閉的實驗室訓練,推向真實世界的“實戰練兵”。

從閉門修煉到闖蕩江湖

長期以來,具身智能的學習進化主要仰仗VLA技術路線,即視覺-語言-動作模型。該模型通過將人類指令與外界聲音、圖像、視頻等信息轉化爲計算機可理解的語言,進而控制機器人的行爲。簡單來說,就是讓機器人看着圖片、聽着聲音、跟着視頻來學習,是一種“離線學習”模式,往往在數採廠內進行。

早期,這套訓練方法確實很有效,能夠教會機器人許多“基本功”,但卻難以支持機器人應對複雜且不可控的真實物理世界。羅劍嵐將其比作“照着武功祕籍在山洞裏練功”,等到真正下山比武,才發現對手招式千變萬化,祕籍裏的“套路”不夠用。想要進步,只能回到山洞覆盤、修改祕籍,進化效率較低。

如果說VLA讓機器人第一次具備通用理解與行動能力,那麼SOP的目標,則是讓機器人在“集體在線學習”中快速成長。羅劍嵐解釋,SOP模型的核心在於構建一個學習閉環:這就好比將一羣練就基本功的機器人弟子送去江湖歷練,無論輸贏成敗,經驗都會實時彙總並反饋給門派“宗師”(即雲端算法模型)進行分析、總結,待師父補全招式漏洞、即時更新祕籍後,再統一傳授給在外歷練的弟子。如此循環往復,整個機器人羣體即可在真實世界和真實任務中快速、持續進化,越用越聰明。

機器人集羣

羅劍嵐強調,幹中學“踩過的坑”在這一過程中至關重要。根據智元發表的SOP相關論文實驗結果,經過3小時在線經驗訓練,機器人性能可提升約30%;而額外引入80小時人類專家標註數據,性能僅提升4%。“這3個小時的數據正是來自真實場景的失敗經驗。”羅劍嵐解釋,當一個機器人犯錯,所有機器人都能快速學會如何避免。這種高效的在線互學,顯然勝過數採廠“填鴨式教學”。

學會應對“突如其來”

從智元公佈的數據來看,在商超整理、疊衣服、紙盒裝配等測試場景中,引入SOP後,機器人整體性能顯著提升。比如,在物品繁雜的商超場景中,綜合性能提升約33%;在疊衣服任務中,操作吞吐量提升114%。此外,經SOP訓練後的機器人,在長達36小時連續運行中展現出卓越的穩定性和適應性,可有效應對真實世界中的各種“突如其來”。

機器人跳舞

目前,智元已在真實世界中部署了數十臺機器人用於SOP開發。“今年預計將在真實場景中增加幾個量級的部署規模。”羅劍嵐說,這是具身智能邁向真實世界的第一步,機器人不應是性能固定的標品,而應成爲持續進化的生命體。

在他看來,人形機器人產業未來可能從一次性交付硬件,轉向軟硬件一體的持續服務模式。就像自動駕駛系統,車輛售出後,軟件仍在不斷更新升級,機器人進廠打工、走進家庭後也將持續進化,不斷優化用戶體驗。當然,這一進化過程仍需解決安全、隱私等問題。

2026年小目標:真正幹活

據羅劍嵐判斷,2026年將是機器人從“能做事”到“把事情做好並真正落地”的關鍵節點。未來,誰在真實世界部署的機器人越多,誰就能獲取更多高價值數據,訓練出更好的模型,從而形成正向循環。

智元公司表示,SOP將率先推動人形機器人在工業場景中的長期穩定運行,將任務成功率提升至可規模化上線的水平。至於家庭場景,則需在預訓練模型基礎上,結合SOP逐步擴展任務能力。

羅劍嵐透露,工業場景之外,商超、文娛及部分家庭場景,今年也在逐步佈局。他希望能在上海的便利店和超市,看到機器人在真正幹活。就在幾天前,智元靈犀X2機器人已通過機器人租賃平臺“擎天租”,進入位於上海漕河涇的美宜佳便利店,成爲該門店的長期機器人員工。

相關推薦
請使用下列任何一種瀏覽器瀏覽以達至最佳的用戶體驗:Google Chrome、Mozilla Firefox、Microsoft Edge 或 Safari。為避免使用網頁時發生問題,請確保你的網頁瀏覽器已更新至最新版本。
Scroll to Top