具身智能落地難？智元讓機器人走出數採廠，在“幹中學”-文化-漫步新聞-陪你看看

2025年是具身智能極速狂飆的一年。從展會到論壇，人形機器人隨處可見：禮賓引導、搬運料箱、分揀快遞、摺疊衣服、整理冰箱……熱鬧背後卻藏着一個尷尬現實：落地難——具身智能展現出的相當部分技能尚屬於按部就班的“表演”，難以應對意外。

機器人學習疊衣服

“現實世界從來不是 Demo（演示）。”智元機器人合夥人、首席科學家羅劍嵐指出，真實環境充滿了不可控因素，決定機器人能否真正落地的，不是它會不會做，而是它是否足夠可靠、能否隨機應變。

在這一背景下，智元機器人最新推出面向真實世界部署的在線後訓練系統SOP。SOP重構了機器人的學習範式，將其從封閉的實驗室訓練，推向真實世界的“實戰練兵”。

從閉門修煉到闖蕩江湖

長期以來，具身智能的學習進化主要仰仗VLA技術路線，即視覺-語言-動作模型。該模型通過將人類指令與外界聲音、圖像、視頻等信息轉化爲計算機可理解的語言，進而控制機器人的行爲。簡單來說，就是讓機器人看着圖片、聽着聲音、跟着視頻來學習，是一種“離線學習”模式，往往在數採廠內進行。

早期，這套訓練方法確實很有效，能夠教會機器人許多“基本功”，但卻難以支持機器人應對複雜且不可控的真實物理世界。羅劍嵐將其比作“照着武功祕籍在山洞裏練功”，等到真正下山比武，才發現對手招式千變萬化，祕籍裏的“套路”不夠用。想要進步，只能回到山洞覆盤、修改祕籍，進化效率較低。

如果說VLA讓機器人第一次具備通用理解與行動能力，那麼SOP的目標，則是讓機器人在“集體在線學習”中快速成長。羅劍嵐解釋，SOP模型的核心在於構建一個學習閉環：這就好比將一羣練就基本功的機器人弟子送去江湖歷練，無論輸贏成敗，經驗都會實時彙總並反饋給門派“宗師”（即雲端算法模型）進行分析、總結，待師父補全招式漏洞、即時更新祕籍後，再統一傳授給在外歷練的弟子。如此循環往復，整個機器人羣體即可在真實世界和真實任務中快速、持續進化，越用越聰明。

機器人集羣

羅劍嵐強調，幹中學“踩過的坑”在這一過程中至關重要。根據智元發表的SOP相關論文實驗結果，經過3小時在線經驗訓練，機器人性能可提升約30%；而額外引入80小時人類專家標註數據，性能僅提升4%。“這3個小時的數據正是來自真實場景的失敗經驗。”羅劍嵐解釋，當一個機器人犯錯，所有機器人都能快速學會如何避免。這種高效的在線互學，顯然勝過數採廠“填鴨式教學”。

學會應對“突如其來”

從智元公佈的數據來看，在商超整理、疊衣服、紙盒裝配等測試場景中，引入SOP後，機器人整體性能顯著提升。比如，在物品繁雜的商超場景中，綜合性能提升約33%；在疊衣服任務中，操作吞吐量提升114%。此外，經SOP訓練後的機器人，在長達36小時連續運行中展現出卓越的穩定性和適應性，可有效應對真實世界中的各種“突如其來”。