人形機器人迎來新變革,智元開放百萬真機數據集
就在剛剛,國內人形機器人公司智元宣佈將其數據集agibot world開源,該數據集是全球首個基於全域真實場景、全能硬件平臺、全程質量把控的百萬真機數據集。
開源意味着全球所有人形機器人公司都能使用agibot world裏的數據訓練機器人,而這些反饋後的數據也將進一步充實agibot world,實現數據集和機器人的雙向迭代幾步。
在人形機器人領域是一個立碑的事件,其重要性相當於視覺識別領域宣佈開源的“ImageNet”——它將會爲人形機器人的應用落地提供最底層、最核心的基礎。#智元開源,中國具身ImageNet到來#
開源的必要性
人形機器人爲什麼必須走開源這條路?難道走蘋果 IOS 那樣閉源就不行嗎?
還真不行,因爲要讓人形機器人落地到生產生活等場景中,它就需要大量訓練,告訴機器人應該怎麼做,培養它理解任務的能力,而這個訓練所需要的數據量太大、太難,成本也高的離譜,根本不是一家公司就能做到的。
其實在科技展會上,不少人形機器人都會表演削黃瓜、疊衣服、倒水等細緻活,很多人覺得技術太厲害了,《機器公敵》裏面的場景正在走進了現實。
但是這些機器人表現得是編程式特定規劃任務,按照程序執行削黃瓜這一個動作,單純執行。而現實生活中,通用人形機器人要十八門兵器樣樣全通,面臨的情況複雜得多,任務複雜度也更高。
要想通用人形機器人落地,必須要實現“場景理解,自主規劃任務”-“主動詢問,根據用戶反饋執行任務”-“自主實現思維過程語音輸出”-“具備反應式重規劃能力”四個階段。
因此這就需要在不同場景下,各個環節、各種不同任務對機器人做各種訓練,要像教兒童一樣,增加理解力和執行力。
原理很簡單,但行業內最大的問題是,沒有數據沉澱。
行業所有人都必須從零開始,製造幾十臺甚至數百臺機器人,搭建成千上萬個生活場景,讓這些機器人在模擬的真實場景中去採集數據,指導機器人訓練學習。
舉個例子,家庭搬桌子這一個場景,它需要真人操作模擬,讓機器人訓練學習,一個動作無非搭建一個具體場景,找一張桌子,找幾個工作人員對人形機器人進行數據採集,看似成本很低,但是這樣的場景有無數個,疊衣服、做飯、打掃衛生、倒水等。而在工業中上,還有像工廠機械操作、物流搬運等場景。
成千上萬個場景下的無數個任務,就像棋盤上第一格放粒米,第二格放兩米粒,想做智能化的通用人形機器人,它背後的整個數據量就會被無限放大,在成本、時間上沒有企業能夠承受的住。
智元開放數據集
沒有足夠的數據訓練,通用人形機器人就是空中樓閣,沒辦法實現商業化落地。
這個時候就體現開源的好處——術業有專攻,每個機器人公司分享自己在不同場景的數據,有的專攻做飯、洗碗等廚房場景,有的疊被子、疊衣服等臥室場景。#源神稚暉君又開源了#
在數據互相分享中,大幅度降低每家人形機器人公司的場景數據訓練成本,讓人形機器人落地應用加速。
可以說,機器人開源是一個利好大家、利好全行業的事情,而智元機器人是行業內最適合的“破局人”。
首先智元AgiBot World是首個基於全域真實場景的數據集。基於真實場景,人形機器人數據訓練主要有真實遙操、仿真合成、人類行爲數據,人類行爲數據,最有價值、最稀缺的是真實遙操,造一堆真機去產生數據。
智元布局了業內最大的具身數採工廠,空間總面積超過4000平方米,包含3000多種真實物品,從抓取、放置、推、拉等基礎操作,到攪拌、摺疊、熨燙等複雜動作,幾乎涵蓋了人類日常生活所需的絕大多數場景。
目前AgiBot World百萬真機數據集中有100多種,家居佔40%、餐飲20%、工業20%、商超10%以及辦公場景10%,其中80%的任務均爲長程任務。
其次是全能硬件平臺,智元不斷對於機器人本體迭代升級,例如智元在其人形機器人身上安裝8個環繞式佈局的攝像頭,讓機器人可以實時“360度全方位感知”周圍環境的動態變化;配備6自由度靈巧手,保障動作精準且靈活,同時末端還增加了六維力傳感器和高精度觸覺傳感器,能夠感知力的微小變化,做到“拿捏有度”;機器人全身擁有32個自由度,能夠靈活應對多種複雜任務。
最後是全程質量把控的百萬真機數據集,數據質量決定訓練效果,目前現有的開源數據集存在採集流程缺乏標準化、機器人構型過時、數據質量格式參差不齊等問題。
爲了得到高質量數據,智元通過一方面嚴控採集流程,實現操作員標準化採集,通過端、雲兩側自動剔除不符合要求的數據,另一方面這些數據還會通過算法進行二次驗證。
可以說,正是因爲AgiBot World真實數據能力,才撐起了智元機器率先宣佈實現通用人形機器人的商業量產。
劃時代意義
怎樣評價智元對AgiBot World數據集的開源,可以毫不誇張的說,現在的AgiBot World對人形機器人的意義,就相當於2009年“ImageNet”開源對計算機視覺行業一樣,都具有劃時代意義。
2009年,李飛飛發佈ImageNet的初始版本,世界上最大的圖像標記數據集。正是因爲將ImageNet覆蓋的22000個不同類別1500萬張收錄圖片開源,這些高價值的乾淨數據爲計算機視覺識別隨後的發展奠定了堅實的基礎。
可以說,沒有ImageNet開源,就沒有現在計算機視覺在安保、金融支付等方方面面上的快速應用。而在筆者看來,AgiBot World的貢獻和價值與ImageNet相似。
人形機器人呈現爆發式發展,在基礎硬件等方面取得了突破性進展,如雙足行走時的平穩連續性、雙手自由度……骨架肉身已成,但阻礙在生活生產中商業化的難題在於“靈魂”,這些人形機器人因爲缺少全域場景數據的訓練,導致只能機械的執行編程代碼的命令,缺少理解和反饋能力。
而智元通過開源AgiBot World百萬真機數據集,將自己在各個場景中的數據分享給行業同人,幫助其人形機器人產品注入“靈魂”,解決行業內最爲困難的真機數據難題。
更重要的是,開源AgiBot World百萬真機數據集能夠讓各個業界夥伴分享數據,將整個數據集不斷做大做強,成爲整個人形機器人行業發展的基礎設施,而這種分享精神 也將掀起了一個“人形機器人數據共享”、“行業共同成長”的新紀元。
回顧人形機器人發展歷史,波士頓動力創造出了 Atlas,開創了人形機器人這一新物種,在過去15年間,人形機器人不斷成熟,從跌跌歪歪的實驗室概念品,逐步走到臺前,讓人們看到了電影《機器公敵》中機器軍團的可能性。
而如今隨着智元開源AgiBot World百萬真機數據集,讓這種可能照進了現實——爲行業解決了真機數據難獲取、行業數據存在壁壘的難題,讓整個人形機器人行業都能以低價格、高效率的共享數據,完成了整個人形機器人最重要的數據基礎設施。
可以說,Atlas開啓了人形機器人的新大門,那麼智元開源AgiBot World百萬真機數據集則是讓人形機器人帶入了一個能夠商業落地、理想照進現實的新紀元。