小鵬被指“人裝機器人”,這和“機器人裝人”哪個更難?

來源: 更新:

就像當年馬斯克的機器人最初被質疑成“人工cosplay”一樣,在國內,何小鵬的機器人也在這兩天遭遇了類似的拷問——他們不得不立刻“解剖”了一臺,以證清白。

小鵬新展示的機器人丨小鵬官網

即使是在首臺家用機器人已經開啓預售的今天,人們對於人形機器人的疑惑依然是巨大的。

花了200美金下定號稱全球首款家用機器人(NEO)之後,琳琳(化名)在逛小紅書的時候發現,NEO居然還需要人工遠程操作,NEO現在能幹一些基本的家務活,但是遇到他搞不定的情況,就需要呼叫總部的人工,通過攝像頭看看家裏情況,讓後人工操作一下。

在知道自己很可能要花2萬美金買到一個“機器皮影人”之後,琳琳倒是想得很開:反正也都會有用戶數據隱私協議,而且現在到處都是攝像頭。

“科技進步總是需要用戶支持的,就當支持一下。”

琳琳說的沒錯,從零到一的科技投入使用的時候總是需要極大的包容的。

就比如,最近市場給特斯拉的包容。

前幾天,特斯拉再次推遲了 Optimus 的量產計劃,這已經是這個機器人第三次“被推遲”了。不過特斯拉的股價幾乎沒有收到影響,到現在已經破了1.5萬億美金。可見人形機器人不只有用戶的包容,還有投資人的包容

但如果我們知道特斯拉爲什麼量產不了機器人,又會陷入沉思——原因既不是“不夠聰明”,也不是“腿腳不便”,而是一個更反直覺的難題:手

人的手有 27 塊骨頭、數量衆多的神經和實時反饋系統,能“知道”自己該用多少力、該從哪個角度握、應該怎樣微調。而機器人手必須靠微型電機、減速器、傳感器和算法一層層堆出來,力量、穩定性和柔性控制缺一都不行。

做出“能動的手”不難,做出“像人一樣不出錯的手”極難。

這不僅是特斯拉的難題。幾乎所有人形機器人企業,都卡在了這隻手上。於是,一個被反覆提出但從未真正回答的問題又浮上來——既然酒店機器人、清潔機器人、物流機器人都已經能跑通商業化,爲什麼我們還要執着於一個連手都要和人一樣的機器人?

哆啦A夢呢?人家過得不也挺好的?

越像人,越難產

剛剛過去的這個萬聖節,跟你玩“treat or trick”的甚至可以是機器人了。

這兩天如果你足夠幸運,走過紐約街頭的時候就會看到特斯拉的擎天柱在街頭給行人派送糖果,他們從一攬子糖果裏抓上一個送給路過的行人,有的時候糖果掉在地上他們還會彎腰拾起重新交到行人的手裏。

Tesla Optimus丨Tesla 官網

不要小瞧這個看起來沒什麼意義的動作,讓機器人站上街頭髮糖果,特斯拉就用了近五年的時間。

2021 年,在特斯拉的 AI Day 上,馬斯克第一次把“人形機器人”搬到大屏幕上。只是當時機器人並不真的存在在物理世界,馬斯克安排了一位穿着白色機器人服裝的演員上臺跳了一支舞,當時這個安排還大受嘲諷,不過這個發佈會表達了馬斯克對機器人這個概念的最初願景:特斯拉要做的從來不是隻能重複一個機械性動作的機器,而是一個能理解世界運作的智能體

一年後,第一版真正的 Optimus 亮相了。

它能走路,動作有些笨拙,像一隻剛學站立的長頸,小心翼翼、搖搖晃晃。可它的意義非常大,這隻機器人由電驅動,不依賴液壓結構,這意味着未來可量產、可降本、可以安全進入人類生活場景。

到了 2023 年,Optimus 開始變“聰明”,特斯拉給它接上了與自動駕駛同源的視覺識別系統 + 神經網絡模型。它能自己識別物體,分辨不同形狀的物品、執行“放穩、夾取、移動”的基本操作。

Optimus 還當衆表演了一個折衣服,這個需要柔性操控 + 力控制 + 實時視覺反饋的超複雜動作也是此前傳統工業機器人無法想象的。

形勢一片大好,Optimus 也傳來量產計劃,結果,機器人開始“難產”。

Optimus 的量產計劃已經出現了三次推遲的節點:

第一次是在 2023 年,Optimus 原計劃在 2024 年實現“首批出貨”,但由於基礎運動控制算法未達標,被推遲一年;

第二次是在 2024 年底,量產目標被下調至 2025 年試產數千臺;

第三次是現在——特斯拉再次被爆出暫停Optimus的量產。

在三季度的財報會議上,馬斯特也沒有避諱聊起了量產機器人的難題:我們沒有現成的供應鏈。

就拿造車和造機器人來對比,如果你走進一家造車工廠,你會看到一種高度協同的分工景象:電機、傳感器、車燈、線束、座椅……所有零件都有成熟的供應商、有標準化接口、有替換方案、有成本曲線。

但是人形機器人沒有一條這樣的成熟的生產線。汽車有整車標準、零件標準、維修換件標準,而人形機器人幾乎每家長得都不一樣,關節佈局不同,傳感器位置不同,動作模型也不同。這意味着沒有標準化接口,沒有共用件,成本沒法降,製造沒法規模化。換句話說,想要做一百萬臺人形機器人,就得先搭建一個能做一百萬臺機器人的產業鏈

這邊供應鏈還沒健全,那邊機器人高層也傳來變動的消息。

前段時間特斯拉機器人項目負責人 Milan Kovac 離職,這位出身波士頓動力、主導 Optimus 系統架構的核心人物,在特斯拉內部被視爲“最懂機器人運動控制的人”。他的離開一度引發團隊重組。據多家外媒報道,馬斯克隨後親自接手項目方向,研發彙報線從自動駕駛部門併入 AI 芯片團隊。

“手”是真正的難題

機器人身上最難做的就是“手”。

“這麼說吧,機器人的靈巧手量產難度甚至超過機器人全身的量產難度”在北大專門做機器人研究的博士林武(化名)是這樣形容靈巧手的製造難度的。

要知道手爲什麼難,得先看看人類手本身有多離譜。

我們的手由 27 塊骨頭、數十個肌肉羣、數量衆多的神經末梢共同協作,手掌上分佈密集的觸覺感受點,這就讓人類的手指可以輕輕捏起米粒,也能抓住手提箱;能夠感知玻璃杯溫度的細微變化,也能憑經驗判斷一顆葡萄是不是熟透。

這種精細控制是連續的、實時的、生物級別的反饋迴路:力量從前臂肌肉傳來,手指關節協同控制,皮膚觸覺提供反饋,大腦在幾十毫秒內做出微調。

再沒有更好的主意之前,目前機器人對於人手的復刻,就是把關鍵的元素全部用機器替代一遍。

人的手指肌腱被微型電機替代,關節靠減速器與傳動線驅動,骨骼變成輕量化支架,觸覺感受器變成力/壓力/溫度傳感器陣列,而大腦執行的動作預測和反饋控制則交由實時運動模型與 AI 決策系統完成。

這只是第一步,靈巧手真正的問題在於——力量、準確和持久

可是,手的物理空間太小了

這就導致每一個關節安置的電機、傳感器、減速器對精密製造的要求都更高,而更小的物理空間代表着更小的電機,更小的電機代表着更低的電池密度,也代表了靈巧手的抓力不夠。

“現在六七十公斤的機器人只能抓取十公斤左右的重物”,這位博士透露道,“這和我們對機器人的期許相差甚遠”。

解決抓力這個問題有兩種主流方式,一種是做“仿生肌肉”。通過電動肌纖維、氣動人工肌或液壓微管來模擬人體肌腱,使手指能夠像人一樣柔性彎曲。這種方式在實驗室裏動作優美,但難點是力量放大和長期耐用性,距離量產還比較遠。

另一種是和人類一樣,把力量“外包”到前臂。特斯拉、波士頓動力、Figure 都是這條路線。它們將驅動力電機放在前臂,手指通過細傳動線來控制關節,這樣做可以讓機器人整體力量夠大、結構可控,但是結構複雜、維護成本高。

“準確”是另一個難題。

對於人類來說,要拿起眼前的一個杯子是一件根本不需要思考的無意識行爲但實際上,這背後發生的是一個高度複雜的生物協作系統。

眼睛首先識別出物體,判斷它的形狀、大小、材質;大腦快速估算杯子離手的距離、手臂伸展的軌跡,並在一瞬間決定“應該用幾根手指,以多大力度,從哪個方向夾住它”;等手指碰到杯身,皮膚上的壓力感受器又會實時告訴我們“用力還不夠”或“太用力快要擠碎了”,於是手會自然而然地進行微調。這整個過程看似不經意,實際上涉及到視覺系統、運動皮層、小腦、軀體感覺系統和肌肉系統的同步工作,每一步都快得讓我們來不及意識。

但是機器人沒有“無意識經驗”。

在機器人世界裏,拿起同樣的杯子,要分成五個部分一步一步來:首先,它得“看見”杯子是什麼,這需要攝像頭和深度傳感器來進行物體識別。

接着,它得算清楚杯子在三維空間中的位置,確定手要往哪兒伸、伸多遠。它還要推斷該從哪裏抓,抓得太靠上會滑,太靠下可能會打翻。

接下來,是最難的一步,決定使用多大的力量。玻璃杯、塑料杯、紙杯需要完全不同的抓力,否則要麼碎掉、要麼滑掉、要麼直接變形。

最後,當手指真正接觸杯子時,機器人還得進行實時微調——這需要觸覺傳感器和反饋算法的精準配合。

聽上去和人類做的步驟差不多,但關鍵差別在於人類是在行動之前就“已經知道”怎麼做,機器人是在“做的過程中”努力推測、修正、再修正。

所以機器人的準確性就成了一個難題,林武就講了自己在實驗室碰到的問題:“我們給機器人下達一個任務,抓取眼前物體的時候,遇到過這樣的事情,它要先決定一下最佳路徑,用右手還是左手,或者眼前物體有一定距離的時候是要先往右走還是往左走,在探索這個最佳路徑的過程中它可能滿屋子亂跑。當然抓碎草莓、掉落玻璃杯的事情也是有發生的。”

這些畫面腦補起來好像問題不大甚至有些可愛,但是如果這是一臺售價幾十萬的在企業流水線上做生產的機器人,就一點也不可愛,甚至可能造成極大損失了。

爲了解決準確性,有一部分派系就開始思考,不能總是死磕硬件,可以用 AI 模型讓機器人的大腦變得更聰明一點,比如說如果靈巧手還沒有靈巧到可以輕輕捏起一顆葡萄,就讓葡萄滾到手掌中間。

特斯拉、Figure、Agility、DeepMind 都在嘗試這個路徑,他們收集大量工廠工人手部、臂部、身體操作視頻 ,讓模型學習每種動作背後的意圖,把動作拆解爲機器人可以執行的指令讓機器人在環境中反覆試錯和微調 ,讓大模型逐漸“悟出”如何完成任務。

只是解決“靈活”就已經困難重重,要做到量產,靈巧手還需要解決“持久”,就是壽命問題。晚點就報道過因爲散熱不足、零部件壽命短等問題 Optimus 靈巧手使用壽命不超過兩個月。

馬斯克也說過:特斯拉在帕洛阿爾託總部已有 Optimus 在全天候行走,“如果你讓他給你帶路去參加一個會議,他甚至可以給你帶路,但關鍵的問題是手。”

“我不是人!還不行麼!”——不行

既然手這麼難,不做人形機器人不就可以了。

事實上,如果你稍微留心,就會發現,機器人其實已經悄悄進入了我們的生活,不過它們大多數都不像人。

酒店裏送水、送牙刷、送外賣的服務機器人,長得更像一臺“帶貨梯的桶”。它們靠激光雷達和閾值導航,以毫米級精度穿行在走廊裏,不會跑、不需要學,只負責從點 A 到點 B,穩穩停下、開蓋、嘟一聲。

商場裏的清潔機器人也是同理。本質上是“工業增強版掃地機”——路徑規劃 + 吸水刮地 + 避障。關鍵在於耐力穩定,不會偷懶。你讓一個人夜裏拖 5 小時地,她會累;機器人不會。

而最“反人類直覺”的,是倉庫裏的物流機器人。京東、亞馬遜的智能倉庫裏,成百上千臺“小烏龜”在地面穿梭,把貨架送到分揀員面前——它們不是學人搬東西,而是讓人不再走路。這不是模仿人類,而是繞過人類身體的限制,把效率推到極致。

2024 年中國酒店服務機器人出貨量接近 50 萬臺,清潔機器人全球市場規模超過 80 億美元,而倉儲物流機器人更是成爲亞馬遜、京東供應鏈降本的核心力量。

這些機器人的共同點是:任務單一、場景可控並且不需要像人一樣思考。所以它們跑通了商業化。甚至在部分場景裏,它們的成功恰恰在於放棄模仿人類,而是成爲比人類更貼近場景需求的“最優解”。比如清潔:人類的胳膊長度、關節角度和體力,天生無法覆蓋大空間,而清潔機器人天生就是“爲地板而生”。

那問題來了,既然非人形機器人已經能完成很多工作,爲什麼我們還要執着做一個昂貴、難做、量產慢、還可能“笨手笨腳”的人形機器人?

何小鵬在剛剛結束的小鵬科技日上給出了自己的答案——他最開始也是堅定的“四足”機器人派。但是在研發過程中有兩個問題完全改變了他的看法:

四足機器人沒有部位能裝一個手,“你去問大家一個問題,現在你是一個戰場的士兵,你周圍有個炸彈要爆炸,你要極限選擇,失去手還是失去腳,絕大部分人都選失去腳。”何小鵬舉了個例子來說明“手”的重要性。

小鵬機器人丨小鵬官網

於是乎小鵬就嘗試在各種奇怪的部位,比如“大象機器人的鼻子”甚至“馬形狀機器人的屁股”的位置加上一隻手,由於效果太過詭異最終放棄。

另一個問題是,中國家庭大部分是在100平方米或者以下,任何不是人形的四足機器人轉彎都是個大問題,畢竟機器人不像寵物那種柔軟又有皮毛,所以每次轉彎都得傷着自己或者其他傢俱。

因此,小鵬團隊最終決定,機器人,必須得像人。

其實小鵬的機器人進化可以高度概括爲什麼一定要研發人形機器人:答案比我們想的更單純,因爲今天我們生活的日常環境,都是爲了“人”設計的。

我們所有的門把手、貨架高度、桌子寬度、樓梯跨度、電梯尺寸、操作檯距離、工具手柄直徑……都是“以人手的握距、手臂的長度、軀幹的重心”爲標準設計的。

換句話說,世界是人形接口,工具是人形操作器,而工作流程是圍繞人類身體建立的。人形機器人追求的本質,是通用性。

要想讓一種機器人無縫進入人類世界的各個場景,最現成的辦法就是做成人類的樣子。

一個通用的人形機器人,代替的並不是一個場景的工作,而是要補充未來可能出現極大缺口的勞動力。

到 2030 年,日本勞動人口可能再減 15%、中國勞動力很有可能在 2035 年達到峯值後出現回落,美國製造業勞動力缺口已經超過 800 萬人,越來越多的年輕人不再願意做護工、清潔、倉庫搬運等工作。

總有一天,我們必須面對一個無論什麼領域有需要各種機器人能頂上的世界

到時候,當機器人再跟你擺爛,說“別拿我當人!我不是個人!還不行麼?”你就只能告訴他:不行。

作者:沙拉醬

編輯:臥蟲

封面圖來源:Giphy

本文來自果殼,未經授權不得轉載.

如有需要請聯繫[email protected]

相關推薦
請使用下列任何一種瀏覽器瀏覽以達至最佳的用戶體驗:Google Chrome、Mozilla Firefox、Microsoft Edge 或 Safari。為避免使用網頁時發生問題,請確保你的網頁瀏覽器已更新至最新版本。
Scroll to Top