當(dāng)前位置：人工智能實驗室> 人工智能動態(tài) > OpenAI機器人大戰(zhàn)擎天柱，奧特曼和馬斯克，誰更慌？

OpenAI機器人大戰(zhàn)擎天柱，奧特曼和馬斯克，誰更慌？
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-03-26 14:32:18 瀏覽：8850次

導(dǎo)讀：《新鮮計劃》欄目由騰訊科技推出，挖掘最新鮮的產(chǎn)品，探索年輕一代的最 in 的生活方式，體驗智慧浪潮中的 Aha 時刻。文/騰訊科技周小燕郝博陽機器人賽道又卷起來了，斯坦福大學(xué)機器人MobileALOHA炒菜視頻的火力勁兒剛過，F(xiàn)igure01又絲滑地將人類指令轉(zhuǎn)化成...

《新鮮計劃》欄目由科技新聞推出，挖掘最新鮮的產(chǎn)品，探索年輕一代的最 in 的生活方式，體驗智慧浪潮中的 Aha 時刻。

文/科技新聞周小燕郝博陽

機器人賽道又“卷”起來了，斯坦福大學(xué)機器人MobileALOHA炒菜視頻的“火力”勁兒剛過，F(xiàn)igure01又絲滑地將人類指令轉(zhuǎn)化成動作，成為了第一個“遞”蘋果的給人類的人形機器人。就在前幾天，黃仁勛在英偉達GTC大會上秀了一把迪士尼“賣萌”機器人Orange和Green，它們不僅會走路，還會向老黃“撒嬌”。

（黃仁勛“招呼”迪士尼機器人）

但是這些機器人還停留在實驗室階段，距離投入市場應(yīng)用還遙遙無期，或許馬斯克可以考慮在下一個特斯拉AIDay，發(fā)布一點關(guān)于Optimus令人驚艷、可投入生產(chǎn)應(yīng)用環(huán)節(jié)的成熟技能，才能應(yīng)對大家對各種機器人“秀”的審美疲勞。

馬斯克最近或許有點“亞歷山大”，很多人猜測，F(xiàn)igure01的火爆會讓一直“不待見”OpenAI的馬斯克感到惱火，因為擔(dān)心Figure01會比擎天柱更快到達“通用人形機器人”的狀態(tài)。

實際上，F(xiàn)igure01的整體實力相比Optimus還有一段距離，F(xiàn)igure創(chuàng)始人BrettAdcock一直高喊要做“有用的”人形機器人，但論應(yīng)用，Optimus或許會更領(lǐng)先。

業(yè)內(nèi)有一個主流觀點，通用機器人等同于“人形機器人”，但要做好一個人形機器人并不容易，需要在軟件、硬件、感知、應(yīng)用等層面都有積累。

Figure01在這則視頻中，呈現(xiàn)地更多的是軟件層面的技能，它調(diào)用OpenAI的接口，實現(xiàn)從語言或視覺到動作的順滑過度。但從本體層面來看，仔細觀察視頻中Figure01的動作，會發(fā)現(xiàn)它只呈現(xiàn)了機器人的“上半身”，重點展示雙手的操作，而雙手的靈活度比較有限。此外，從Figure01公布的往期視頻來看，它的走動能力也并不是所有人形機器人中最好的一個。

所以，僅僅憑借一則2分多鐘時長的視頻，很難看出Figure01真實實力，也無法得出它代表了“通用機器人”新高度的結(jié)論。

人形機器人的核心價值，是替代人類勞動力，人形機器人擁有靈動的雙手和聰明的大腦非常關(guān)鍵，但Figure01的“雙手”和“大腦”能力并沒有超過擎天柱。

01 雙手靈活，才能邁向勞作

原始人關(guān)注雙手，是人類在進化過程中的第一道門檻。人形機器人要想走向應(yīng)用，必須要有靈活的機械手。

海銀資本創(chuàng)始人王煜全對科技新聞表示，在人形機器人領(lǐng)域，機械手的重要性占據(jù)半壁江山。雖然Figure01在智能層面的突破遠遠蓋過硬件層面，但Figure01在機械手方面并沒有領(lǐng)先行業(yè)的技術(shù)突破。

在demo視頻里，F(xiàn)igure01全程只展示了“上半身”，而上半身全程幾乎只有雙手在活動，不論是在雙手配合度上，還是在手的抓握能力上，F(xiàn)igure01都沒有展現(xiàn)出令人驚艷的成績。

Figure01雙手由神經(jīng)網(wǎng)絡(luò)visual-action transformer策略驅(qū)動，它可以將像素直接映射到動作，仔細拆解視頻來看，F(xiàn)igure01雙手一共配合了4次：

第一次是右手拿起蘋果，遞給左手，再經(jīng)由左手遞給工作人員：

第二次是左手固定住收納筐，右手將雜物扔進收納筐中：

第三次是左手拿起杯口，右手握住杯子底部并將其放置收納筐：

第四次，左手只起了一點襯托作用，將托盤象征性地“推”給右手，右手再將托盤放置收納框：

從雙手配合度來看，F(xiàn)igure01的動作都是簡單地從“抓取”到“放下”，并且抓取物體的標(biāo)的都是“大件”蘋果、杯子和盤子，沒有進一步體現(xiàn)諸如“捏”這類精細運動。

馬斯克在幾個月前公布的OptimusGen2也擁有類似的“左手遞給右手”雙手配合能力，與Figure01不同的是，OptimusGen2選取的物體標(biāo)的是雞蛋，相比較于盤子、杯子、蘋果，抓取雞蛋的難度更高，因為抓取一枚雞蛋力氣大了會破，力氣小了容易滑落。

（OptimusGen2）

根據(jù)《中國電子報》報道，機器人完成抓取動作，需要具備壓力感知、觸力感知和柔性微壓力感知能力，觸力計算出來是力的大小，壓力傳感檢測出來的是壓強。OptimusGen2捏雞蛋的原理，是機械手先通過傳感器感知判斷物體的壓力，再計算抓握物體所需要的力度。馬斯克選擇用雞蛋作為OptimusGen2的標(biāo)的，或許就是想要證明如果它能夠計算出抓握一枚雞蛋所需用到的力，并完整地完成這一套動作，那么成功抓握其它物體更不在話下。

對比機械手感知驅(qū)動的路線來看，F(xiàn)igure01采用的是視覺運動識別路線，OptimusGen2采用的是觸覺感知反饋路線。前者通過安裝在機械手或其工作環(huán)境中的攝像頭、激光掃描儀等視覺傳感器，幫助機械手識別物體形狀、尺寸、位置、運動狀態(tài)等信息，這也是機械手中最常用的感知系統(tǒng)。后者通過觸覺傳感器來收集物體的質(zhì)地、硬度等信息，使得機械手模擬人類的觸覺反應(yīng)，幫助機器人做更精細的操作，比如抓握易碎的脆弱物體等。

機械手是一個非常“卷”的行業(yè)，能匹敵OptimusGen2的并不多，但超越Figure01的潛在對手卻很多。

首先，OptimusGen2機械手擁有11個自由度，F(xiàn)igure01只有6個自由度，老牌人形機器人波士頓動力旗下的Atlas也在不斷擴張手部自由度，Atlas去年年初才開始在手臂末端裝上“螃蟹夾”，在最新的演示視頻中，Atlas也才剛剛進化成三根手指和兩個關(guān)節(jié)，手指在手掌處共用一個樞軸點，能夠徒手抓住比自己手臂還粗的螺絲，將其搬運到目標(biāo)位置。

(Atlas)

然而，Atlas的手更適合搬運重物，雖然它沒有測試過是否能拿捏好一枚雞蛋，但Atlas曾在嘗試拿起一塊木頭時，因力度不適導(dǎo)致木頭被損壞。

其次，不斷有新的玩家涌入機械手領(lǐng)域，行業(yè)競爭激烈。比如1月份火爆的MobileAloha，可以通過遠程操控幫助機器人完成模仿學(xué)習(xí)，并結(jié)合靜態(tài)Aloha數(shù)據(jù)，順暢完成炒蝦仁的一整套動作。

李飛飛團隊也在研發(fā)類似的機械手，它能夠擰開茶葉杯蓋，用夾子抖落茶葉到茶杯中，整個泡茶動作行云流水，并且無需遠程操控，憑借一副特殊手套，就能通過傳感器捕捉手部精細運動。

MIT在2023年開發(fā)了一款“指形傳感器”GelSightSvelte，MIT官方顯示，GelSightSvelte具有柔性骨架，通過測量手指觸摸物體時脊柱的彎曲程度，便可以估計施加在傳感器上的力，它可以執(zhí)行多種抓握操作，包括捏握、橫向捏握以及使用三個手指的整個感應(yīng)區(qū)域的動力握持。

（使用GelSightSvelte傳感器的機械手）

除了學(xué)術(shù)派，企業(yè)派也非常積極，他們執(zhí)著地追求機械手無限逼近人類。比如，機械手領(lǐng)域里不乏嘗試做人造皮膚的公司，今年2月份，2021年成立的初創(chuàng)公司CloneRobotics推出了其第18版合成手，它擁有27個自由度，就像真人的手一樣，包含骨骼、肌肉和韌帶。這款機械手的骨骼由成本低廉的碳纖維組成，其余部分由軟材料構(gòu)成，包括37塊肌肉，可以承受15磅的重量。

(CloneRobotics)

“執(zhí)著派”們除了追求觸感接近人類，也追求形態(tài)無限逼近人類，比如他們認(rèn)為機械手也應(yīng)該做成五指，而不是停留在二指、三指。

但人手結(jié)構(gòu)非常復(fù)雜，擁有27塊骨頭、多個關(guān)節(jié)、超過100條肌腱，想要模仿類似人類的雙手，并完成復(fù)雜運動的協(xié)調(diào)和精準(zhǔn)的精細動作，會面臨非常大的挑戰(zhàn)。

人的雙手也非常靈活，能夠適應(yīng)各類物體的形狀、大小和質(zhì)地，并且人類的感覺神經(jīng)能夠提供關(guān)于觸摸、溫度和疼痛的反饋，而機械手要完成同樣的能力，需要集成先進的傳感器來模擬這種感知能力，并且實時調(diào)整機械手的行為，這就需要復(fù)雜的工程和算法設(shè)計。

在機械手賽道上奔跑的玩家接連不斷，相比較而言，F(xiàn)igure01展示的機械手，并沒有更高一籌。

02 變聰明，才能“與人為伍”

如果人形機器人“聽不懂”人類的語言，“人機協(xié)作”會困難重重，擁有聰明的腦袋對人形機器人應(yīng)用至關(guān)重要。

Figure01的智能確實令人驚艷，但這個能力不是Figure自己“長”出來的，它歸功于OpenAI，其它機器人想追趕上也并非難事。

Figure技術(shù)負(fù)責(zé)人、原谷歌DeepMind科學(xué)家CoreyLync在X上分享了這款人形機器人的技術(shù)原理，F(xiàn)igure01智力的構(gòu)建可以被拆解成三個層面：

第一層，模型層，從圖像中獲得常識推理，F(xiàn)igure01在這一層搭載了OpenAI的能力；

第二層，神經(jīng)策略層，幫助Figure01實現(xiàn)快速靈巧操控；

第三層，控制層，驅(qū)動Figure01運動；

(Figure的技術(shù)原理）

根據(jù)戴盟首席科學(xué)家及聯(lián)合創(chuàng)始人、香港科技大學(xué)機器人學(xué)院院長王煜教授介紹，如果類比人類，這三個層面的相互轉(zhuǎn)化涉及到“大腦”和“小腦”兩個能力模塊：

●大腦階段，即涉及機器人交互，信息輸入及任務(wù)決策的過程，就相當(dāng)于人類將看到的環(huán)境圖像，轉(zhuǎn)化為信息存儲在大腦，并根據(jù)環(huán)境決策結(jié)合指令，規(guī)劃如何完成任務(wù)。如果映射到人形機器人身上，就是通過大語言模型理解人類信息，并利用視覺傳感器獲取圖像信息的過程。這里所調(diào)配的大腦能力，用到的是類似PaLM-Saycan的模型，Palm-Saycan是谷歌兩年前就研發(fā)出的方法，它可以幫助機器人通過思維鏈提示和執(zhí)行請求的方案，來更好地完成復(fù)雜任務(wù)。

●小腦階段包括兩個部分，第一部分是動作執(zhí)行能力，相當(dāng)于大腦將圖像信息進行處理后，轉(zhuǎn)化為運動指令，并驅(qū)動機器人運動的過程，這里所調(diào)配的是小腦能力，用到的是類似RT-1的模型，它承接“大腦”環(huán)節(jié)給出的指令，輸出機器人聽得懂的操作，來控制機器人的運動。第二部分是全身控制功能，在人形機器人在進行諸如行走或其他可能影響到他人和自身平衡性的動作時，能夠保證其安全和平衡。

拆解下來后，不難發(fā)現(xiàn)Figure01采用的是pipeline形式，即從接受信息到運動的整個過程，都是環(huán)環(huán)相扣的流水線般的流程，王煜教授表示，“Figure01之所以采用pipeline形式，是因為這樣便于每個階段都可以被追溯到，如果訓(xùn)練整個一套模型數(shù)據(jù)量非常大，pipeline狀態(tài)能夠最快地讓機器人變得有用起來。”

在王煜教授看來，這次Figure01主要展示的是添加“大腦”之后，機器人處理復(fù)雜事務(wù)能力的提升。這次OpenAI提供的GPT接口對機器人任務(wù)進行了一定的優(yōu)化，使得其環(huán)境判斷能力更強，響應(yīng)速度更快。但PaLM模型本身的實現(xiàn)，對于任何具有多模態(tài)能力的模型來說都不困難。

馬斯克前段時間剛剛開源了自己的大模型Grok，雖然這款3140億參數(shù)的大模型還不具備多模態(tài)能力，其Benchmark也不及GPT3.5。但根據(jù)xAI官網(wǎng)稱，Grok接下來還會重點發(fā)展長文本理解和多模態(tài)能力。因此在機器人通過API接入下一代Grok后，實現(xiàn)與Figure01類似的能力也并非難事。

最后，相比較于Optimus，F(xiàn)igure01的“小腦”能力如何？可以從運動的流暢度、速度和平衡性幾個方面，來考察它的“小腦”能力。

在12月OptimusGen2的演示中，馬斯克的團隊特別提到其能夠完成諸如拿雞蛋、分物品的能力是“端到端”的，這說明雖然并未接入高級大腦層的應(yīng)用，但OptimusGen2也已經(jīng)加載了類似RT-1的功能。從基礎(chǔ)控制算法框架應(yīng)該和Figure01差距不大。

但Figure01另一個讓人驚艷的能力，是其動作的迅捷和流暢速度。王煜教授表示，“Figure0110Hz的圖像識別能力和200Hz的動作控制水平已經(jīng)超越了Optimus”，因此，F(xiàn)igure01的動作才十分流暢，幾乎沒有“延遲”。

雖然Figure01在動作流暢性上更勝一籌，但它在身體控制層面上并沒有超越Optimus。

在官方視頻中，F(xiàn)igure01具備很多技能，比如走路、腰部扭動、搬箱子、制作咖啡拉花等。Optimus的表現(xiàn)也不差，它不僅會走路，還會深蹲、做瑜伽、根據(jù)顏色對物體進行歸類放置等。

（Optimus做瑜伽）

從已有的視頻觀察，Optimus在平衡度上更勝一籌，畢竟它能做到以單腿站立姿態(tài)穩(wěn)穩(wěn)地做瑜伽。通過觀察二者的步態(tài)，Optimus邁步的順滑度略強于Figure01，而后者步行姿勢更像“裹腳”邁碎步的姿態(tài)。

從底層的運動規(guī)劃算法來看，Optimus可以繼承特斯拉在自動駕駛領(lǐng)域的積累，比如對復(fù)雜環(huán)境的感知、對他人行為的預(yù)測、復(fù)雜任務(wù)的決策和執(zhí)行等。雖然二者應(yīng)用場景不同，但它們在算法和技術(shù)理念層面，尤其在神經(jīng)網(wǎng)絡(luò)層面的技術(shù)積累上，存在很多共通之處。

總體而言，與其說Figure01展現(xiàn)的互動是人形機器人的成功，不如說是OpenAI邁向平臺化的成功。“OpenAI如果能將訓(xùn)練人形機器人的那部分模型系統(tǒng)化、標(biāo)準(zhǔn)化，那么它將會非常有競爭力”，王煜全對科技新聞?wù)f道。

雖然人形機器人幾乎成為通用機器人的代名詞，但王煜全認(rèn)為，如果過于執(zhí)著于做人形，方向就走偏了，還可能會因此帶來很多不必要的成本。他認(rèn)為，做機器人的思路應(yīng)該切換到應(yīng)用上，如果聚焦應(yīng)用，其實機器人的手指最多3-4根就足夠了，也不必關(guān)注讓機器人行走起來的是雙腿還是輪子。

在經(jīng)濟學(xué)中，人是絕對理性、只考慮利益最大化的。但在實際生活中，卻存在著很多為了尋找理想而選擇犧牲成本的人。

就像Figure、Optimus這些人形機器人背后的人，他們一直孜孜不倦地追求著理想中的“機器人”。

參考資料：

https://news.mit.edu/2023/finger-shaped-sensor-enables-more-dexterous-robots-1004

https://www.youtube.com/shorts/SFKM-Rxiqzg

https://www.freethink.com/robots-ai/humanoid-robots-clone-hand