當前位置：人工智能實驗室> 機器人 > 炒菜、做家務的開源機器人來了，斯坦福華人開發(fā)、Transformer 架構(gòu)驅(qū)動、造價 3.2 萬美元

炒菜、做家務的開源機器人來了，斯坦福華人開發(fā)、Transformer 架構(gòu)驅(qū)動、造價 3.2 萬美元
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-01-07 18:32:11 瀏覽：13654次

導讀：整理 | 屠敏出品 | CSDN（ID：CSDNnews）過去幾年間，隨著 AI 的發(fā)展，一個屬于機器人的萬億級賽道正在火熱開啟，無論是 Google 、特斯拉，還是國內(nèi)的達闥、追覓、以及稚暉君創(chuàng)業(yè)的「智元機器人（AGIBot）」公司均投身其中。不過，對于普通用戶而言，機器...

整理 | 屠敏

出品 | CSDN（ID：CSDNnews）

過去幾年間，隨著 AI 的發(fā)展，一個屬于機器人的萬億級賽道正在火熱開啟，無論是 Google 、特斯拉，還是國內(nèi)的達闥、追覓、以及稚暉君創(chuàng)業(yè)的「智元機器人（AGIBot）」公司均投身其中。

不過，對于普通用戶而言，機器人最為重要的并不是設計得多么好看，而是實用性。在當代年輕人的“精致懶”之吃飯要人弄、家務要人做狀態(tài)下，如果有一款集做飯、收納、保潔等多個才藝于一身的機器人，豈不美哉！

近日，斯坦福大學 3 位研究人員讓許多用戶的美夢成真了，其發(fā)布了一款名為Mobile Aloha的 AI 機器人。一經(jīng)展示之后，這款機器人便迅速在網(wǎng)絡上走紅，成為不少人想人手一個的大熱門產(chǎn)品。

只因為它，不僅可以煎大蝦，親自端上桌：

也能收拾不小心灑出來的水漬：

還能打開柜門，歸納整理：

刷碗：

簡單來看，Mobile Aloha 是一種用于雙手遙控操作的低成本開源硬件系統(tǒng)，解決了訓練需要人類操作員仔細指導的移動雙手機器人的高成本和技術(shù)挑戰(zhàn)。

值得一提的是，Mobile Aloha 能實現(xiàn)以上操作，并非完全自主，其全身也支持遠程操作。

得益于生成模型的成功，MobileAloha 可以快速從人類演示中學習，而且它可以只通過 50 次的演示就能學會一件事，合作訓練可以提高成功率高達 90%。

同時，整個機器人機載電源和計算在內(nèi)的成本為3.2 萬美元，遠遠低于市場現(xiàn)有的系統(tǒng)及硬件。更讓人興奮的是，Mobile Aloha 的軟硬件均是開源的，也方便所有的 AI 愛好者、開發(fā)者深入學習與共建。

左：用戶通過遙控操作從冰箱中獲取食物；右圖：Mobile ALOHA 可以通過模仿學習完成復雜的長時間任務

硬件代碼：https://github.com/MarkFzp/mobile-aloha

軟件代碼：https://github.com/MarkFzp/act-plus-plus

項目地址：https://mobile-aloha.github.io/

研究 5 年，以低成本打破傳統(tǒng)機器人系統(tǒng)的局限性

項目的負責人之一 Tony Z.Zhao 表示，“這個我過去 5 年里最努力的項目之一！”

而之所以會萌生開發(fā)這樣一款會做飯的 AI 機器人，是因為該研究團隊發(fā)現(xiàn)，大多數(shù)機器人操縱任務都側(cè)重于桌面操縱。這包括最近基于 Transformer 和 Diffusion 模型（廣泛應用于生成式人工智能的架構(gòu)）建立的一系列模型。

然而，日常環(huán)境中的許多任務都需要全身協(xié)調(diào)的流動性和靈巧的操作。譬如，把一個罐子放進廚房的柜子里，那么，機器人需要首先導航到柜子邊上，這就需要機器人底座可以移動；進而為了打開櫥柜，機器人需要后退，同時牢牢抓住兩個門把手，激發(fā)全身控制；隨后雙臂需要抓住鍋柄，一起將鍋放入櫥柜，雙手也要協(xié)調(diào)好。

在研究人員來看，過去有兩個主要因素阻礙了模仿學習在雙臂移動操作中的廣泛應用：

缺乏可訪問的、即插即用的全身遠程控制硬件。當然并不是說市面上沒有這種硬件，而是如果購買現(xiàn)成的機械手，成本會很高。像 PR2 和 TIA GO 這樣的機器人價格可能超過 20萬美元，這讓很多研究實驗室無法負擔。此外，要在這些平臺上實現(xiàn)遠程控制操作，還需要額外的硬件和校準。

以前的機器人學習工作沒有表現(xiàn)出高性能的雙臂移動操作復雜的任務。隨著自由度的增加，手臂和基礎(chǔ)動作之間的交互可能會變得復雜，基礎(chǔ)姿勢的微小偏差可能會導致手臂末端執(zhí)行器姿勢的大幅偏移。

在論文中，研究員表示，“立足于硬件和學習的角度，以前的工作還沒有為雙臂移動操作提供一個實用而有說服力的解決方案。”

現(xiàn)如今隨著 AI 的發(fā)展，機器人到底可以不可以做到移動并實現(xiàn)協(xié)調(diào)全身去完成任務。研究人員研究了將模仿學習擴展到需要雙臂移動機器人全身控制的任務可行性。

https://mobile-aloha.github.io/resources/mobile-aloha.pdf

MobileALOHA 的研發(fā)

在硬件維度，研究人員提出了 MobileALOHA，擴展了原始ALOHA的功能，這是一種低成本和全身遠程控制系統(tǒng)，用于收集雙臂移動操作數(shù)據(jù)。

在硬件設計時，研究人員主要從四個維度切入考慮：

移動速度要快：與人類的行走速度相媲美，約為 1.42 米/秒。

穩(wěn)定性：在拿起沉重的家居物品時，如鍋、吸塵器時，它是穩(wěn)定的。

支持全身遠程控制：所有的自由度可以同時遠程操作，包括雙臂和移動底座。

不受限制：板載電源和計算。

要想實現(xiàn) MobileALOHA 的靈活性，研究員在它的下方安裝了一個專為倉庫設計的輪子底座Tracer AGV，它可以承載 100kg，移動速度高達 1.6m/s，而成本只有 7000 美元。

為了使 Mobile ALOHA 不受限制，研究人員配備了一個 1.26 千瓦時的電池，重量在 14 公斤，這樣還可以壓住機器人，防止不平衡摔倒。此外，整個裝置還包括網(wǎng)絡攝像頭和一個搭載消費級 GPU 的筆記本電腦，成本共計約為 3.2 萬美元，比現(xiàn)成的雙臂機器人便宜得多。

研究員在論文中介紹道，Mobile ALOHA 可同時遙控所有自由度。人類操作員的腰部被用物理的方式拴在系統(tǒng)上，并反向驅(qū)動車輪，在工作環(huán)境中駕駛系統(tǒng)，同時用控制器控制機器人手臂。同時，研究人員記錄基本速度數(shù)據(jù)和手臂操縱數(shù)據(jù)，形成一個全身遠程控制操作系統(tǒng)。

這樣，機器人控制系統(tǒng)就能同時學習動作和其他控制指令。一旦收集到足夠的信息，模型就能自主地重復一系列任務。

在模仿學習方面，Mobile ALOHA 利用了 Transformer（大型語言模型中使用的架構(gòu)）。最初的 ALOHA 系統(tǒng)使用了一種名為 Action Chunking with Transformers (ACT) 的架構(gòu)，它將來自多個視點和關(guān)節(jié)位置的圖像作為輸入并預測一系列動作。

Mobile ALOHA 將運動信號添加到輸入向量中，從而擴展了該系統(tǒng)。這種方法可以讓 Mobile ALOHA 重復使用以前的深度模仿學習算法，而只需做最小的改動。

在論文中，研究人員寫道：“我們觀察到，簡單地將底座和手臂動作連接起來，然后通過直接模仿學習進行訓練，就可以產(chǎn)生出色的表現(xiàn)。具體來說，我們將 ALOHA 的 14-DoF 關(guān)節(jié)位置與移動底座的線速度和角速度連接起來，形成 16 維動作向量。”

與此同時，研究人員汲取了近期業(yè)界在預訓練和不同機器人數(shù)據(jù)集上取得的成功經(jīng)驗，并利用靜態(tài)雙臂數(shù)據(jù)集的信息，逐步提高模仿學習的性能。

在演示中，研究員展示了訓練有素的機器人烹飪?nèi)啦�，并�?zhí)行了一些精細的任務，例如打碎雞蛋、切碎大蒜、倒液體、拆開蔬菜包裝以及在煎鍋中翻轉(zhuǎn)雞肉。

此外，Mobile ALOHA 還可以執(zhí)行各種家務任務，包括給植物澆水、使用真空吸塵器、裝卸洗碗機、從冰箱中取出飲料、操作洗衣機。

研究人員表示：“通過協(xié)同訓練，我們只需對每項任務進行 50 次人類演示，就能在這些任務上取得超過 80% 的成功，與沒有協(xié)同訓練相比，平均絕對提高了 34%。”

Mobile ALOHA 背后的研究員

Mobile ALOHA 的到來，不僅打破了很多傳統(tǒng)機器人的局限性，也讓我們看到了這個年輕人團隊為 AI 帶來的無限潛力。

正如文章伊始所述，Mobile ALOHA出自斯坦福大學 3 位研究人員之手，也是華人團隊。

Zipeng Fu（項目聯(lián)合負責人）

Zipeng Fu，是斯坦福人工智能實驗室計算機科學專業(yè)的博士生，導師是 Chelsea Finn。

同時，他還是 GoogleDeepMind 的學生研究員，與Google Brain Robotics機器人運動和安全團隊的技術(shù)主管經(jīng)理Jie Tan一起工作。

此前，Zipeng Fu 在加州大學洛杉磯分校完成了計算機科學與應用數(shù)學學士學位，導師是 Song-Chun Zhu，后來在CMU 攻讀機器學習領(lǐng)域的碩士，并在機器人研究所擔任學生研究員，導師是 Deepak Pathak 和 Jitendra Malik。

他的研究興趣在于機器人學、機器學習和計算機視覺的交叉領(lǐng)域。重點關(guān)注機器人在非結(jié)構(gòu)化開放世界中的強大性能和可部署機器人系統(tǒng)。

Tony Z. Zhao（項目聯(lián)合負責人）

Tony Z. Zhao 是斯坦福大學計算機科學博士三年級學生，導師同是 Chelsea Finn。同時，他也是 Google Deepmind 的兼職學生研究員。

此前，Tony Z. Zhao 在特斯拉自動駕駛汽車公司和 Google X Intrinsic 實習。于 2021 年獲得伯克利大學電子工程科學學士學位，導師是 Sergey Levine和 Dan Klein。

“我想讓機器人能夠執(zhí)行復雜的精細操作任務。我對初創(chuàng)企業(yè)和自主機器人的未來感到興奮”，Tony Z. Zhao 寫道。

Chelsea Finn（顧問）

Chelsea Finn是斯坦福大學計算機科學與電子工程系助理教授。她的實驗室 IRIS 主攻研究大規(guī)模機器人交互智能，隸屬于 SAIL 和 ML 小組。

除了教授職位之外，Chelsea Finn 在 Google 任職，是 Google Brain 團隊的一員。

此前，Chelsea Finn 在加州大學伯克利分校獲得了計算機科學博士學位，并在麻省理工學院獲得了電子工程和計算機科學學士學位。

項目負責人現(xiàn)身發(fā)布翻車視頻：并未做好接管世界的準備！

隨著研究人員將這一項目對外公開，不少網(wǎng)友開始期待：「感覺我以后養(yǎng)老可以靠它了，現(xiàn)在開始攢錢，然后讓機器人給我打工９

不過，這樣的幻想還沒有持續(xù)多久，該項目負責人之一的 Tony Z.Zhao 緊急在 Twitter 上又發(fā)布一則視頻，為 Mobile ALOHA 潑了一盆冷水。其表示，“機器人還沒有準備好接管世界！我剛剛制作了一個視頻，記錄了在自主模式下犯下的最愚蠢的錯誤 Mobile ALOHA。我們還計劃在休息后組織一些現(xiàn)場演示。敬請關(guān)注！”

在視頻中，Mobile ALOHA 在自主模式下，不僅手抖，將酒杯里的水灑出來了，還讓它自由落體，變成了玻璃渣：