當(dāng)前位置：人工智能實驗室> 機(jī)器人 > 用GPT-4V和人類演示訓(xùn)練機(jī)器人：眼睛學(xué)會了，手也能跟上

用GPT-4V和人類演示訓(xùn)練機(jī)器人：眼睛學(xué)會了，手也能跟上
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-12-03 16:40:46 瀏覽：5284次

導(dǎo)讀：機(jī)器之心報道編輯：趙陽微軟提出使用人手運(yùn)動視頻直接教機(jī)器人完成任務(wù)的新方法，這種方法使用 GPT-4V 分解視頻中的動作，結(jié)合大語言模型生成對應(yīng)的行為表述并作為任務(wù)列表，訓(xùn)練機(jī)器人只需要動動手就能完成。如何將語言 / 視覺輸入轉(zhuǎn)換為機(jī)器人動作？訓(xùn)...

機(jī)器之心報道

編輯：趙陽

微軟提出使用人手運(yùn)動視頻直接教機(jī)器人完成任務(wù)的新方法，這種方法使用 GPT-4V 分解視頻中的動作，結(jié)合大語言模型生成對應(yīng)的行為表述并作為任務(wù)列表，訓(xùn)練機(jī)器人只需要動動手就能完成。

如何將語言 / 視覺輸入轉(zhuǎn)換為機(jī)器人動作？

訓(xùn)練自定義模型的方法已經(jīng)過時，基于最近大語言模型（LLM）和視覺語言模型（VLM）的技術(shù)進(jìn)展，通過 prompt 工程使用 ChatGPT 或 GPT-4 等通用模型才是時下熱門的方法。

這種方法繞過了海量數(shù)據(jù)的收集和對模型的訓(xùn)練過程，展示出了強(qiáng)大的靈活性，而且對不同機(jī)器人硬件更具適應(yīng)性，并增強(qiáng)了系統(tǒng)對研究和工業(yè)應(yīng)用的可重用性。

特別是最近出現(xiàn)了通用視覺大模型（VLM），如 GPT-4V，將這些視覺系統(tǒng)集成到任務(wù)規(guī)劃中，為開發(fā)基于多模態(tài)人類指令的任務(wù)規(guī)劃器提供了可能性。

在近期微軟的一篇論文中，研究者利用 GPT-4V 和 GPT-4（圖 1）分別作為最新的 VLM 和 LLM 的范例，提出了一種多模態(tài)任務(wù)規(guī)劃器。該系統(tǒng)可以接受內(nèi)容為人類行為的視頻和文本指令等輸入，甚至可以同時接受二者，并輸出符號化的任務(wù)規(guī)劃（即一系列連貫的任務(wù)步驟）。

論文地址：https://arxiv.org/pdf/2311.12015.pdf

代碼即將公開：https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/

當(dāng)視覺數(shù)據(jù)可用時，系統(tǒng)會根據(jù)任務(wù)規(guī)劃重新分析視頻，并在每個任務(wù)和視頻之間建立時空上的對應(yīng)關(guān)系。這一過程可以提取對機(jī)器人執(zhí)行有價值的各種能力信息，如接近物體的方式、抓握類型、避免碰撞的路徑點和上肢姿勢等。

最后，能力（affordance）信息和任務(wù)規(guī)劃被編譯成獨立于硬件的可執(zhí)行文件，以 JSON 格式保存。本文對模型進(jìn)行了定性分析，并確認(rèn)了輸出的任務(wù)規(guī)劃在多個真實機(jī)器人上的可操作性。

技術(shù)細(xì)節(jié)

本文提出的系統(tǒng)由兩個串聯(lián)的部分組成（圖 2）：

第一部分是符號任務(wù)規(guī)劃器，將人類行為的教學(xué)視頻、文本或兩者共同作為輸入，然后輸出一系列的機(jī)器人動作。在這里，文本輸入也包括對 GPT-4V 識別結(jié)果的反饋，以便進(jìn)行修正。為用戶提供對識別結(jié)果進(jìn)行反饋的機(jī)會，可以得到更加魯棒的操作作為輸入，換句話說，當(dāng)系統(tǒng)任務(wù)用戶操作不準(zhǔn)確時，還能有機(jī)會重新輸入。

第二部分是能力分析器，負(fù)責(zé)分析視頻以確定任務(wù)發(fā)生的時間和地點，然后提取高效執(zhí)行任務(wù)所需的能力信息。

在這一系統(tǒng)中，輸入的視頻是人類執(zhí)行動作的演示，讓機(jī)器人去復(fù)制。本研究實驗中假定視頻的粒度為抓握 - 操縱 - 釋放。

A. 符號任務(wù)規(guī)劃器

符號任務(wù)規(guī)劃器由三個部分組成：1) 視頻分析；2) 場景分析；3) 任務(wù)規(guī)劃。

最初，當(dāng)輸入 RGB 視頻時，視頻分析使用 GPT-4V 來識別視頻中人類所做的動作，并將其轉(zhuǎn)錄為人與人交流中使用的文本指令（例如，請扔掉這個空罐子）。在視頻分析中，考慮到模型 token 的限制和延遲，本文采用了視頻幀定時采樣的方法，并將抽到的幀輸入 GPT-4V。然后由用戶對輸出文本進(jìn)行檢查和編輯。如果不提供視頻輸入，則在此階段向系統(tǒng)提供文本指令。圖 3 顯示了視頻分析器的示例，表明 GPT-4V 可以成功地從幀中理解人的動作。

接下來，場景分析器根據(jù)這些指令和工作環(huán)境的第一幀視頻數(shù)據(jù)或圖像，將預(yù)期的工作環(huán)境編譯成文本信息。這些環(huán)境信息包括 GPT-4V 識別的物體名稱列表、物體的可抓取屬性以及物體之間的空間關(guān)系。雖然這些計算過程在 GPT-4V 中是一個黑盒，但這些信息是根據(jù) GPT-4V 的知識和輸入的圖像 / 文本輸出的。

圖 4 顯示了場景分析器的示例。如圖所示，GPT-4V 成功地選擇了與操作相關(guān)的對象。例如，當(dāng)人類在桌子上移動垃圾桶時，輸出中包含了桌子，而在打開冰箱的任務(wù)中則忽略了桌子。這些結(jié)果表明，場景分析器可以根據(jù)人類的操作對場景信息進(jìn)行編碼。

根據(jù)給定的文本指令和環(huán)境信息，任務(wù)規(guī)劃器會輸出一系列任務(wù)。

具體來說，本文設(shè)計了一個 prompt，讓 GPT-4 將給定指令分解為一系列機(jī)器人任務(wù) 。本文又根據(jù) Kuhn-Tucker 理論，建立了一套必要且充分的機(jī)器人操作物體的動作。

表 I 顯示了本文在 prompt 中包含的任務(wù)集和解釋。在這里，任務(wù)參數(shù)的名稱是基于對 GPT-4V 的理解，以開放詞匯格式給出的。在后續(xù)階段，這些名稱將通過能力分析器與視頻結(jié)合起來。此外，這些前 / 后條件用于強(qiáng)制 GPT-4 輸出連貫的任務(wù)序列，而不是根據(jù)視頻中的意象進(jìn)行驗證。

為了確保對 GPT-4 模型理解的透明度，任務(wù)規(guī)劃器被設(shè)計為輸出任務(wù)解釋、操作后的估計環(huán)境和操作摘要，以及一組任務(wù)規(guī)劃。此外，任務(wù)規(guī)劃器還是一個有狀態(tài)的系統(tǒng)，可在 GPT-4 模型的 token 限制范圍內(nèi)保持過去對話的歷史記錄。因此，用戶可以根據(jù)任務(wù)規(guī)劃器的輸出，通過語言反饋來修改和確認(rèn)輸出。圖 5 顯示了任務(wù)規(guī)劃器的計算結(jié)果示例。結(jié)果表明，一套量身定制的 prompt 可以產(chǎn)生合理的文本指示、環(huán)境描述和符號任務(wù)規(guī)劃。

B. Affordance 分析器

Affordance 分析器利用來自符號任務(wù)規(guī)劃器的知識對給定視頻進(jìn)行重新分析，以獲取機(jī)器人有效執(zhí)行任務(wù)所需的能力信息。

具體來說，它根據(jù)任務(wù)的性質(zhì)和物體名稱，重點分析手與物體之間的關(guān)系。它能識別視頻中抓取和釋放的時刻和位置，并將這些時刻和位置與任務(wù)序列對齊。這些瞬間可作為錨點，用于識別每項任務(wù)所必需的能力。本文之前的研究《Verbal Focus-of-Attention System for Learning-from-Observation》已經(jīng)證明了「關(guān)注焦點」在檢測動作抓取和釋放方面的有效性。

1) 通過關(guān)注人手來檢測抓取和釋放的動作：起初，模型將一系列視頻按固定的時間間隔分割成視頻片段。然后使用手部檢測器和圖像分類器對每個視頻片段的開始和結(jié)束幀進(jìn)行分析，以確定物體是否被抓（圖 6）。視頻片段被分為以下幾種模式：

在第一幀中沒有任何東西被抓住，但在最后一幀中卻有東西被抓住的片段表示發(fā)生了抓齲

在第一幀中有東西被握住，而在最后一幀中沒有東西被握住的片段表示發(fā)生了釋放。

其他片段則被歸類為包含其他類型動作的片段。

通過這種分類，分析器可以確定哪些視頻片段包含抓握和松開的實例。為此，研究者開發(fā)了基于 YOLO 的手部檢測器和識別器，并已將該模型開源（https://github.com/ultralytics/ultralytics）。

2) 通過關(guān)注手與物體的交互，實現(xiàn)檢測抓取和釋放的時空位置。然后，模型將重點放在抓取視頻片段上，分析抓取物體的位置和時間。本文使用 Detic（一種開放式詞匯對象檢測器）來搜索視頻中的候選對象，正如符號任務(wù)規(guī)劃器所識別的那樣，當(dāng)識別出多個候選對象時，視頻片段中最靠近手部的對象將被視為抓取對象。這是通過比較手部檢測器在抓取視頻片段的每一幀中檢測到的每個候選對象的邊界框與手部之間的距離來確定的。圖 7 展示了物體檢測的計算過程。在「抓裙視頻片段中，手與物體在空間上最接近的時刻被確定為抓取時刻。類似的計算也應(yīng)用于釋放視頻片段，以確定釋放的時間。

圖 8 顯示了將果汁罐從貨架底部移到頂部的操作計算過程。

3) 本文將抓取和松開的瞬間看作任務(wù)序列與視頻對齊的錨點，對齊后，視覺分析器會提取以下信息，包括：

抓取任務(wù)的能力：1）接近物體的方向信息，以避免與環(huán)境發(fā)生碰撞。2）抓取類型還包含人類如何有效的執(zhí)行操作。

手部移動的能力：1）手移動過程中的航點信息，以避免環(huán)境碰撞。

釋放任務(wù)的能力：1）釋放物體后手的撤離方向信息，以避免環(huán)境碰撞。

拾取任務(wù)的能力：1）矢量化的離開方向信息，以盡量減少物體與平面之間不必要的力。

放置任務(wù)的能力：1）朝物體靠近方向的信息，以避免環(huán)境碰撞。

旋轉(zhuǎn)任務(wù)的能力：1）旋轉(zhuǎn)軸的方向。2) 旋轉(zhuǎn)中心的位置。3）旋轉(zhuǎn)角度。

滑動任務(wù)的能力：1）滑動運(yùn)動的位移。

表面移動任務(wù)的能力：1）與表面垂直的軸。

除了這些能力外，上臂和前臂在抓娶釋放和每個時刻的姿態(tài)也被編碼為一對離散的方向向量。這些向量可作為計算多自由度手臂逆運(yùn)動學(xué)的約束條件，確保機(jī)器人不會在人類周圍擺出意想不到的姿勢。值得注意的是，雖然這些能力為許多控制器提供了可行的信息，但機(jī)器人的實際執(zhí)行可能還需要力反饋等額外信息。獲取這些能力信息的具體方法可參見研究者之前的論文（https://arxiv.org/abs/2008.01513）。

實驗結(jié)果

研究者將模型進(jìn)行了封裝，并設(shè)計了網(wǎng)頁訪問接口，如圖 9 所示。

該模型允許用戶上傳預(yù)先錄制的教學(xué)演示，并讓 GPT-4V 和 GPT-4 對任務(wù)模型進(jìn)行編碼。然后，研究者測試了機(jī)器人能否通過在各種場景下獲得的視頻進(jìn)行一次嘗試操作。此處研究者介紹了幾個執(zhí)行示例。實驗測試了兩個機(jī)器人：第一個是 Nextage 機(jī)器人（川田機(jī)器人公司出品）其手臂有六個自由度；第二個是 Fetch 移動機(jī)械手（Fetch 機(jī)器人公司出品)，其手臂有七個自由度。機(jī)器人上還裝有一個四指機(jī)械手，即 Shadow Dexterous Hand Lite（Shadow Robotics）。機(jī)器人的技能是通過強(qiáng)化學(xué)習(xí)訓(xùn)練出來的。所有實驗結(jié)果將可以在其官方代碼庫中訪問（代碼即將公布）。