當前位置：人工智能實驗室> 機器人 > 真能聽懂人話！機器人ChatGPT來了，谷歌發(fā)布又一AI大模型黑科技

真能聽懂人話！機器人ChatGPT來了，谷歌發(fā)布又一AI大模型黑科技
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-08-03 05:20:33 瀏覽：38841次

導讀：作者| ZeR0 編輯| 漠影智東西7月29日消息，Google DeepMind再放AI機器人大招！周五，這家前沿AI研究機構(gòu)宣布以訓練AI聊天機器人的方式訓練了一款全新的機器人模型Robotic Transformer 2（RT-2）。 RT-2相當于機器人版ChatGPT，被Google DeepMind稱作是其視...

作者|ZeR0

編輯|漠影

智東西7月29日消息，Google DeepMind再放AI機器人大招！周五，這家前沿AI研究機構(gòu)宣布以訓練AI聊天機器人的方式訓練了一款全新的機器人模型Robotic Transformer 2（RT-2）。

RT-2相當于機器人版ChatGPT，被Google DeepMind稱作是其視覺-語言-動作（VLA）模型的新版本。該模型可以教會機器人更好地識別視覺和語言模態(tài)，能夠解釋人類用自然語言發(fā)出的指令，并推斷出如何做出相應的行動。它還可以理解英語以外的語言的指示。

結(jié)合思維鏈推理，RT-2可以執(zhí)行多階段語義推理。即便是一些抽象概念，RT-2也能理解并指揮機械臂做出正確的動作。比如讓它找一把臨時用的簡易錘子，它會抓起石頭；讓它給疲憊的人選一款飲料，它會選擇紅牛；讓它把可樂罐移到泰勒斯威夫特的照片上，它也能順利完成。

根據(jù)論文，RT-2模型基于網(wǎng)絡和機器人數(shù)據(jù)進行訓練，利用了谷歌自己的Bard等大型語言模型的研究進展，并將其與機器人數(shù)據(jù)（例如要移動的關節(jié)）相結(jié)合，然后將這些知識轉(zhuǎn)化為機器人控制的通用指令，同時保留web-scale能力。

論文地址：

https://robotics-transformer2.github.io/assets/rt2.pdf

Google DeepMind博客文章寫道，RT-2顯示出超越其所接觸的機器人數(shù)據(jù)的泛化能力以及語義和視覺理解能力，包括解釋新命令并通過執(zhí)行基本推理（例如關于對象類別或高級描述的推理）來響應用戶命令。

其將信息轉(zhuǎn)化為行動的能力表明，機器人有望更快地適應新的情況和環(huán)境。

在對RT-2模型進行了超過6000次的機器人試驗后，研究團隊發(fā)現(xiàn)，RT-2在訓練數(shù)據(jù)或“可見”任務上的表現(xiàn)與之前的模型RT-1一樣好。它在新奇的、不可預見的場景中的表現(xiàn)幾乎翻番，從RT-1的32%提高到62%。

01.

讓機器人用AI大模型學習新技能

機器人技術領域正悄然進行一場革命將大型語言模型的最新進展引入機器人，讓機器人變得更聰明，并具備新的理解和解決問題的能力。

《紐約時報》技術專欄作家凱文羅斯（Kevin Roose）在谷歌機器人部門觀看了實際演示，工程師給機器人發(fā)出指令：“撿起滅絕的動物”，一個單臂機器人呼呼地響了一會兒，然后伸出機械臂，爪子張開落下，準確抓住了它面前桌子上的恐龍塑料制品。

▲《紐約時報》拍攝的視頻

在這場長達1小時的演示中，RT-2還成功執(zhí)行了“將大眾汽車移到德國國旗上”的復雜指令，RT-2找到并抓住一輛大眾巴士模型，并將其放在幾英尺外的微型德國國旗上。

▲兩名谷歌工程師Ryan Julian（左）和Quan Vuong成功指示RT-2“將大眾汽車移到德國國旗上”。（圖源：《紐約時報》）

多年以來，谷歌和其他公司的工程師訓練機器人執(zhí)行機械任務（例如翻轉(zhuǎn)漢堡）的方式是使用特定的指令列表對其進行編程。然后機器人會一次又一次地練習該任務，工程師每次都會調(diào)整指令，直到得到滿意的結(jié)果為止。

這種方法適用于某些有限的用途。但以這種方式訓練機器人，既緩慢又費力。它需要從現(xiàn)實世界的測試中收集大量數(shù)據(jù)。如果你想教機器人做一些新的事情（例如從翻轉(zhuǎn)漢堡改做翻轉(zhuǎn)煎餅），你通常必須從頭開始重新編程。

部分源于這些限制，硬件機器人的改進速度慢于基于軟件的同類機器人。

近年來，谷歌的研究人員有了一個想法：如果機器人使用AI大型語言模型（來為自己學習新技能，而不是逐一為特定任務進行編程，會怎樣？

據(jù)谷歌研究科學家卡羅爾豪斯曼（Karol Hausman）介紹，他們大約兩年前開始研究這些語言模型，意識到它們蘊藏著豐富的知識，所以開始將它們連接到機器人。

高容量視覺-語言模型（VLM）在web-scale數(shù)據(jù)集上進行訓練，使這些系統(tǒng)非常擅長識別視覺或語言模式并跨不同語言進行操作。但要讓機器人達到類似的能力水平，他們需要收集每個物體、環(huán)境、任務和情況的第一手機器人數(shù)據(jù)。

RT-2的工作建立在RT-1的基礎上。這是一個經(jīng)過多任務演示訓練的模型，可學習機器人數(shù)據(jù)中看到的任務和對象的組合。更具體地說，谷歌的研究工作使用了在辦公室廚房環(huán)境中用13個機器人在17 個月內(nèi)收集的RT-1機器人演示數(shù)據(jù)。

谷歌首次嘗試將語言模型和物理機器人結(jié)合起來是一個名為PaLM-SayCan的研究項目，該項目于去年公布，它引起了一些關注，但其用處有限。機器人缺乏解讀圖像的能力，而這是能夠理解世界的一項重要技能。他們可以為不同的任務寫出分步說明，但無法將這些步驟轉(zhuǎn)化為行動。

谷歌的新機器人模型RT-2就能做到這一點。這個“視覺-語言-動作”模型不僅能夠看到和分析周圍的世界，還能告訴機器人如何移動。

它通過將機器人的動作轉(zhuǎn)換為一系列數(shù)字（這一過程稱為標注）并將這些標注合并到與語言模型相同的訓練數(shù)據(jù)中來實現(xiàn)這一點。

最終，就像ChatGPT或Bard學會推測一首詩或一篇歷史文章中接下來應該出現(xiàn)什么詞一樣，RT-2可以學會猜測機械臂應該如何移動來撿起球，或?qū)⒖掌奕舆M回收站垃圾桶。

02.

采用視覺語言模型進行機器人控制

RT-2表明視覺-語言模型（VLM）可以轉(zhuǎn)化為強大的視覺-語言-動作（VLA）模型，通過將VLM預訓練與機器人數(shù)據(jù)相結(jié)合，直接控制機器人。

RT-2以視覺-語言模型（VLM）為基礎，將一個或多個圖像作為輸入，并生成一系列通常代表自然語言文本的標注。此類VLM已接受web-scale數(shù)據(jù)的訓練，能夠執(zhí)行視覺問答、圖像字幕或?qū)ο笞R別等任務。Google DeepMind團隊采用PaLI-X和PaLM-E模型作為RT-2的支柱。

為了控制機器人，必須訓練它輸出動作。研究人員通過將操作表示為模型輸出中的標注（類似于語言標注）來解決這一挑戰(zhàn)，并將操作描述為可以由標準自然語言標注生成器處理的字符串，如下所示：

▲RT-2訓練中使用的動作字符串的表示形式。這種字符串的示例可以是機器人動作標記編號的序列，例如“1 128 91 241 5 101 127 217”。

該字符串以一個標志開頭，指示是繼續(xù)還是終止當前情節(jié)，而不執(zhí)行后續(xù)命令，然后是更改末端執(zhí)行器的位置和旋轉(zhuǎn)以及機器人夾具所需延伸的命令。

研究人員使用了與RT-1中相同的機器人動作離散版本，并表明將其轉(zhuǎn)換為字符串表示使得可以在機器人數(shù)據(jù)上訓練VLM模型，因為此類模型的輸入和輸出空間不需要改變了。

▲RT-2架構(gòu)和訓練：研究人員針對機器人和網(wǎng)絡數(shù)據(jù)共同微調(diào)預先訓練的VLM模型。生成的模型接收機器人攝像頭圖像并直接預測機器人要執(zhí)行的動作。

03.

泛化性能和緊急技能顯著更好

研究人員在RT-2模型上進行了一系列定性和定量實驗，進行了6000多次機器人試驗。

在探索RT-2的新興功能時，他們首先搜索了需要將web-scale數(shù)據(jù)的知識與機器人的經(jīng)驗相結(jié)合的任務，然后定義三類技能：符號理解、推理和人類識別。

每項任務都需要理解視覺語義概念以及執(zhí)行機器人控制以操作這些概念的能力。需要諸如“撿起即將從桌子上掉下來的袋子”之類的命令，其中要求機器人對機器人數(shù)據(jù)中從未見過的物體或場景執(zhí)行操作任務將知識從基于網(wǎng)絡的數(shù)據(jù)轉(zhuǎn)化為可操作的。

▲機器人數(shù)據(jù)中不存在的新興機器人技能示例，需要通過網(wǎng)絡預訓練進行知識遷移。

在所有類別中，研究人員觀察到與之前的基線（例如之前的RT-1模型和Visual Cortex（VC-1）等模型）相比，RT-2的泛化性能提高到3倍以上，這些模型是在大型視覺數(shù)據(jù)集上進行預訓練的。

▲緊急技能評估的成功率：RT-2模型優(yōu)于之前的RT-1和VC-1基線。

研究人員還進行了一系列定量評估，從最初的RT-1任務開始，在機器人數(shù)據(jù)中提供了示例，然后繼續(xù)對機器人進行不同程度的以前未見過的物體、背景和環(huán)境，要求機器人從VLM預訓練中學習泛化能力。

▲機器人以前未見過的環(huán)境示例，RT-2可以推廣到新的情況。

RT-2保留了機器人數(shù)據(jù)中看到的原始任務的性能，并提高了機器人在以前未見過的場景上的性能，從RT-1的32%提高到了62%，展示了大規(guī)模預訓練的巨大優(yōu)勢。

此外，研究人員觀察到與僅視覺任務預訓練的基線相比有顯著改進，例如VC-1和機器人操作的Reusable Representations for Robotic Manipulation（R3M），以及用VLM進行對象識別的算法，例如Manipulation of Open-World Objects（MOO）。

▲RT-2在可見的分布內(nèi)任務上實現(xiàn)了高性能，并且在分布外未見的任務上優(yōu)于多個基線。

在機器人任務的開源Language Table套件上評估其模型，研究人員在模擬中實現(xiàn)了90%的成功率，高于之前的基線，包括BC-Z（72%）、RT-1（74%）和LAVA（77%）。

然后研究人員在現(xiàn)實世界中評估相同的模型（因為它是在模擬和真實數(shù)據(jù)上進行訓練的），并展示了其泛化到新對象的能力，如下所示，其中除了藍色立方體之外，沒有任何對象出現(xiàn)在訓練中數(shù)據(jù)集。

▲RT-2在真實機器人Language Table任務中表現(xiàn)良好。除了藍色立方體之外，訓練數(shù)據(jù)中不存在任何對象。

受大型語言模型中使用思維鏈提示方法的啟發(fā)，研究人員探索其模型，將機器人控制與思維鏈推理相結(jié)合，以便能夠在單個模型中學習長期規(guī)劃和簡易技能。

特別是，他們對RT-2的變體進行了幾百個梯度步驟的微調(diào)，以提高其聯(lián)合使用語言和動作的能力，然后對數(shù)據(jù)進行了擴充，添加了一個額外的“計劃”步驟，首先用自然語言描述機器人即將采取的動作的目的，然后是“動作”和動作標注。

這里，研究人員展示了這種推理和機器人的最終行為的示例：

▲思想鏈推理可以學習一個獨立的模型，該模型既可以規(guī)劃長期技能序列，又可以預測機器人的動作。

通過這一過程，RT-2可以執(zhí)行更多復雜的命令，這些命令需要推理完成用戶指令所需的中間步驟。得益于其VLM主干，RT-2還可以根據(jù)圖像和文本命令進行規(guī)劃，從而實現(xiàn)基于視覺的規(guī)劃，而當前的計劃和行動方法（如SayCan）無法看到現(xiàn)實世界并完全依賴于語言。

04.

結(jié)語：機器人制造和編程控制方式

的重大飛躍

多年來，研究人員們一直試圖讓機器人具有更好的推理能力，以解決如何在現(xiàn)實生活環(huán)境中生存的問題。以前，訓練機器人需要很長時間。研究人員必須單獨制定方向。但借助RT-2等VLA模型的強大功能，機器人可以獲取更多信息來推斷下一步該做什么。

加州大學伯克利分校機器人學教授肯戈德堡（Ken Goldberg）說，機器人的靈巧程度仍達不到人類的水平，在一些基本任務上也表現(xiàn)不佳，但谷歌利用AI大型語言模型賦予機器人新的推理和即興創(chuàng)作技能，這是一個有希望的突破。

谷歌沒有立即計劃銷售RT-2機器人或更廣泛地發(fā)布它們，但其研究人員相信這些配備新語言的機器最終將不僅僅用于室內(nèi)魔術，具有內(nèi)置語言模型的機器人可以放入倉庫、用于醫(yī)藥，甚至可以用作家庭助理折疊衣物、從洗碗機中取出物品、在房子周圍收拾東西。

Google DeepMind機器人技術主管文森特范霍克（Vincent Vanhoucke）認為，這確實開啟了在有人所在的環(huán)境中使用機器人的大門在辦公室環(huán)境中，在家庭環(huán)境中，在所有需要完成大量體力任務的地方。

當然，在雜亂無章的物理世界中移動物體，比在受控實驗室中移動物體要困難。人類本能地知道該如何清理潑到桌上的飲料，但機器人需要更多的指令才能去做這項看似輕而易舉的工作。

鑒于AI大型語言模型經(jīng)常犯錯誤或發(fā)明無意義的答案，將它們用作機器人的大腦可能會帶來新的風險。但戈德堡教授說，這些風險仍然很校“我們并不是在談論讓這些東西失控，”他說，“在這些實驗室環(huán)境中，他們只是試圖在桌子上推一些物體。”

谷歌方面表示，RT-2配備了大量安全功能。除了每個機器人背面都有一個紅色大按鈕（按下按鈕后機器人會停止在軌道上）之外，該系統(tǒng)還使用傳感器來避免撞到人或物體。

RT-2內(nèi)置的AI軟件有自己的保護措施，可以用來防止機器人做出任何有害的事情。例如，谷歌的機器人經(jīng)過訓練后不會拿起裝有水的容器，因為如果水溢出，它們的硬件可能會損壞。

谷歌的RT-2機器人并不完美。在實際演示中，它把一罐檸檬味蘇打水的味道錯猜成“橘子味”。還有一次被問到桌子上有什么水果時，機器人回答成“白色”，而正確答案是香蕉。谷歌發(fā)言人解釋說，該機器人使用了緩存的答案來回答之前測試者的問題，因為它的Wi-Fi曾短暫中斷過。

但瑕不掩瑜。RT-2不僅是對現(xiàn)有VLM模型的簡單而有效的修改，而且還展示了構(gòu)建通用物理機器人的前景，該機器人可以推理、解決問題和解釋信息，以在現(xiàn)實世界中執(zhí)行各種任務。

在大型語言模型研究的啟發(fā)下，機器人正變得更加智能。

相關熱詞： 真能聽懂人話機器人 ChatGPT 來了谷歌發(fā)布

上一篇：為機器人裝“大腦” 谷歌發(fā)布RT-2大模型

下一篇：消息稱蘋果正研發(fā)第 7 代 iPad mini，有望升級芯片

AiLab云推薦

真能聽懂人話！機器人ChatGPT來了，谷歌發(fā)布又一AI大模型黑科技
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-08-03 05:20:33 瀏覽：38841次

相關內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關于我們

版權聲明

真能聽懂人話！機器人ChatGPT來了，谷歌發(fā)布又一AI大模型黑科技 來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-08-03 05:20:33 瀏覽：38841次

相關內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關于我們

版權聲明

真能聽懂人話！機器人ChatGPT來了，谷歌發(fā)布又一AI大模型黑科技
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-08-03 05:20:33 瀏覽：38841次