西西顶级大胆免费视频,久久九九八八色偷偷

MIT推出拾物機(jī)器人「最強(qiáng)輔助」，少量訓(xùn)練樣本即可實(shí)現(xiàn)自然語言控制

來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-08-20 13:57:51 瀏覽：15975次

導(dǎo)讀：克雷西發(fā)自凹非寺量子位 | 公眾號(hào) QbitAI MIT的這項(xiàng)新成果，讓取物機(jī)器人變得更聰明了！不僅能理解自然語言指令，還可以拾取沒見過的物體。麻麻再也不用擔(dān)心我找不到東西了！研究人員將2D特征嵌入了三維空間，構(gòu)建出了用于控制機(jī)器人的特征場(chǎng)（F3RM）...

克雷西發(fā)自凹非寺

量子位 | 公眾號(hào) QbitAI

MIT的這項(xiàng)新成果，讓取物機(jī)器人變得更聰明了！

不僅能理解自然語言指令，還可以拾取沒見過的物體。

麻麻再也不用擔(dān)心我找不到東西了！

研究人員將2D特征嵌入了三維空間，構(gòu)建出了用于控制機(jī)器人的特征場(chǎng)（F3RM）。

這樣一來，在2D圖像中構(gòu)建的圖像特征和語義數(shù)據(jù)，就能被三維的機(jī)器人理解并使用了。

不僅操作簡單，訓(xùn)練過程中需要的樣本量也很校

低訓(xùn)練樣本實(shí)現(xiàn)輕松取物

我們可以看到，在F3RM的幫助下，機(jī)器人可以嫻熟地拾取目標(biāo)物體。

哪怕要找出機(jī)器人沒遇見過的物體，同樣不是問題。

比如……大白（玩偶）。

對(duì)于場(chǎng)景中的同種物品，可以根據(jù)顏色等信息進(jìn)行區(qū)別。

比如分別拾取同一場(chǎng)景中藍(lán)色和紅色兩種不同的螺絲刀。

不僅如此，還可以要求機(jī)器人抓取物體的特定位置。

比如這個(gè)杯子，我們可以指定機(jī)器人抓住杯身或者杯把。

除了拾取問題，還可以讓機(jī)器人把拾到的東西放到指定位置。

比如把杯子分別放到木制和透明的支架上。

團(tuán)隊(duì)提供了完整的，沒有經(jīng)過篩選的實(shí)驗(yàn)結(jié)果。他們?cè)趯?shí)驗(yàn)室周邊隨機(jī)選取了 out-of-distribution （訓(xùn)練集外）測(cè)試樣本。

其中使用 CLIP ResNet 特征的特征場(chǎng) 在三成以上的測(cè)試樣本中（78%）成功抓取和放置。在基于開放性人工語言指令的任務(wù)上，成功率在 60%。該結(jié)果沒有經(jīng)過人工選擇（cherry-picking），因此對(duì)特征場(chǎng)在零微調(diào)情境下的表現(xiàn)有客觀的描述。

那么，如何利用F3RM幫助機(jī)器人工作呢？

將2D特征投射到三維空間

下面這張圖大致描述了利用F3RM幫助機(jī)器人拾取物品工作流程。

F3RM是一個(gè)特征場(chǎng)，要想讓它發(fā)揮作用，首先要得到有關(guān)數(shù)據(jù)。

下圖中的前兩個(gè)環(huán)節(jié)就是在獲取F3RM信息。

首先，機(jī)器人通過攝像頭對(duì)場(chǎng)景進(jìn)行掃描。

掃描過程會(huì)得到多個(gè)角度的RGB圖像，同時(shí)得到圖像特征。

利用NeRF技術(shù)，對(duì)這些圖像做2D密度信息提取，并投射到三維空間。

圖像和密度特征的提取使用了如下的算法：

這樣就得到了這一場(chǎng)景的3D特征場(chǎng)，可供機(jī)器人使用。

得到特征場(chǎng)之后，機(jī)器人還需要知道對(duì)不同的物體需要如何操作才能拾齲

這一過程當(dāng)中，機(jī)器人會(huì)學(xué)習(xí)相對(duì)應(yīng)的六個(gè)自由度的手臂動(dòng)作信息。

如果遇到陌生場(chǎng)景，則會(huì)計(jì)算與已知數(shù)據(jù)的相似度。

然后通過對(duì)動(dòng)作進(jìn)行優(yōu)化，使相似度達(dá)到最大化，以實(shí)現(xiàn)未知環(huán)境的操作。

自然語言控制的過程與上一步驟十分相似。

首先會(huì)根據(jù)指令從CLIP數(shù)據(jù)集中找到特征信息，并在機(jī)器的知識(shí)庫檢索相似度最高的DEMO。

然后同樣是對(duì)預(yù)測(cè)的姿勢(shì)進(jìn)行優(yōu)化，以達(dá)到最高的相似度。

優(yōu)化完畢之后，執(zhí)行相應(yīng)的動(dòng)作就可以把物體拾起來了。

經(jīng)過這樣的過程，就得到了低樣本量的語言控制取物機(jī)器人。

團(tuán)隊(duì)簡介

研究團(tuán)隊(duì)成員全部來自MIT的CSAIL實(shí)驗(yàn)室（計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室）。

該實(shí)驗(yàn)室是MIT最大的實(shí)驗(yàn)室，2003年由CS和AI兩個(gè)實(shí)驗(yàn)室合并而成。

共同一作是華裔博士生William Shen，和華人博后楊歌，由Phillip Isola 和Leslie Kaelbling監(jiān)督指導(dǎo)。他們來自于MIT CSAIL（計(jì)算機(jī)和人工智能實(shí)驗(yàn)室）和IAIFI（人工智能和基礎(chǔ)相互作用研究院）。其中楊歌是2023年CSAIL具身智能研討會(huì) (Embodied Intelligence Seminar) 的共同籌辦人.

左：William Shen，右：楊歌

論文地址：

https://arxiv.org/abs/2308.07931

項(xiàng)目主頁：

https://f3rm.github.io

MIT 具身智能團(tuán)隊(duì)

https://ei.csail.mit.edu/people.html

具身智能研討會(huì)

https://www.youtube.com/channel/UCnXGbvgu9071i3koFooncAw

MIT推出拾物機(jī)器人「最強(qiáng)輔助」，少量訓(xùn)練樣本即可實(shí)現(xiàn)自然語言控制
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-08-20 13:57:51 瀏覽：15975次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

MIT推出拾物機(jī)器人「最強(qiáng)輔助」，少量訓(xùn)練樣本即可實(shí)現(xiàn)自然語言控制 來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-08-20 13:57:51 瀏覽：15975次