編譯 | 汪越
編輯 | 漠影
機(jī)器人前瞻11月4日報(bào)道,Meta FAIR(基礎(chǔ)AI研究)團(tuán)隊(duì)上周五發(fā)布了三項(xiàng)重要科研成果,在觸覺感知、機(jī)器人靈巧度和人機(jī)交互方面取得了顯著進(jìn)展。
Meta Sparsh是Meta首款多功能觸覺編碼器,能夠適配多種觸覺傳感器,應(yīng)用于各種任務(wù)中。該模型在超過46萬個(gè)觸覺圖像的數(shù)據(jù)集上通過自我監(jiān)督學(xué)習(xí)進(jìn)行訓(xùn)練,使AI能夠更好地理解和處理觸覺信息。
Meta Digit 360是一款模擬人類指間的觸覺傳感器,具有多模態(tài)感知能力,具備超過18種傳感功能,能夠以人類水平的精度提供詳細(xì)的觸覺數(shù)據(jù)。
為了將觸覺感知與動(dòng)作控制相結(jié)合,Meta還推出了Meta Digit Plexus。Meta Digit Plexus是一個(gè)標(biāo)準(zhǔn)化平臺(tái),用于機(jī)器人觸覺傳感器的連接和交互。該平臺(tái)提供了一種軟硬件解決方案,能夠?qū)⒉煌愋偷挠|覺傳感器集成到同一個(gè)機(jī)械手上,并通過單根電纜實(shí)現(xiàn)無縫的數(shù)據(jù)收集、控制和分析。
為了促進(jìn)這些新技術(shù)的應(yīng)用,Meta與傳感器公司GelSight Inc.和韓國機(jī)器人公司W(wǎng)onik Robotics達(dá)成了戰(zhàn)略合作。GelSight Inc.將負(fù)責(zé)生產(chǎn)和分銷Meta Digit 360,并為研究者提供早期試用機(jī)會(huì);Wonik Robotics將利用Meta Digit Plexus技術(shù)開發(fā)新一代的機(jī)器人靈巧手Allegro Hand。
此外,Meta FAIR團(tuán)隊(duì)還推出了PARTNR基準(zhǔn)測試,這是一個(gè)評估人機(jī)協(xié)作中規(guī)劃和推理能力的標(biāo)準(zhǔn)框架。
一、Meta Sparsh:基于46萬張觸覺圖像訓(xùn)練,表現(xiàn)優(yōu)于同類95%以上
基于視覺的觸覺傳感器種類多樣,形狀、照明和凝膠標(biāo)記各不相同。現(xiàn)有的方法通常依賴于針對特定任務(wù)和傳感器的手工模型。這些模型很難擴(kuò)展,因?yàn)檎鎸?shí)的觸覺數(shù)據(jù)(如力和滑動(dòng))很難標(biāo)注。
相比之下,Meta FAIR開發(fā)的Sparsh利用了自我監(jiān)督學(xué)習(xí)(SSL)的技術(shù),不需要標(biāo)簽就能在多種基于視覺的觸覺傳感器上處理多個(gè)任務(wù)。Sparsh是在超過46萬張觸覺圖像的大數(shù)據(jù)集上預(yù)先訓(xùn)練的。
為了標(biāo)準(zhǔn)化評估觸覺模型,Meta FAIR團(tuán)隊(duì)引入了一個(gè)新的基準(zhǔn)測試,包含6個(gè)以觸覺為中心的任務(wù)。這些任務(wù)包括理解觸覺特性、實(shí)現(xiàn)物理感知和靈巧規(guī)劃。測試結(jié)果顯示,Sparsh在這些任務(wù)上的表現(xiàn)平均優(yōu)于特定任務(wù)和傳感器的模型95%以上。通過提供預(yù)訓(xùn)練的觸覺傳感主干,Meta FAIR團(tuán)隊(duì)希望幫助機(jī)器人社區(qū)構(gòu)建和擴(kuò)展這些模型,推動(dòng)機(jī)器人和AI等領(lǐng)域的創(chuàng)新應(yīng)用。
▲ 使用TacBench評估Sparsh,這是一組6個(gè)以觸覺為中心的任務(wù),用于在不同的觸覺傳感器和模型之間進(jìn)行標(biāo)準(zhǔn)化評估。(圖源:Meta)
二、Digit 360:模擬人類指尖,配備超18種傳感器
Meta Digit 360是一款形狀類似人類手指的觸覺傳感器。它能夠以人類水平的精度將觸摸數(shù)字化,提供豐富而詳細(xì)的觸覺數(shù)據(jù)。Digit 360配備了超過18種傳感功能,研究人員可以結(jié)合其各種傳感技術(shù),或單獨(dú)分析每個(gè)信號,深入了解每種模式。
Meta FAIR團(tuán)隊(duì)希望未來研究人員能夠使用Digit 360開發(fā)出更好的AI,這些AI能夠更好地理解和建模物理世界,包括物體的物理性質(zhì)、人與物體的交互以及接觸物理學(xué)。Digit 360的功能超越了Meta上一代觸覺傳感器,能夠檢測到空間細(xì)節(jié)的微小變化,甚至可以捕捉到小至1毫牛頓(mN)的力。
▲ 人類指尖多模態(tài)觸覺傳感器Digit 360(右)與Meta上一代觸覺傳感器Digit(左)并排展示(圖源:Meta)
為了實(shí)現(xiàn)這一目標(biāo),Meta FAIR團(tuán)隊(duì)開發(fā)了一種專門用于觸覺感知的光學(xué)系統(tǒng)。該系統(tǒng)具有由800多萬個(gè)觸覺元素(taxels)組成的廣闊視野,能夠捕捉指尖表面的全向變形。
Meta FAIR團(tuán)隊(duì)還為Digit 360配備了多種傳感模式。每次Digit 360與物體接觸時(shí),都會(huì)產(chǎn)生獨(dú)特的信號。這些信號由物體表面的機(jī)械特性(如硬度)、幾何特性(如形狀)和化學(xué)特性(如材質(zhì))產(chǎn)生。Digit 360可以感知振動(dòng)、溫度變化,甚至氣味。通過利用這些多樣的信號,Digit 360將幫助科學(xué)家更詳細(xì)地了解世界,推動(dòng)AI的研究。
借助設(shè)備上的AI加速器,Digit 360可以快速處理信息,對網(wǎng)球的彎曲或針的戳刺等刺激做出反應(yīng)。它就像人類和動(dòng)物的反射弧一樣,可以充當(dāng)機(jī)器人的周圍神經(jīng)系統(tǒng)。
除了提高機(jī)器人的靈巧性外,Digit 360還在醫(yī)學(xué)和假肢、虛擬現(xiàn)實(shí)和遠(yuǎn)程呈現(xiàn)等領(lǐng)域具有重要的潛在應(yīng)用。這種新的觸覺專用光學(xué)鏡頭可以看到人工指尖周圍的印記,捕捉到接觸物體表面的細(xì)微細(xì)節(jié)。在虛擬世界中,Digit 360可以更好地實(shí)現(xiàn)與環(huán)境的虛擬交互,使對象的屬性不僅限于視覺外觀,還包括觸覺感受。
Meta FAIR團(tuán)隊(duì)將公開發(fā)布所有代碼和設(shè)計(jì),以便機(jī)器人社區(qū)在此基礎(chǔ)上進(jìn)行迭代和創(chuàng)新。
三、Digit Plexus:多種傳感器集成,打造機(jī)器人靈巧手
人手非常擅長向大腦傳遞從指尖到手掌的觸覺信息。這樣,手部的肌肉可以根據(jù)大腦的指令做出反應(yīng),比如如何在鍵盤上打字或如何處理過熱的物體。實(shí)現(xiàn)具身AI需要機(jī)器人手上的觸覺傳感器和電機(jī)之間也有類似的協(xié)調(diào)。
Meta FAIR團(tuán)隊(duì)提出了一個(gè)標(biāo)準(zhǔn)化平臺(tái)Meta Digit Plexus。該平臺(tái)提供了一種軟硬件解決方案,可以將觸覺傳感器集成到一只機(jī)械手上。Digit Plexus將指尖、手指和手掌上的基于視覺和基于皮膚的觸覺傳感器(如Digit、Digit 360和觸感皮膚ReSkin)連接到控制板中,將所有數(shù)據(jù)編碼到主機(jī)。該平臺(tái)的軟件和硬件組件允許通過單根電纜實(shí)現(xiàn)無縫數(shù)據(jù)收集、控制和分析。
▲ Digit Plexus平臺(tái)將觸覺傳感器集成到一只機(jī)械手上(圖源:Meta)
四、Digit 360明年推出,合作產(chǎn)品機(jī)器人靈巧手明年上市
為了促進(jìn)這些新技術(shù)的應(yīng)用,Meta與傳感器公司GelSight Inc.和韓國機(jī)器人公司W(wǎng)onik Robotics達(dá)成了戰(zhàn)略合作。
GelSight Inc.將負(fù)責(zé)生產(chǎn)和分銷Meta Digit 360,預(yù)計(jì)明年廣泛推出。該公司還將通過提案征集活動(dòng),為研究者提供早期試用的機(jī)會(huì)。
Meta FAIR團(tuán)隊(duì)還與韓國機(jī)器人公司W(wǎng)onik Robotics合作開發(fā)Allegro Hand,這是一款帶有觸覺傳感器的完全集成的機(jī)械手。新一代Allegro Hand基于Meta Digit Plexus平臺(tái)構(gòu)建,集成了多種觸覺傳感器,包括Digit 360和ReSkin。這些觸覺傳感器將提供豐富的觸覺數(shù)據(jù),幫助機(jī)器人更好地感知和操作物體。Wonik Robotics將生產(chǎn)和分銷Allegro Hand,該產(chǎn)品將于明年上市。
▲Allegro Hand機(jī)器人靈巧手(圖源:Allegro Hand)
五、PARTNR:同類產(chǎn)品中最大,助力人機(jī)協(xié)作訓(xùn)練
隨著智能機(jī)器人和能夠執(zhí)行日常家務(wù)的高級AI模型逐漸成為現(xiàn)實(shí),考慮它們與人類的互動(dòng)變得尤為重要。Meta FAIR團(tuán)隊(duì)發(fā)布了humaN-Robot協(xié)作(PARTNR),這是一個(gè)評估家庭活動(dòng)中人機(jī)協(xié)作的規(guī)劃和推理任務(wù)基準(zhǔn)。
在實(shí)際物理環(huán)境中,機(jī)器人與人類伙伴一起訓(xùn)練和測試社會(huì)化代理既難以規(guī);挚赡軒戆踩珕栴}。Habitat 3.0是一個(gè)高速、逼真的模擬器,支持機(jī)器人和人形機(jī)器人,并允許在類似家庭的環(huán)境中進(jìn)行人機(jī)協(xié)作。Meta FAIR團(tuán)隊(duì)通過在Habitat 3.0的基礎(chǔ)上開發(fā)PARTNR基準(zhǔn)測試來解決這個(gè)問題,未來的目標(biāo)是在物理世界場景中進(jìn)行人機(jī)協(xié)作測試。
PARTNR是同類產(chǎn)品中最大的基準(zhǔn)測試,包括10萬個(gè)自然語言任務(wù),覆蓋60個(gè)房屋和5800多個(gè)獨(dú)特對象。該基準(zhǔn)測試旨在評估大型語言和視覺模型(LLMs/VLM)在與人類協(xié)作時(shí)的性能表現(xiàn)。
PARTNR帶有幾個(gè)最先進(jìn)的LLM基線,這些基線模型用于對比新模型的性能。此外,PARTNR支持在規(guī)劃、感知和技能執(zhí)行等多個(gè)方面進(jìn)行系統(tǒng)分析。Meta FAIR團(tuán)隊(duì)的評估結(jié)果顯示,即使是最先進(jìn)的LLM規(guī)劃者,在協(xié)調(diào)、任務(wù)跟蹤和故障恢復(fù)方面仍面臨挑戰(zhàn)。
將AI模型從簡單的“執(zhí)行者”轉(zhuǎn)變?yōu)槭炀毜摹昂献骰锇椤毙枰獣r(shí)間。通過提供標(biāo)準(zhǔn)化的基準(zhǔn)和數(shù)據(jù)集,PARTNR能夠幫助研究人員開發(fā)和測試更先進(jìn)的AI模型。PARTNR能夠使研究人員評估和改進(jìn)機(jī)器人的規(guī)劃和推理能力,從而使機(jī)器人不僅能夠獨(dú)立運(yùn)行,還能在人類周圍高效、可靠地運(yùn)行,并適應(yīng)每個(gè)人的需求和喜好。
結(jié)語:觸覺感知與機(jī)器人技術(shù)的未來
Meta FAIR團(tuán)隊(duì)在觸覺感知和機(jī)器人技術(shù)領(lǐng)域取得了新進(jìn)展,為其具身AI的研究開辟了新的道路。
通過Meta Sparsh,Meta開發(fā)了首款通用的觸覺編碼器,增強(qiáng)了觸覺信息的處理能力;Meta Digit 360模擬了人類指尖的多模態(tài)感知能力,提供了高精度的觸覺數(shù)據(jù);Meta Digit Plexus平臺(tái)實(shí)現(xiàn)了多種觸覺傳感器的無縫集成,提升了機(jī)器人手的靈巧度和感知能力。
這些技術(shù)的突破在多個(gè)產(chǎn)業(yè)領(lǐng)域展現(xiàn)出巨大的應(yīng)用前景。在醫(yī)療領(lǐng)域,高精度的觸覺傳感器可以幫助醫(yī)生進(jìn)行遠(yuǎn)程手術(shù),提高手術(shù)的精確性和安全性;在制造業(yè),具備觸覺感知能力的機(jī)器人可以更好地處理精細(xì)和復(fù)雜的任務(wù),提高生產(chǎn)效率和質(zhì)量;在虛擬現(xiàn)實(shí)和遠(yuǎn)程呈現(xiàn)領(lǐng)域,觸覺傳感器可以提供更真實(shí)的沉浸式體驗(yàn),增強(qiáng)用戶的互動(dòng)感受。
通過與GelSight Inc.和Wonik Robotics的合作,Meta將這些技術(shù)推向市場,進(jìn)一步推動(dòng)了機(jī)器人手在實(shí)際應(yīng)用中的落地和發(fā)展。
來源:Meta