AIxiv專(zhuān)欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年,機(jī)器之心AIxiv專(zhuān)欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文作者來(lái)自于中國(guó)人民大學(xué),深圳朝聞道科技有限公司以及中國(guó)電信人工智能研究院。其中第一作者馮若軒為中國(guó)人民大學(xué)二年級(jí)碩士生,主要研究方向?yàn)槎嗄B(tài)具身智能,師從胡迪教授。
引言:在機(jī)器人操縱物體的過(guò)程中,不同傳感器數(shù)據(jù)攜帶的噪聲會(huì)對(duì)預(yù)測(cè)控制造成怎樣的影響?中國(guó)人民大學(xué)高瓴人工智能學(xué)院 GeWu 實(shí)驗(yàn)室、朝聞道機(jī)器人和 TeleAI 最近的合作研究揭示并指出了 “模態(tài)時(shí)變性”(Modality Temporality)現(xiàn)象,通過(guò)捕捉并刻畫(huà)各個(gè)模態(tài)質(zhì)量隨物體操縱過(guò)程的變化,提升不同信息在具身多模態(tài)交互的感知質(zhì)量,可顯著改善精細(xì)物體操縱的表現(xiàn)。論文已被 CoRL2024 接收并選為 Oral Presentation。
視頻鏈接:https://mp.weixin.qq.com/s/STlxll_LWO-iRFuVbP_s6A
人類(lèi)在與環(huán)境互動(dòng)時(shí)展現(xiàn)出了令人驚嘆的感官協(xié)調(diào)能力。以一位廚師為例,他不僅能夠憑借直覺(jué)掌握食材添加的最佳時(shí)機(jī),還能通過(guò)觀察食物的顏色變化、傾聽(tīng)烹飪過(guò)程中的聲音以及嗅聞食物的香氣來(lái)精準(zhǔn)調(diào)控火候,從而無(wú)縫地完成烹飪過(guò)程中的每一個(gè)復(fù)雜階段。這種能力,即在執(zhí)行復(fù)雜且長(zhǎng)時(shí)間的操作任務(wù)時(shí),靈活運(yùn)用不同的感官,是建立在對(duì)任務(wù)各個(gè)階段全面而深刻理解的基礎(chǔ)之上的。
然而,對(duì)于機(jī)器人而言,如何協(xié)調(diào)這些感官模態(tài)以更高效地完成指定的操作任務(wù),以及如何充分利用多模態(tài)感知能力來(lái)實(shí)現(xiàn)可泛化的任務(wù)執(zhí)行,仍是當(dāng)前尚未解決的問(wèn)題。我們不僅需要使模型理解任務(wù)階段本身,還需要從任務(wù)階段的新角度重新審視多傳感器融合。在一個(gè)復(fù)雜的操縱任務(wù)中完成將任務(wù)劃分為不同階段的一系列子目標(biāo)的過(guò)程中,各個(gè)模態(tài)的數(shù)據(jù)質(zhì)量很可能隨任務(wù)階段而不斷變化。因此,階段轉(zhuǎn)換很可能導(dǎo)致模態(tài)重要性的變化。除此之外,每個(gè)階段內(nèi)部也可能存在相對(duì)較小的模態(tài)質(zhì)量變化。我們將這種現(xiàn)象總結(jié)為多傳感器模仿學(xué)習(xí)的一大挑戰(zhàn):模態(tài)時(shí)變性(Modality Temporality)。然而,過(guò)去的方法很少關(guān)注這一點(diǎn),忽視了階段理解在多傳感器融合中的重要性。
本文借鑒人類(lèi)的基于階段理解的多感官感知過(guò)程,提出了一個(gè)由階段引導(dǎo)的動(dòng)態(tài)多傳感器融合框架 MS-Bot,旨在基于由粗到細(xì)粒度的任務(wù)階段理解動(dòng)態(tài)地關(guān)注具有更高質(zhì)量的模態(tài)數(shù)據(jù),從而更好地應(yīng)對(duì)模態(tài)時(shí)變性的挑戰(zhàn),完成需要多種傳感器的精細(xì)操縱任務(wù)。
論文鏈接:https://arxiv.org/abs/2408.01366v2
項(xiàng)目主頁(yè):https://gewu-lab.github.io/MS-Bot/
模態(tài)時(shí)變性
在復(fù)雜的操作任務(wù)中,各傳感器數(shù)據(jù)的質(zhì)量可能會(huì)隨著階段的變化而變化。在不同的任務(wù)階段中,一個(gè)特定模態(tài)的數(shù)據(jù)可能對(duì)動(dòng)作的預(yù)測(cè)具有重大貢獻(xiàn),也可能作為主要模態(tài)的補(bǔ)充,甚至可能幾乎不提供任何有用的信息。
圖 1 傾倒任務(wù)的模態(tài)時(shí)變性
以上圖中的傾倒任務(wù)為例,在初始的對(duì)齊階段中,視覺(jué)模態(tài)對(duì)動(dòng)作的預(yù)測(cè)起決定性作用。進(jìn)入開(kāi)始傾倒階段后,模型需要開(kāi)始利用音頻和觸覺(jué)的反饋來(lái)確定合適的傾倒角度(倒出速度)。在保持靜止階段,模型主要依賴(lài)音頻和觸覺(jué)信息來(lái)判斷已經(jīng)倒出的小鋼珠質(zhì)量是否已經(jīng)接近目標(biāo)值,而視覺(jué)幾乎不提供有用的信息。最后,在結(jié)束傾倒階段,模型需要利用觸覺(jué)模態(tài)的信息判斷傾倒任務(wù)是否已經(jīng)完成,與開(kāi)始傾倒階段進(jìn)行區(qū)分。除階段間的模態(tài)質(zhì)量變化,各個(gè)階段內(nèi)部也可能存在較小的質(zhì)量變化,例如音頻模態(tài)在開(kāi)始傾倒和結(jié)束傾倒的前期和后期具有不同的重要性。我們將這兩種變化區(qū)分為粗粒度和細(xì)粒度的模態(tài)質(zhì)量變化,并將這種現(xiàn)象總結(jié)為多傳感器模仿學(xué)習(xí)中的一個(gè)重要挑戰(zhàn):模態(tài)時(shí)變性。
方法:階段引導(dǎo)的動(dòng)態(tài)多傳感器融合
為了應(yīng)對(duì)模態(tài)時(shí)變性的挑戰(zhàn),我們認(rèn)為在機(jī)器人操縱任務(wù)中,多傳感器數(shù)據(jù)的融合應(yīng)該建立在充分的任務(wù)階段理解之上。因此,我們提出了 MS-Bot 框架,這是一個(gè)由階段引導(dǎo)的動(dòng)態(tài)多傳感器融合方法,旨在基于顯式的由粗到細(xì)的任務(wù)階段理解動(dòng)態(tài)地關(guān)注具有更高質(zhì)量的模態(tài)數(shù)據(jù)。為了將顯式的階段理解整合到模仿學(xué)習(xí)過(guò)程中,我們首先為每個(gè)數(shù)據(jù)集中的樣本添加了一個(gè)階段標(biāo)簽,并將動(dòng)作標(biāo)簽和階段標(biāo)簽共同作為監(jiān)督信號(hào)訓(xùn)練包含四個(gè)模塊的 MS-Bot 框架(如圖 2 所示):
特征提取模塊:該模塊包含一系列單模態(tài)編碼器,每個(gè)編碼器都接受一段簡(jiǎn)短的單模態(tài)觀測(cè)歷史作為輸入,并將它們編碼為特征。
狀態(tài)編碼器:該模塊旨在將各模態(tài)特征和動(dòng)作歷史序列編碼為表示當(dāng)前任務(wù)狀態(tài)的 token。動(dòng)作歷史與人類(lèi)記憶相似,可以幫助指示當(dāng)前所處的任務(wù)狀態(tài)。我們將動(dòng)作歷史輸入到一個(gè) LSTM 中,并通過(guò)一個(gè) MLP 將它們與模態(tài)特征編碼為狀態(tài) token。
階段理解模塊:該模塊旨在通過(guò)將階段信息注入狀態(tài) token 中,從而實(shí)現(xiàn)顯式的由粗到細(xì)粒度的任務(wù)階段理解。我們用一組可學(xué)習(xí)的階段 token 來(lái)表示每個(gè)任務(wù)階段,并通過(guò)一個(gè)門(mén)控網(wǎng)絡(luò)(MLP)來(lái)預(yù)測(cè)當(dāng)前所處的階段,利用 Softmax 歸一化后的階段預(yù)測(cè)分?jǐn)?shù)對(duì)階段 token 進(jìn)行加權(quán)融合,得到當(dāng)前階段 token。門(mén)控網(wǎng)絡(luò)的訓(xùn)練以階段標(biāo)簽作為監(jiān)督信號(hào),對(duì)非當(dāng)前階段的預(yù)測(cè)分?jǐn)?shù)進(jìn)行懲罰。我們還放松了對(duì)階段邊界附近的樣本上的相鄰階段分?jǐn)?shù)懲罰,從而實(shí)現(xiàn)軟約束效果,得到更平滑的階段預(yù)測(cè)。新的注入階段信息后的狀態(tài) token 由原狀態(tài) token 和階段 token 加權(quán)融合得到,可以表示任務(wù)階段內(nèi)的細(xì)粒度狀態(tài),從而對(duì)多傳感器動(dòng)態(tài)融合進(jìn)行引導(dǎo)。
動(dòng)態(tài)融合模塊:該模塊根據(jù)當(dāng)前任務(wù)階段的細(xì)粒度狀態(tài)動(dòng)態(tài)地選擇關(guān)注的模態(tài)特征。我們以注入了階段信息的狀態(tài) token 作為 Query,將模態(tài)特征作為 Key 和 Value 進(jìn)行交叉注意力(Cross Attention)。該方法根據(jù)當(dāng)前任務(wù)階段的需求,將各模態(tài)的特征動(dòng)態(tài)地整合到一個(gè)融合 token 中。最后,該融合 token 輸入到策略網(wǎng)絡(luò)(MLP)中預(yù)測(cè)下一個(gè)動(dòng)作。我們還引入了隨機(jī)注意力模糊機(jī)制,以一定概率將各單模態(tài)特征 token 上的注意力分?jǐn)?shù)替換為相同的平均值,防止模型簡(jiǎn)單地記憶與注意力分?jǐn)?shù)模式對(duì)應(yīng)的動(dòng)作。
圖 2 由階段引導(dǎo)的動(dòng)態(tài)多傳感器融合框架 MS-Bot
實(shí)驗(yàn)結(jié)果
為了驗(yàn)證基于由粗到細(xì)的任務(wù)階段理解的 MS-Bot 的優(yōu)越性,我們?cè)趦蓚(gè)十分有挑戰(zhàn)性的精細(xì)機(jī)器人操縱任務(wù):傾倒和帶有鍵槽的樁插入中進(jìn)行了詳細(xì)的對(duì)比。
圖 3 傾倒與帶有鍵槽的樁插入任務(wù)設(shè)置
如表 1 所示,MS-Bot 在兩個(gè)任務(wù)的所有設(shè)置上均優(yōu)于所有基線方法。MS-Bot 在兩個(gè)任務(wù)中的性能超過(guò)了使用自注意力(Self Attention)進(jìn)行動(dòng)態(tài)融合的 MULSA 基線,這表明 MS-Bot 通過(guò)在融合過(guò)程中基于對(duì)當(dāng)前階段的細(xì)粒度狀態(tài)的理解更好地分配模態(tài)權(quán)重,而沒(méi)有顯示階段理解的 MULSA 基線無(wú)法充分利用動(dòng)態(tài)融合的優(yōu)勢(shì)。
表 1 傾倒和帶有鍵槽的樁插入任務(wù)上的性能比較
我們還對(duì)任務(wù)完成中各個(gè)模態(tài)的注意力分?jǐn)?shù)和各階段的預(yù)測(cè)分?jǐn)?shù)進(jìn)行了可視化。在每個(gè)時(shí)間步,我們分別對(duì)每種模態(tài)的所有特征 token 的注意力分?jǐn)?shù)進(jìn)行平均,而階段預(yù)測(cè)分?jǐn)?shù)是 Softmax 歸一化后的門(mén)控網(wǎng)絡(luò)輸出。如圖 4 所示,MS-Bot 準(zhǔn)確地預(yù)測(cè)了任務(wù)階段的變化,并且得益于模型中由粗到細(xì)粒度的任務(wù)階段理解,三個(gè)模態(tài)的注意力分?jǐn)?shù)保持相對(duì)穩(wěn)定,表現(xiàn)出明顯的階段間變化和較小的階段內(nèi)調(diào)整。
圖 4 各模態(tài)注意力分?jǐn)?shù)和階段預(yù)測(cè)分?jǐn)?shù)可視化
為了驗(yàn)證 MS-Bot 對(duì)干擾物的泛化能力,我們?cè)趦蓚(gè)任務(wù)中都加入了視覺(jué)干擾物。在傾倒任務(wù)中,我們將量筒的顏色從白色更改為紅色。對(duì)于樁插入任務(wù),我們將底座顏色從黑色更改為綠色(“Color”),并在底座周?chē)胖秒s物(“Mess”)。如表 2 所示,MS-Bot 在各種有干擾物的場(chǎng)景中始終保持性能優(yōu)勢(shì),這是因?yàn)?MS-Bot 根據(jù)對(duì)當(dāng)前任務(wù)階段的理解動(dòng)態(tài)地分配模態(tài)權(quán)重,從而減少視覺(jué)噪聲對(duì)融合特征的影響,而基線方法缺乏理解任務(wù)階段并動(dòng)態(tài)調(diào)整模態(tài)權(quán)重的能力。
表 2 含視覺(jué)干擾物場(chǎng)景中的性能比較
總述
本文從任務(wù)階段的視角重新審視了機(jī)器人操縱任務(wù)中的多傳感器融合,引入模態(tài)時(shí)變性的挑戰(zhàn),并將由子目標(biāo)劃分的任務(wù)階段融入到模仿學(xué)習(xí)過(guò)程中。該研究提出了 MS-Bot,一種由階段引導(dǎo)的多傳感器融合方法,基于由粗到細(xì)粒度的階段理解動(dòng)態(tài)地關(guān)注質(zhì)量更高的模態(tài)。我們相信由顯式階段理解引導(dǎo)的多傳感器融合會(huì)成為一種有效的多傳感器機(jī)器人感知范式,并借此希望能夠激勵(lì)更多的多傳感器機(jī)器人操縱的相關(guān)研究。