劃重點(diǎn)
01英偉達(dá)團(tuán)隊發(fā)布了1.5M參數(shù)的神經(jīng)網(wǎng)絡(luò)HOVER,可用于控制人形機(jī)器人執(zhí)行多種機(jī)體運(yùn)動。
02HOVER的設(shè)計靈感來自人類的潛意識,通過學(xué)習(xí)協(xié)調(diào)電機(jī)來實現(xiàn)運(yùn)動和操控。
03該團(tuán)隊定義了一個統(tǒng)一的命令空間,包括上身和下身控制,以及三種不同的控制模式。
04實驗結(jié)果顯示,HOVER在12個指標(biāo)中的11個上超越了專家策略,展示了優(yōu)越的泛化能力。
05此外,HOVER在真實世界場景中的魯棒性也得到了驗證,能夠平滑地在不同模式之間追蹤動作。
以上內(nèi)容由大模型生成,僅供參考
機(jī)器之心報道
編輯:Panda、佳琪
當(dāng)機(jī)器人也有潛意識。
大模型固然性能強(qiáng)大,但限制也頗多。如果想在端側(cè)塞進(jìn) 405B 這種級別的大模型,那真是小廟供不起大菩薩。近段時間,小模型正在逐漸贏得人們更多關(guān)注。這一趨勢不僅出現(xiàn)在語言模型領(lǐng)域,也出現(xiàn)在了機(jī)器人領(lǐng)域。
昨天晚上,朱玉可和 Jim Fan 團(tuán)隊(英偉達(dá) GEAR 團(tuán)隊)新鮮發(fā)布了他們的最新研究成果 HOVER。這是一個僅有 1.5M 參數(shù)的神經(jīng)網(wǎng)絡(luò),但它足以控制人形機(jī)器人執(zhí)行多種機(jī)體運(yùn)動。
先來看看效果,將 HOVER 在不同模式下控制的機(jī)器人放到一起組成陣列,其中每一臺機(jī)器人都有自己的控制模式。還挺壯觀的!這也佐證了 HOVER 的通用性。你能看出它們的不同之處嗎?
無論是 H2O 模式、OmniH2O Mode 模式、還是 ExBody 模式 、HumanPlus 模式,左手和右手的慢動作都直接被 HOVER 大一統(tǒng)了。
實際上,HOVER 就是一個通用型的人形機(jī)器人控制器。
HOVER 一作 Tairan He(何泰然)的推文,他是 CMU 機(jī)器人研究所的二年級博士生,還是個有 38 萬多粉絲的 B 站 up 主(WhynotTV)
據(jù)介紹,HOVER 的設(shè)計靈感來自人類的潛意識。人類在行走、保持平衡和調(diào)整四肢位置時都需要大量潛意識的計算,HOVER 將這種「潛意識」能力融合進(jìn)了機(jī)器人。這個單一模型可以學(xué)習(xí)協(xié)調(diào)人形機(jī)器人的電機(jī),從而實現(xiàn)運(yùn)動和操控。
Jim Fan 的推文
論文標(biāo)題:HOVER: Versatile Neural Whole-Body Controller for Humanoid Robots
論文地址:https://arxiv.org/pdf/2410.21229
項目地址:https://hover-versatile-humanoid.github.io/
HOVER 的訓(xùn)練使用了 NVIDIA Isaac,這是一個由 GPU 驅(qū)動的模擬套件,可將物理加速到實時的 1 萬倍。按 Jim Fan 的比喻就是說,只需在一張 GPU 卡上運(yùn)算大概 50 分鐘,機(jī)器人就像是在虛擬「道場」中經(jīng)歷了一整年的密集訓(xùn)練。
然后,無需微調(diào),就可以將這個神經(jīng)網(wǎng)絡(luò)以零樣本方式遷移到真實世界。
HOVER 可以接收多種高級運(yùn)動指令,即所謂的「控制模式(control mode)」,比如:
頭部和手部姿勢,可通過 Apple Vision Pro 等增強(qiáng)現(xiàn)實設(shè)備捕捉;
全身姿勢,可通過 MoCap 或 RGB 相機(jī);
全身關(guān)節(jié)角度:外骨骼;
根速度命令:操縱桿。
這項研究的貢獻(xiàn)包括:
一個統(tǒng)一的界面,可讓控制者使用任何方便的輸入設(shè)備來控制機(jī)器人;
一種更簡單的全身遠(yuǎn)程操作數(shù)據(jù)收集方法;
一個上游的視覺 - 語言 - 動作模型,可用于提供運(yùn)動指令,之后 HOVER 會將其轉(zhuǎn)換為高頻的低級運(yùn)動信號。
用戶人形機(jī)器人控制的命令空間設(shè)計
對于腿部運(yùn)動,根速度或位置跟蹤是常用的命令空間。然而,僅僅關(guān)注根跟蹤會限制人形機(jī)器人的全部能力,尤其是對于涉及全身運(yùn)動的任務(wù)。
該團(tuán)隊研究了之前的工作,發(fā)現(xiàn)它們提出了一些各不一樣的控制模式,并且每種模式通常都是針對某些特定的任務(wù),因此缺乏通用人形機(jī)器人控制所需的靈活性。
而該團(tuán)隊的目標(biāo)是設(shè)計一個全面的控制框架,以適應(yīng)多種多樣的場景和各種不同的人形機(jī)器人任務(wù)。為此,在構(gòu)建命令空間時,必須滿足以下關(guān)鍵標(biāo)準(zhǔn):
通用性:命令空間應(yīng)包含大多數(shù)現(xiàn)有配置,允許通用控制器替換針對特定任務(wù)的控制器,同時還不會犧牲性能或多功能性。并且該空間應(yīng)具有足夠的表現(xiàn)力,以便與現(xiàn)實世界的控制設(shè)備交互,包括操縱桿、鍵盤、動作捕捉系統(tǒng)、外骨骼和虛擬現(xiàn)實 (VR) 頭設(shè),如圖 1 所示。
原子性:命令空間應(yīng)由獨(dú)立的維度組成,從而能夠任意組合控制選項以支持各種模式。
基于這些標(biāo)準(zhǔn),該團(tuán)隊定義了一個用于人形機(jī)器人全身控制的統(tǒng)一命令空間。該空間由兩個主要控制區(qū)域組成 上身和下身控制 并包含三種不同的控制模式:
運(yùn)動位置跟蹤:機(jī)器人上關(guān)鍵剛體點(diǎn)的目標(biāo) 3D 位置;
局部關(guān)節(jié)角度跟蹤:每個機(jī)器人電機(jī)的目標(biāo)關(guān)節(jié)角度;
根跟蹤:目標(biāo)根速度、高度和方向,由滾動、俯仰和偏航角指定。
在如圖 1 所示的框架中,該團(tuán)隊引入了一個 one-hot 掩碼向量來指定激活命令空間的哪些組件,以便后面跟蹤。
如表 1 所示,可以將其它基于學(xué)習(xí)的人形全身控制的最新研究看作是新提出的統(tǒng)一命令空間的子集,其中每項研究都代表特定的配置。
運(yùn)動重定向
近期有研究表明,如果學(xué)習(xí)的運(yùn)動數(shù)據(jù)集很大,學(xué)習(xí)到的人形機(jī)器人全身運(yùn)動控制策略就會更加穩(wěn)健。
為了獲得大型數(shù)據(jù)集,可將人類運(yùn)動數(shù)據(jù)集重定向成人形機(jī)器人運(yùn)動數(shù)據(jù)集,這個過程分為三步:
1. 使用正向運(yùn)動學(xué)(forward kinematics)計算人形機(jī)器人的關(guān)鍵點(diǎn)位置,將其關(guān)節(jié)配置映射成工作空間坐標(biāo)。
2. 擬合 SMPL 模型以匹配人形機(jī)器人的運(yùn)動學(xué),做法是優(yōu)化 SMPL 參數(shù)以與正向運(yùn)動學(xué)計算得到的關(guān)鍵點(diǎn)對齊。
3. 使用梯度下降來匹配已經(jīng)擬合的 SMPL 模型和人形機(jī)器人之間的對應(yīng)關(guān)鍵點(diǎn),重定向 AMASS 數(shù)據(jù)集。
例如,在某些情況下,上半身可能只跟蹤手的運(yùn)動位置,而下半身只跟蹤軀干的關(guān)節(jié)角度。模式和稀疏二元掩碼的每一比特都來自伯努利分布 (0.5)。模式和稀疏掩碼在事件情節(jié)(episode)開始時是隨機(jī)的,并保持固定,直到該情節(jié)結(jié)束。
實驗
研究團(tuán)隊針對以下問題,在 IsaacGym 和 Unitree H1 機(jī)器人上開展了廣泛的實驗:
Q1: HOVER 這個通用策略能比那些只針對特定指令訓(xùn)練的策略表現(xiàn)得更好嗎?
Q2: HOVER 能比其他訓(xùn)練方法更有效地訓(xùn)練多模態(tài)仿人機(jī)器人控制器嗎?
Q3: HOVER 能否在真實世界的硬件上實現(xiàn)多功能多模態(tài)控制?
與專家策略的對比
該團(tuán)隊在不同控制模式下比較了 HOVER 和相應(yīng)專家策略的表現(xiàn)。以 ExBody 模式為例,研究團(tuán)隊加入了固定的掩碼,讓 HOVER 和整個數(shù)據(jù)集 Q 中的 ExBody 模式可比。
如表 III 和圖 3 所示,HOVER 展現(xiàn)出了優(yōu)越的泛化能力。在每一種指令模式中,HOVER 在至少 7 個指標(biāo)上超越了之前的專家控制器(表 III 中用粗體值突出顯示)。同時,這也意味著即使只關(guān)注單一控制模式,從專家策略中提取的策略也比通過強(qiáng)化學(xué)習(xí)訓(xùn)練出的專家更強(qiáng)。
與通用訓(xùn)練方法的對比
研究團(tuán)隊在八種不同的模式下測量了 HOVER 在跟蹤局部和全身位置方面的表現(xiàn)。他們用最大誤差(Emax)減去當(dāng)前誤差(E (.)),再除以最大誤差(Emax)和最小誤差(Emin)之間的差值來計算誤差。雷達(dá)網(wǎng)圖更大,代表模型的跟蹤性能更好。實驗結(jié)果顯示,HOVER 在所有 32 個指標(biāo)和模式中的誤差都很低。
在真實世界中的測評
為了測試 HOVER 策略在真實世界中的表現(xiàn),研究團(tuán)隊設(shè)計了定量的跟蹤實驗和定性的多模態(tài)控制實驗。
站立時的動作評估
該團(tuán)隊通過跟蹤 20 種不同的站立動作來評估 HOVER 的性能,表 V 中的定量指標(biāo)顯示,HOVER 在 12 個指標(biāo)中的 11 個上超越了專家策略。HOVER 成功跟蹤了關(guān)節(jié)俯仰運(yùn)動與全身運(yùn)動,特別是高度動態(tài)的跑步動作也能搞定。
機(jī)器人的關(guān)節(jié)可以在 - 0.5 到 0.5 的俯仰角度之間變化
多模態(tài)評估
該團(tuán)隊還模擬了真實的生活場景,測試了在突然切換命令時 HOVER 對運(yùn)動的泛化能力。HOVER 成功地讓機(jī)器人從 ExBody 模式切換到 H2O 模式,同時在向前行走。
從 ExBody 切換到 H2O 模式
從 HumanPlus 模式切換到 OmniH2O 模式,機(jī)器人也能同時執(zhí)行轉(zhuǎn)彎和向后行走。
從 HumanPlus 切換到 OmniH2O 模式
此外,他們還使用 Vision Pro 隨機(jī)掩蓋頭部和手部的位置,進(jìn)行了遠(yuǎn)程操作演示,可以看出,機(jī)器人的動作非常地絲滑流暢。
有時,它也會出錯,比如只追蹤了測試者的頭部位置,忽略了揮手的動作。
結(jié)果表明,HOVER 能夠平滑地在不同模式之間追蹤動作,展示了其在真實世界場景中的魯棒性。