當(dāng)前位置：人工智能實驗室> 機(jī)器人 > 讓機(jī)器人擁有人一樣「潛意識」，英偉達(dá)1.5M小模型就能實現(xiàn)通用控制了

讓機(jī)器人擁有人一樣「潛意識」，英偉達(dá)1.5M小模型就能實現(xiàn)通用控制了
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-31 18:45:50 瀏覽：90次

導(dǎo)讀：劃重點(diǎn)01英偉達(dá)團(tuán)隊發(fā)布了1.5M參數(shù)的神經(jīng)網(wǎng)絡(luò)HOVER，可用于控制人形機(jī)器人執(zhí)行多種機(jī)體運(yùn)動。02HOVER的設(shè)計靈感來自人類的潛意識，通過學(xué)習(xí)協(xié)調(diào)電機(jī)來實現(xiàn)運(yùn)動和操控。03該團(tuán)隊定義了一個統(tǒng)一的命令空間，包括上身和下身控制，以及三種不同的控制模式。04實驗結(jié)果顯示，HOVER在12個指標(biāo)中的11個上超越了專家策略，展示了優(yōu)越的泛化能力。05此外，HOVER在真實世界場景中的魯棒性 ......

劃重點(diǎn)

01英偉達(dá)團(tuán)隊發(fā)布了1.5M參數(shù)的神經(jīng)網(wǎng)絡(luò)HOVER，可用于控制人形機(jī)器人執(zhí)行多種機(jī)體運(yùn)動。

02HOVER的設(shè)計靈感來自人類的潛意識，通過學(xué)習(xí)協(xié)調(diào)電機(jī)來實現(xiàn)運(yùn)動和操控。

03該團(tuán)隊定義了一個統(tǒng)一的命令空間，包括上身和下身控制，以及三種不同的控制模式。

04實驗結(jié)果顯示，HOVER在12個指標(biāo)中的11個上超越了專家策略，展示了優(yōu)越的泛化能力。

05此外，HOVER在真實世界場景中的魯棒性也得到了驗證，能夠平滑地在不同模式之間追蹤動作。

以上內(nèi)容由大模型生成，僅供參考

機(jī)器之心報道

編輯：Panda、佳琪

當(dāng)機(jī)器人也有潛意識。

大模型固然性能強(qiáng)大，但限制也頗多。如果想在端側(cè)塞進(jìn) 405B 這種級別的大模型，那真是小廟供不起大菩薩。近段時間，小模型正在逐漸贏得人們更多關(guān)注。這一趨勢不僅出現(xiàn)在語言模型領(lǐng)域，也出現(xiàn)在了機(jī)器人領(lǐng)域。

昨天晚上，朱玉可和 Jim Fan 團(tuán)隊（英偉達(dá) GEAR 團(tuán)隊）新鮮發(fā)布了他們的最新研究成果 HOVER。這是一個僅有 1.5M 參數(shù)的神經(jīng)網(wǎng)絡(luò)，但它足以控制人形機(jī)器人執(zhí)行多種機(jī)體運(yùn)動。

先來看看效果，將 HOVER 在不同模式下控制的機(jī)器人放到一起組成陣列，其中每一臺機(jī)器人都有自己的控制模式。還挺壯觀的！這也佐證了 HOVER 的通用性。你能看出它們的不同之處嗎？

讓機(jī)器人擁有人一樣「潛意識」，英偉達(dá)1.5M小模型就能實現(xiàn)通用控制了

無論是 H2O 模式、OmniH2O Mode 模式、還是 ExBody 模式、HumanPlus 模式，左手和右手的慢動作都直接被 HOVER 大一統(tǒng)了。

讓機(jī)器人擁有人一樣「潛意識」，英偉達(dá)1.5M小模型就能實現(xiàn)通用控制了

實際上，HOVER 就是一個通用型的人形機(jī)器人控制器。

讓機(jī)器人擁有人一樣「潛意識」，英偉達(dá)1.5M小模型就能實現(xiàn)通用控制了

HOVER 一作 Tairan He（何泰然）的推文，他是 CMU 機(jī)器人研究所的二年級博士生，還是個有 38 萬多粉絲的 B 站 up 主（WhynotTV）

據(jù)介紹，HOVER 的設(shè)計靈感來自人類的潛意識。人類在行走、保持平衡和調(diào)整四肢位置時都需要大量潛意識的計算，HOVER 將這種「潛意識」能力融合進(jìn)了機(jī)器人。這個單一模型可以學(xué)習(xí)協(xié)調(diào)人形機(jī)器人的電機(jī)，從而實現(xiàn)運(yùn)動和操控。

讓機(jī)器人擁有人一樣「潛意識」，英偉達(dá)1.5M小模型就能實現(xiàn)通用控制了

Jim Fan 的推文

讓機(jī)器人擁有人一樣「潛意識」，英偉達(dá)1.5M小模型就能實現(xiàn)通用控制了

論文標(biāo)題：HOVER: Versatile Neural Whole-Body Controller for Humanoid Robots

論文地址：https://arxiv.org/pdf/2410.21229

項目地址：https://hover-versatile-humanoid.github.io/

HOVER 的訓(xùn)練使用了 NVIDIA Isaac，這是一個由 GPU 驅(qū)動的模擬套件，可將物理加速到實時的 1 萬倍。按 Jim Fan 的比喻就是說，只需在一張 GPU 卡上運(yùn)算大概 50 分鐘，機(jī)器人就像是在虛擬「道場」中經(jīng)歷了一整年的密集訓(xùn)練。

然后，無需微調(diào)，就可以將這個神經(jīng)網(wǎng)絡(luò)以零樣本方式遷移到真實世界。

HOVER 可以接收多種高級運(yùn)動指令，即所謂的「控制模式（control mode）」，比如：

頭部和手部姿勢，可通過 Apple Vision Pro 等增強(qiáng)現(xiàn)實設(shè)備捕捉；

全身姿勢，可通過 MoCap 或 RGB 相機(jī)；

全身關(guān)節(jié)角度：外骨骼；

根速度命令：操縱桿。

讓機(jī)器人擁有人一樣「潛意識」，英偉達(dá)1.5M小模型就能實現(xiàn)通用控制了

這項研究的貢獻(xiàn)包括：

一個統(tǒng)一的界面，可讓控制者使用任何方便的輸入設(shè)備來控制機(jī)器人；

一種更簡單的全身遠(yuǎn)程操作數(shù)據(jù)收集方法；

一個上游的視覺 - 語言 - 動作模型，可用于提供運(yùn)動指令，之后 HOVER 會將其轉(zhuǎn)換為高頻的低級運(yùn)動信號。

讓機(jī)器人擁有人一樣「潛意識」，英偉達(dá)1.5M小模型就能實現(xiàn)通用控制了

用戶人形機(jī)器人控制的命令空間設(shè)計

對于腿部運(yùn)動，根速度或位置跟蹤是常用的命令空間。然而，僅僅關(guān)注根跟蹤會限制人形機(jī)器人的全部能力，尤其是對于涉及全身運(yùn)動的任務(wù)。

該團(tuán)隊研究了之前的工作，發(fā)現(xiàn)它們提出了一些各不一樣的控制模式，并且每種模式通常都是針對某些特定的任務(wù)，因此缺乏通用人形機(jī)器人控制所需的靈活性。

而該團(tuán)隊的目標(biāo)是設(shè)計一個全面的控制框架，以適應(yīng)多種多樣的場景和各種不同的人形機(jī)器人任務(wù)。為此，在構(gòu)建命令空間時，必須滿足以下關(guān)鍵標(biāo)準(zhǔn)：

通用性：命令空間應(yīng)包含大多數(shù)現(xiàn)有配置，允許通用控制器替換針對特定任務(wù)的控制器，同時還不會犧牲性能或多功能性。并且該空間應(yīng)具有足夠的表現(xiàn)力，以便與現(xiàn)實世界的控制設(shè)備交互，包括操縱桿、鍵盤、動作捕捉系統(tǒng)、外骨骼和虛擬現(xiàn)實 (VR) 頭設(shè)，如圖 1 所示。

原子性：命令空間應(yīng)由獨(dú)立的維度組成，從而能夠任意組合控制選項以支持各種模式。

讓機(jī)器人擁有人一樣「潛意識」，英偉達(dá)1.5M小模型就能實現(xiàn)通用控制了

基于這些標(biāo)準(zhǔn)，該團(tuán)隊定義了一個用于人形機(jī)器人全身控制的統(tǒng)一命令空間。該空間由兩個主要控制區(qū)域組成上身和下身控制并包含三種不同的控制模式：

運(yùn)動位置跟蹤：機(jī)器人上關(guān)鍵剛體點(diǎn)的目標(biāo) 3D 位置；

局部關(guān)節(jié)角度跟蹤：每個機(jī)器人電機(jī)的目標(biāo)關(guān)節(jié)角度；

根跟蹤：目標(biāo)根速度、高度和方向，由滾動、俯仰和偏航角指定。

在如圖 1 所示的框架中，該團(tuán)隊引入了一個 one-hot 掩碼向量來指定激活命令空間的哪些組件，以便后面跟蹤。

如表 1 所示，可以將其它基于學(xué)習(xí)的人形全身控制的最新研究看作是新提出的統(tǒng)一命令空間的子集，其中每項研究都代表特定的配置。

讓機(jī)器人擁有人一樣「潛意識」，英偉達(dá)1.5M小模型就能實現(xiàn)通用控制了

運(yùn)動重定向

近期有研究表明，如果學(xué)習(xí)的運(yùn)動數(shù)據(jù)集很大，學(xué)習(xí)到的人形機(jī)器人全身運(yùn)動控制策略就會更加穩(wěn)健。

為了獲得大型數(shù)據(jù)集，可將人類運(yùn)動數(shù)據(jù)集重定向成人形機(jī)器人運(yùn)動數(shù)據(jù)集，這個過程分為三步：

1. 使用正向運(yùn)動學(xué)（forward kinematics）計算人形機(jī)器人的關(guān)鍵點(diǎn)位置，將其關(guān)節(jié)配置映射成工作空間坐標(biāo)。

2. 擬合 SMPL 模型以匹配人形機(jī)器人的運(yùn)動學(xué)，做法是優(yōu)化 SMPL 參數(shù)以與正向運(yùn)動學(xué)計算得到的關(guān)鍵點(diǎn)對齊。

3. 使用梯度下降來匹配已經(jīng)擬合的 SMPL 模型和人形機(jī)器人之間的對應(yīng)關(guān)鍵點(diǎn)，重定向 AMASS 數(shù)據(jù)集。

讓機(jī)器人擁有人一樣「潛意識」，英偉達(dá)1.5M小模型就能實現(xiàn)通用控制了

例如，在某些情況下，上半身可能只跟蹤手的運(yùn)動位置，而下半身只跟蹤軀干的關(guān)節(jié)角度。模式和稀疏二元掩碼的每一比特都來自伯努利分布 (0.5)。模式和稀疏掩碼在事件情節(jié)（episode）開始時是隨機(jī)的，并保持固定，直到該情節(jié)結(jié)束。

讓機(jī)器人擁有人一樣「潛意識」，英偉達(dá)1.5M小模型就能實現(xiàn)通用控制了

實驗

研究團(tuán)隊針對以下問題，在 IsaacGym 和 Unitree H1 機(jī)器人上開展了廣泛的實驗：

Q1: HOVER 這個通用策略能比那些只針對特定指令訓(xùn)練的策略表現(xiàn)得更好嗎？

Q2: HOVER 能比其他訓(xùn)練方法更有效地訓(xùn)練多模態(tài)仿人機(jī)器人控制器嗎？

Q3: HOVER 能否在真實世界的硬件上實現(xiàn)多功能多模態(tài)控制？

與專家策略的對比

該團(tuán)隊在不同控制模式下比較了 HOVER 和相應(yīng)專家策略的表現(xiàn)。以 ExBody 模式為例，研究團(tuán)隊加入了固定的掩碼，讓 HOVER 和整個數(shù)據(jù)集 Q 中的 ExBody 模式可比。

讓機(jī)器人擁有人一樣「潛意識」，英偉達(dá)1.5M小模型就能實現(xiàn)通用控制了

如表 III 和圖 3 所示，HOVER 展現(xiàn)出了優(yōu)越的泛化能力。在每一種指令模式中，HOVER 在至少 7 個指標(biāo)上超越了之前的專家控制器（表 III 中用粗體值突出顯示）。同時，這也意味著即使只關(guān)注單一控制模式，從專家策略中提取的策略也比通過強(qiáng)化學(xué)習(xí)訓(xùn)練出的專家更強(qiáng)。

讓機(jī)器人擁有人一樣「潛意識」，英偉達(dá)1.5M小模型就能實現(xiàn)通用控制了

與通用訓(xùn)練方法的對比

研究團(tuán)隊在八種不同的模式下測量了 HOVER 在跟蹤局部和全身位置方面的表現(xiàn)。他們用最大誤差（Emax）減去當(dāng)前誤差（E (.)），再除以最大誤差（Emax）和最小誤差（Emin）之間的差值來計算誤差。雷達(dá)網(wǎng)圖更大，代表模型的跟蹤性能更好。實驗結(jié)果顯示，HOVER 在所有 32 個指標(biāo)和模式中的誤差都很低。

讓機(jī)器人擁有人一樣「潛意識」，英偉達(dá)1.5M小模型就能實現(xiàn)通用控制了

在真實世界中的測評

為了測試 HOVER 策略在真實世界中的表現(xiàn)，研究團(tuán)隊設(shè)計了定量的跟蹤實驗和定性的多模態(tài)控制實驗。

站立時的動作評估

該團(tuán)隊通過跟蹤 20 種不同的站立動作來評估 HOVER 的性能，表 V 中的定量指標(biāo)顯示，HOVER 在 12 個指標(biāo)中的 11 個上超越了專家策略。HOVER 成功跟蹤了關(guān)節(jié)俯仰運(yùn)動與全身運(yùn)動，特別是高度動態(tài)的跑步動作也能搞定。

讓機(jī)器人擁有人一樣「潛意識」，英偉達(dá)1.5M小模型就能實現(xiàn)通用控制了