當(dāng)前位置：人工智能實(shí)驗(yàn)室> 機(jī)器人 > 稚暉君：具身智能即將為通用機(jī)器人補(bǔ)全最后一塊拼圖

稚暉君：具身智能即將為通用機(jī)器人補(bǔ)全最后一塊拼圖
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-08-29 15:42:26 瀏覽：36248次

導(dǎo)讀：*本文為稚暉君獨(dú)家供稿，「甲子光年」經(jīng)智元機(jī)器人授權(quán)發(fā)布。稚暉君本名彭志輝，先后任職OPPO、華為，現(xiàn)為智元機(jī)器人CTO、首席架構(gòu)師。在ChatGPT之后，又一個(gè)大模型概念火了具身智能（Embodied AI）。在學(xué)術(shù)界，圖靈獎(jiǎng)得主、上海期智研究院院長姚期智認(rèn)為...

*本文為稚暉君獨(dú)家供稿，「甲子光年」經(jīng)智元機(jī)器人授權(quán)發(fā)布。稚暉君本名彭志輝，先后任職OPPO、華為，現(xiàn)為智元機(jī)器人CTO、首席架構(gòu)師。

在ChatGPT之后，又一個(gè)大模型概念火了具身智能（Embodied AI）。

在學(xué)術(shù)界，圖靈獎(jiǎng)得主、上海期智研究院院長姚期智認(rèn)為，人工智能領(lǐng)域下一個(gè)挑戰(zhàn)將是實(shí)現(xiàn)“具身通用人工智能”；清華大學(xué)計(jì)算機(jī)系教授張鈸院士，也在某產(chǎn)業(yè)智能論壇上提出，隨著基礎(chǔ)模型的突破，通用智能機(jī)器人（具身智能）是未來的發(fā)展方向。

在產(chǎn)業(yè)界，微軟、谷歌、英偉達(dá)等大廠均開展了相關(guān)研究，比如谷歌RT-2、英偉達(dá)VIMA等。英偉達(dá)創(chuàng)始人兼CEO黃仁勛在ITF World 2023 半導(dǎo)體大會(huì)上表示，AI下一個(gè)浪潮將是“具身智能”。

具身智能作為人工智能發(fā)展的一個(gè)重要分支，正在迅速嶄露頭角，成為科技界和大眾關(guān)注的熱門話題，同時(shí)在各個(gè)領(lǐng)域中展現(xiàn)出巨大的潛力和吸引力。

1. 什么是具身智能？

具身智能通過在物理世界和數(shù)字世界的學(xué)習(xí)和進(jìn)化，達(dá)到理解世界、互動(dòng)交互并完成任務(wù)的目標(biāo)。

具身智能是由“本體”和“智能體”耦合而成且能夠在復(fù)雜環(huán)境中執(zhí)行任務(wù)的智能系統(tǒng)。一般認(rèn)為，具身智能具有如下的幾個(gè)核心要素：

第一是本體，作為實(shí)際的執(zhí)行者，是在物理或者虛擬世界進(jìn)行感知和任務(wù)執(zhí)行的機(jī)構(gòu)。

本體通常是具有物理實(shí)體的機(jī)器人，可以有多種形態(tài)。本體的能力邊界會(huì)限制智能體的能力發(fā)揮，所以，具有廣泛適應(yīng)性的機(jī)器人本體是非常必要的。

隨著機(jī)器人技術(shù)的進(jìn)步，本體越來越呈現(xiàn)多樣化和靈活性。比如，四足機(jī)器人可以具有良好的運(yùn)動(dòng)能力和通過性，復(fù)合機(jī)器人則把運(yùn)動(dòng)和操作機(jī)構(gòu)整合，具有較好的任務(wù)能力；而人形機(jī)器人作為適應(yīng)性更加廣泛，通用能力更強(qiáng)的本體形態(tài)，得到了長足的進(jìn)步，已經(jīng)到了可以商業(yè)化的前夕。

本體具備環(huán)境感知能力、運(yùn)動(dòng)能力和操作執(zhí)行能力，是連接數(shù)字世界和物理世界的載體。

具身智能的第二個(gè)要素是智能體（Embodied Agents），是具身于本體之上的智能核心，負(fù)責(zé)感知、理解、決策、控制等的核心工作。

智能體可以感知復(fù)雜環(huán)境，理解環(huán)境所包含的語義信息，能夠和環(huán)境進(jìn)行交互；可以理解具體任務(wù)，并且根據(jù)環(huán)境的變化和目標(biāo)狀態(tài)做出決策，進(jìn)而控制本體完成任務(wù)。

隨著深度學(xué)習(xí)的發(fā)展，現(xiàn)代智能體通常由深度網(wǎng)絡(luò)模型驅(qū)動(dòng)，尤其是隨著大語言模型（LLM）的發(fā)展，結(jié)合視覺等多種傳感器的復(fù)雜多模態(tài)模型，已經(jīng)開始成為新一代智能體的趨勢。

同時(shí)，智能體也分化為多種任務(wù)形態(tài)，處理不同層次和模態(tài)的任務(wù)。智能體要能夠從復(fù)雜的數(shù)據(jù)中學(xué)習(xí)決策和控制的范式，并且能夠持續(xù)的自我演進(jìn)，進(jìn)而適應(yīng)更復(fù)雜的任務(wù)和環(huán)境。

智能體設(shè)計(jì)是具身智能的核心。具有通用能力的LLM和VLM等模型，賦予了通用本體強(qiáng)大的泛化能力，使得機(jī)器人從程序執(zhí)行導(dǎo)向轉(zhuǎn)向任務(wù)目標(biāo)導(dǎo)向，向通用機(jī)器人邁出了堅(jiān)實(shí)的步伐。

具身智能的第三個(gè)要素是數(shù)據(jù)。“數(shù)據(jù)是泛化的關(guān)鍵，但涉及機(jī)器人的數(shù)據(jù)稀缺且昂貴。”

為了適應(yīng)復(fù)雜環(huán)境和任務(wù)的泛化性，智能體規(guī)模變的越來越大，而大規(guī)模的模型對于海量數(shù)據(jù)更為渴求�，F(xiàn)在的LLM通常需要web-scale級別的數(shù)據(jù)來驅(qū)動(dòng)基礎(chǔ)的預(yù)訓(xùn)練過程，而針對具身智能的場景則更為復(fù)雜多樣，這造成了多變的環(huán)境和任務(wù)，以及圍繞著復(fù)雜任務(wù)鏈的規(guī)劃決策控制數(shù)據(jù)。尤其是針對行業(yè)場景的高質(zhì)量數(shù)據(jù)，將是未來具身智能成功應(yīng)用落地的關(guān)鍵支撐。

具身智能的第四個(gè)要素是學(xué)習(xí)和進(jìn)化架構(gòu)。智能體通過和物理世界（虛擬的或真實(shí)的）的交互，來適應(yīng)新環(huán)境、學(xué)習(xí)新知識并強(qiáng)化出新的解決問題方法。

采用虛擬仿真環(huán)境進(jìn)行部分學(xué)習(xí)是合理的設(shè)計(jì)，比如英偉達(dá)的元宇宙開發(fā)平臺Omniverse，就是構(gòu)建了物理仿真的虛擬世界，來加速智能體的演進(jìn)。

但真實(shí)環(huán)境的復(fù)雜度通常超過仿真環(huán)境，如何耦合仿真和真實(shí)世界，進(jìn)行高效率的遷移（Sim2Real），也是架構(gòu)設(shè)計(jì)的關(guān)鍵。

2. 具身智能的科研和技術(shù)進(jìn)展

在基于Transformer的大語言模型浪潮帶領(lǐng)下，微軟、谷歌、英偉達(dá)等大廠，以及斯坦福、卡耐基梅隆等高等學(xué)府均開展了具身智能的相關(guān)研究。

微軟基于ChatGPT的強(qiáng)大自然語言理解和推理能力，生成控制機(jī)器人的相關(guān)代碼；

英偉達(dá)VIMA基于T5模型，將文本和多模態(tài)輸入交錯(cuò)融合，結(jié)合歷史信息預(yù)測機(jī)器人的下一步行動(dòng)動(dòng)作；

斯坦福大學(xué)利用LLM的理解、推理和代碼能力，與VLM交互并生成3D value map，來規(guī)劃機(jī)械臂的運(yùn)行軌跡；

谷歌具身智能路線較多，包括從PaLM衍生來的PaLM-E，從Gato迭代來的RoboCat，以及最新基于RT-1和PaLM-E升級得到的RT-2。

谷歌在具身智能的研究上更具有廣泛性和延續(xù)性。與其他大廠相比，谷歌依托旗下兩大AI科研機(jī)構(gòu)，Google Brain和DeepMind（2023年4月兩大機(jī)構(gòu)合并為Google DeepMind），在具身智能上研究了更多的技術(shù)路線，且各路線之間有很好的技術(shù)延續(xù)性。

其中基于RT-1研究成果，谷歌融合了VLM（PaLM-E是其中一種）和RT-1中收集的大量機(jī)器人真實(shí)動(dòng)作數(shù)據(jù)，提出了視覺語言動(dòng)作（VLA）模型 RT-2，在直接預(yù)測機(jī)器人動(dòng)作的同時(shí)，受益于互聯(lián)網(wǎng)級別的訓(xùn)練數(shù)據(jù)，實(shí)現(xiàn)了更好的泛化性和涌現(xiàn)性。

從RT-2的實(shí)驗(yàn)結(jié)果看，一方面，面對訓(xùn)練數(shù)據(jù)中沒見過的物體、背景、環(huán)境，RT-2系列模型能夠仍能實(shí)現(xiàn)較高的成功率，遠(yuǎn)超基線對比模型，證明了模型有較強(qiáng)的泛化能力。

另一方面，對于符號理解、推理和人類識別三類不存在于機(jī)器人訓(xùn)練數(shù)據(jù)中的涌現(xiàn)任務(wù)，RT-2系列模型也能以較高正確率完成，表明語義知識從視覺語言數(shù)據(jù)中轉(zhuǎn)移到RT-2 中，證明了模型的涌現(xiàn)性能。同時(shí)，思維鏈（CoT）推理能夠讓RT-2完成更復(fù)雜的任務(wù)。

任何的訓(xùn)練都需要數(shù)據(jù)的支撐。目前來看，機(jī)器人數(shù)據(jù)來源通常是真實(shí)數(shù)據(jù)和合成數(shù)據(jù)。

真實(shí)數(shù)據(jù)效果更好，但需要耗費(fèi)大量的人力和物力，不是一般的企業(yè)或機(jī)構(gòu)能夠負(fù)擔(dān)的。谷歌憑借自己的資金和科研實(shí)力，耗費(fèi)17個(gè)月時(shí)間收集了13臺機(jī)器人的13萬條機(jī)器人真實(shí)數(shù)據(jù)，為RT-1和RT-2的良好性能打下根基。

谷歌的另一項(xiàng)研究RoboCat，在面對新的任務(wù)和場景時(shí)，會(huì)先收集100-1000個(gè)真實(shí)的人類專家示例，再合成更多數(shù)據(jù)，用于后續(xù)訓(xùn)練，是經(jīng)濟(jì)性和性能的權(quán)衡。

除了數(shù)據(jù)來源問題，還有一個(gè)就是具身智能體的預(yù)測如何映射到機(jī)器人的動(dòng)作，這主要取決于預(yù)測結(jié)果的層級。

以谷歌PaLM-E和微軟ChatGPT for Robotics為例，預(yù)測結(jié)果處于高級別設(shè)計(jì)層級：PaLM-E實(shí)現(xiàn)了對具身任務(wù)的決策方案預(yù)測，但不涉及機(jī)器人動(dòng)作的實(shí)際控制，需要依賴低級別的現(xiàn)成策略或規(guī)劃器來將決策方案“翻譯”為機(jī)器人動(dòng)作。

微軟默認(rèn)提供控制機(jī)器人的低層級 API，ChatGPT 輸出是更高層級的代碼，只需調(diào)用到機(jī)器人低層級的庫或API，從而實(shí)現(xiàn)對機(jī)器人動(dòng)作的映射和控制。

還有一種情況就是預(yù)測結(jié)果已經(jīng)到了低級別動(dòng)作層級。例如，RT-2輸出的一系列字符串，是可以直接對應(yīng)到機(jī)器人的坐標(biāo)、旋轉(zhuǎn)角等信息；VoxPoser規(guī)劃的結(jié)果直接就是機(jī)器人運(yùn)行軌跡；VIMA也可以借助現(xiàn)有方法將預(yù)測的動(dòng)作token映射到離散的機(jī)器人手臂姿勢，即不需要再經(jīng)過復(fù)雜的翻譯將高層級設(shè)計(jì)映射到低層級動(dòng)作。

3. 具身智能的難點(diǎn)剖析

具身智能作為邁向通用人工智能（AGI）的重要一步，是學(xué)術(shù)界和產(chǎn)業(yè)界的熱點(diǎn)，隨著大模型的泛化能力進(jìn)一步提升，各種具身方法和智能體不斷涌現(xiàn)，但是要實(shí)現(xiàn)好的具身智能，會(huì)面臨算法、工程技術(shù)、數(shù)據(jù)、場景和復(fù)雜軟硬件等的諸多挑戰(zhàn)。

首先，要有強(qiáng)大的通用本體平臺。如何解決硬件的關(guān)鍵零部件技術(shù)突破，形成具有優(yōu)秀運(yùn)動(dòng)能力和操作能力的平臺級通用機(jī)器人產(chǎn)品，將具身本體的可靠性、成本和通用能力做到平衡，是一個(gè)巨大的挑戰(zhàn)。

從基礎(chǔ)的電機(jī)、減速器、控制器到靈巧手等各部分，都需要持續(xù)進(jìn)行技術(shù)突破，才能夠滿足大規(guī)模商用的落地需求。

同時(shí)，考慮到通用能力，人形機(jī)器人被認(rèn)為是具身智能的終極形態(tài)。這方面的研發(fā)，也將持續(xù)成為熱點(diǎn)和核心挑戰(zhàn)。

其次，需要設(shè)計(jì)強(qiáng)大的智能體系統(tǒng)。

作為具身智能的核心，具備復(fù)雜環(huán)境感知認(rèn)知能力的智能體，將需要解決諸多挑戰(zhàn)，包括：物理3D環(huán)境精確感知、任務(wù)編排與執(zhí)行、強(qiáng)大的通識能力、多級語義推理能力、人機(jī)口語多輪交互能力、long-term記憶能力、個(gè)性化情感關(guān)懷能力、強(qiáng)大的任務(wù)泛化與自學(xué)遷移能力等。

同時(shí)，具身智能要求實(shí)時(shí)感知和決策能力，以適應(yīng)復(fù)雜和變化的環(huán)境。這要求高速的數(shù)據(jù)采集、傳輸和處理，以及實(shí)時(shí)的決策反應(yīng)，尤其是LLM所消耗的算力規(guī)模巨大，對于資源有限的機(jī)器人處理系統(tǒng)將形成巨大的數(shù)據(jù)量、AI計(jì)算能力和低延遲的挑戰(zhàn)。

再者，高質(zhì)量的行業(yè)數(shù)據(jù)將成為巨大挑戰(zhàn)。

現(xiàn)實(shí)場景的復(fù)雜多變，使得現(xiàn)階段缺乏足夠的場景數(shù)據(jù)來訓(xùn)練一個(gè)完全通用的大模型，進(jìn)而讓智能體自我進(jìn)化。

而且，耦合的本體，需要實(shí)際部署到真實(shí)環(huán)境中，才能夠采集數(shù)據(jù)，這也是和非具身智能的明顯不同。

比如，在工廠作業(yè)中，由于機(jī)器人本體并未參與到實(shí)際業(yè)務(wù)，則很多實(shí)際運(yùn)行數(shù)據(jù)就無法采集，而大量的人類操作數(shù)據(jù)雖然可以彌補(bǔ)部分不足，但仍然需要實(shí)際業(yè)務(wù)的數(shù)據(jù)。

當(dāng)然，通過大模型的涌現(xiàn)能力和思維鏈能力，部分任務(wù)可以零樣本學(xué)習(xí)到，但對于關(guān)鍵業(yè)務(wù)，要求成功率，則仍然需要高質(zhì)量的垂域數(shù)據(jù)。同時(shí)，通過層次化的智能體設(shè)計(jì)，將不同任務(wù)限定到特定領(lǐng)域，則是一個(gè)解決泛化和成功率的有效嘗試。

最后，通過虛擬和真實(shí)的交互，持續(xù)學(xué)習(xí)和進(jìn)化的能力，則是具身智能演進(jìn)的重要技術(shù)途徑。

億萬年的生物演化過程，造就了形態(tài)豐富的生命形式。而學(xué)習(xí)新任務(wù)來適應(yīng)環(huán)境的變化，則是持續(xù)改進(jìn)的動(dòng)力。形態(tài)適配環(huán)境合適的智能體，則可以快速的學(xué)習(xí)到解決問題能力，進(jìn)而更好的適應(yīng)變化。

但是，由于形態(tài)的變化空間無窮巨大，搜索所有可能的選擇在有限的計(jì)算資源情況下變的幾乎不可能。本體的自由度設(shè)計(jì)，也會(huì)物理上約束智能體的任務(wù)執(zhí)行能力，進(jìn)而限制了控制器的學(xué)習(xí)效果。

在復(fù)雜環(huán)境、形態(tài)演化和任務(wù)的可學(xué)習(xí)性之間，存在著未可知的隱式關(guān)系，如何快速學(xué)習(xí)到合理的規(guī)劃和決策能力，則成為具身智能的重要一環(huán)。

4. 智元機(jī)器人的實(shí)踐

8月18日，智元機(jī)器人在具身智能遠(yuǎn)征A1的發(fā)布會(huì)提出了一種具身智腦的概念：

具身智腦EI-Brain（Embodied Intelligence Brain）把機(jī)器人的具身智能思維系統(tǒng)分為云端的超腦、端側(cè)的大腦、小腦，以及腦干這樣四層，分別對應(yīng)于機(jī)器人任務(wù)級、技能級、指令級以及伺服級的能力。

腦于完成前提到的語義級多段推理任務(wù)，結(jié)合上下文進(jìn)行任務(wù)理解，且如果模型的通識能不滿任務(wù)需求，還可以借更強(qiáng)的云端超腦的互聯(lián)能。

小腦則負(fù)責(zé)結(jié)合各種傳感器的信息進(jìn)行運(yùn)動(dòng)指令成，就跟類樣，家路的時(shí)候并不會(huì)想著怎么精確地控制每塊肌收縮，而是由腦發(fā)出個(gè)宏觀指令后，由腦完成身體的平衡和各種運(yùn)動(dòng)學(xué)動(dòng)學(xué)的控制，運(yùn)控算法都跑在這層。

最后在硬件底層，由腦來進(jìn)精確的伺服閉環(huán)控制每個(gè)電機(jī)效精準(zhǔn)地執(zhí)。

在EI-Brain的設(shè)計(jì)中，上層大模型聚焦于具體的感知決策和計(jì)劃生成，不用依賴于具體的機(jī)器人載體硬件；下層視控模型和運(yùn)控算法聚焦于底層的具體場景的特定動(dòng)作執(zhí)行，不用決策整個(gè)任務(wù)如何完成。超腦、大腦與小腦、腦干能夠相互解耦，不用相互依賴，實(shí)現(xiàn)了具身智能系統(tǒng)的層級劃分。

智元遠(yuǎn)征A1是為了完成重復(fù)性的通用任務(wù)而設(shè)計(jì)，設(shè)計(jì)時(shí)考慮了2個(gè)非常重要的指標(biāo)，“任務(wù)泛化率”和“任務(wù)執(zhí)行成功率”。

任務(wù)泛化率指的是對未見過的任務(wù)的泛化能力，是否能夠按照上述生成的指令計(jì)劃進(jìn)行精準(zhǔn)執(zhí)行。這個(gè)指標(biāo)主要針對是對上層的云端超腦和大腦來說，大模型是否能夠?qū)τ脩舾鞣N新說法和新的3D環(huán)境進(jìn)行精確的感知決策和指令計(jì)劃生成。

任務(wù)執(zhí)行成功率指的是機(jī)器人載體在實(shí)際物理環(huán)境中，執(zhí)行具體任務(wù)的成功率等，這個(gè)指標(biāo)主要針對下層的小腦和腦干來說，視控模型和運(yùn)控算法是否能夠按照上述生成的指令計(jì)劃進(jìn)行精準(zhǔn)執(zhí)行。

EI-Brain具身智能系統(tǒng)層級有效保證了這兩個(gè)指標(biāo)參數(shù)的實(shí)現(xiàn)，極大地提升了機(jī)器人的智能水平和工作效率，使其在完成復(fù)雜任務(wù)、泛化任務(wù)時(shí)，更加得心應(yīng)手。

類似動(dòng)駕駛L1到L5的發(fā)展過程，全場景適的通機(jī)器的實(shí)現(xiàn)也不會(huì)是步到位的。在技能級模型層，智元機(jī)器人定義了系列的元操作（Meta-Skill）庫，在元操作庫范圍限定的這些有限泛化場景內(nèi)，機(jī)器能夠主推理決策出端到端完成任務(wù)所需要的動(dòng)作編排。且隨著元操作庫列表的不斷擴(kuò)充，機(jī)器能夠勝任的任務(wù)空間將呈指數(shù)級增，在交互中學(xué)習(xí)進(jìn)化，最終實(shí)現(xiàn)全場景的覆蓋，切千百業(yè)。

智元遠(yuǎn)征A1本體是當(dāng)前國內(nèi)通用機(jī)器人領(lǐng)域最領(lǐng)先的。智元遠(yuǎn)征A1形態(tài)與人類相似，身高175cm，重量55kg，最高步速可達(dá)7km/h，全身49個(gè)自由度，整機(jī)承重80kg，單臂最大負(fù)載5kg。

智元遠(yuǎn)征A1全身搭載了包含諧波體關(guān)節(jié)、星伺服、直線驅(qū)動(dòng)器、空杯電機(jī)等在內(nèi)的49個(gè)各類執(zhí)器，也就是說這版機(jī)器擁有49個(gè)由度。

在硬件層面，智元自研了關(guān)節(jié)電機(jī)PowerFlow、靈巧手SkillHand、反曲膝設(shè)計(jì)等關(guān)鍵零部件，以此提升具身智能機(jī)器人的能力、同時(shí)降低成本。

在軟件層面，智元自研了AgiROS，是一套機(jī)器人運(yùn)行時(shí)中間件系統(tǒng)，在AI感知決策與視覺控制等大模型算法方面，能夠?qū)崿F(xiàn)自主任務(wù)編排、常識推理與規(guī)劃執(zhí)行等。

未來智元將緊跟算法前沿，尤其是大模型的前沿技術(shù)，重視數(shù)據(jù)原始積累和數(shù)據(jù)平臺建設(shè)，形成數(shù)據(jù)閉環(huán)，為算法打下堅(jiān)實(shí)的基矗結(jié)合硬件自研優(yōu)勢，以具身智能人形機(jī)器人為載體，構(gòu)建豐富的meta-skills技能庫，快速落地相關(guān)商業(yè)垂域應(yīng)用場景，在實(shí)驗(yàn)室上的學(xué)術(shù)探索基礎(chǔ)上邁出商業(yè)落地的最為關(guān)鍵一步。

（封面圖來源：智元機(jī)器人）