當(dāng)前位置：人工智能實(shí)驗(yàn)室> 機(jī)器人 > 今年，是人形機(jī)器人的“iPhone時(shí)刻”嗎？

今年，是人形機(jī)器人的“iPhone時(shí)刻”嗎？
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-08-24 20:23:05 瀏覽：15251次

導(dǎo)讀：最近，人形機(jī)器人變得非�；馃�。2023世界機(jī)器人大會(huì)近日在北京開幕，人潮涌動(dòng)。同時(shí)，宇樹科技、智元機(jī)器人等創(chuàng)業(yè)公司，相繼發(fā)布了自己的人形機(jī)器人，當(dāng)這些站立行走，能跑能跳的機(jī)器人真真切切地出現(xiàn)在人們面前時(shí)，把人們的期待推向了最高潮。智元機(jī)器人的...

最近，人形機(jī)器人變得非�；馃�。2023世界機(jī)器人大會(huì)近日在北京開幕，人潮涌動(dòng)。同時(shí)，宇樹科技、智元機(jī)器人等創(chuàng)業(yè)公司，相繼發(fā)布了自己的人形機(jī)器人，當(dāng)這些站立行走，能跑能跳的機(jī)器人真真切切地出現(xiàn)在人們面前時(shí)，把人們的期待推向了最高潮。

智元機(jī)器人的首款產(chǎn)品：遠(yuǎn)征A1。圖片來源：智元

機(jī)器人一直是說起來容易，很科幻，但做起來非常難。哪怕是在不少工廠的流水線里，機(jī)器人還是很難適應(yīng)很多復(fù)雜場景。不過自去年底，特斯拉發(fā)布了人形機(jī)器人Optimus（擎天柱）以來，人形機(jī)器人賽道就在逐漸升溫。

那么，為什么人形機(jī)器人火了？現(xiàn)在到技術(shù)爆發(fā)的臨界點(diǎn)了嗎？相比于工業(yè)機(jī)器人（是一個(gè)比較成熟的賽道，更像傳統(tǒng)機(jī)械設(shè)備），這一波大家對(duì)機(jī)器人的想象，與工業(yè)機(jī)器人有什么底層不同？

首先，我們總結(jié)說結(jié)論，人形機(jī)器人賽道之所以變熱，核心是智能泛化能力大幅加強(qiáng)，讓通用機(jī)器人成為可能。以前機(jī)器人行業(yè)之所以迭代得很慢，是因?yàn)槊繉W(xué)一套新動(dòng)作，就需要重新編程一次，只是“機(jī)械的自動(dòng)化”。而現(xiàn)在有了智能泛化能力的突破，甚至只需要語音控制，機(jī)器人就能實(shí)現(xiàn)新功能，這是從自動(dòng)化到智能化的底層轉(zhuǎn)變，機(jī)器人的通用性被大大增強(qiáng)。

英國機(jī)器人公司Engineered Arts的人形機(jī)器人Ameca，在接入Stable Diffusion之后，可以完成一些簡筆畫，比如畫一只貓。圖片來源：Engineered Arts

基于這個(gè)認(rèn)知，我們還可以延展出很多新問題：

當(dāng)機(jī)器人觸達(dá)技術(shù)爆發(fā)臨界點(diǎn)，更智能的機(jī)器人能用在哪里？

機(jī)器人是否要做成“人形”？

訓(xùn)練數(shù)據(jù)是瓶頸，數(shù)據(jù)還能從哪里來？

今天這篇文章，我們就來探討以上這些問題，不過人形機(jī)器人是一個(gè)高速發(fā)展中的新賽道，很多問題還沒有準(zhǔn)確答案，對(duì)于一些有爭議的部分，歡迎在評(píng)論區(qū)聊聊，Enjoy：

人形機(jī)器人是一個(gè)大賽道，能帶動(dòng)眾多細(xì)分賽道。以特斯拉機(jī)器人Optimus為代表的人形機(jī)器人硬件全景圖。圖片來源：中信證券

當(dāng)機(jī)器人觸達(dá)技術(shù)爆發(fā)臨界點(diǎn)，

更智能的機(jī)器人能用在哪里？

曾經(jīng)，機(jī)器人是一個(gè)迭代速度不算太快的領(lǐng)域，現(xiàn)在的汽車工廠里已有很多工業(yè)機(jī)器人，并且有著幾十年的應(yīng)用歷史，但基本都是非通用智能機(jī)器人。

其中的瓶頸在于，像工業(yè)機(jī)器人這樣的非通用智能機(jī)器人（往往只是一個(gè)機(jī)械臂），是在特定場景里做特定任務(wù)，各種動(dòng)作和反應(yīng)的算法都是寫定的，一旦遇到新的情況或環(huán)境，如果沒有預(yù)先寫好算法，就會(huì)立即變成“智障”。

如今有可能出現(xiàn)真正的通用機(jī)器人，這也極大擴(kuò)展了機(jī)器人潛在的應(yīng)用場景。以往工業(yè)機(jī)器人只能在流水線的單點(diǎn)上，比如擰好某個(gè)螺絲，或是組裝好某個(gè)部件，但如今有了通用機(jī)器人之后，只需要讓機(jī)器人學(xué)會(huì)安裝邏輯和評(píng)估標(biāo)準(zhǔn)就可以了，并且它不僅可以擰好螺絲，當(dāng)螺絲用完了還可以自己從倉庫里取來，或是給機(jī)器人裝上靈巧手，它就可以使用一些工具，來處理螺絲之外更復(fù)雜的事情。

此外，結(jié)合LLM我們還可以實(shí)現(xiàn)語音控制，只需要說出“請(qǐng)給我拿杯水”，先把語音轉(zhuǎn)換成代碼，再把代碼轉(zhuǎn)換成機(jī)器人的動(dòng)作。這不是影視劇里很遙遠(yuǎn)的事情，而是正在發(fā)生的。今年谷歌發(fā)布了Robotics Transformer-2（RT-2），微軟發(fā)布了“ ChatGPT for Robotics ”論文，給整個(gè)機(jī)器人行業(yè)帶來了轟動(dòng)。

今年的這些新進(jìn)展，與以前“每做一套新動(dòng)作，就需要重新編程一次”的機(jī)器人，有著天壤之別。未來無論是在工廠車間，還是商嘗家庭，都很有可能出現(xiàn)一個(gè)通用機(jī)器人，它能適應(yīng)不同的環(huán)節(jié)，不需要重新編程就能在不同任務(wù)之間切換自如。

目前，對(duì)于大多數(shù)通用機(jī)器人創(chuàng)業(yè)公司來說，第一目標(biāo)還不是ToC，而是ToB，比如工業(yè)或是商業(yè)場景。先在B端場景中打磨好能力，再最終應(yīng)用到C端，是不少機(jī)器人公司的計(jì)劃。

很多公司都把汽車生產(chǎn)作為首要場景。汽車工廠規(guī)模很大，較早實(shí)現(xiàn)自動(dòng)化，其中很多環(huán)節(jié)已經(jīng)形成流水線用工業(yè)機(jī)器人替代，但仍有不少環(huán)節(jié)需要人工操作。比如在汽車工廠的總裝車間，仍然需要大量人力，人形機(jī)器人可以替代這些環(huán)節(jié)，并非替代已經(jīng)通過工業(yè)機(jī)器人實(shí)現(xiàn)自動(dòng)化的環(huán)節(jié)。

智元的人形機(jī)器人應(yīng)用在汽車工廠

如果按照馬斯克的計(jì)劃，特斯拉的第一批機(jī)器人主要在B端應(yīng)用，替代那些危險(xiǎn)、無聊、重復(fù)的工作，或是人們不想做的工作。第二批大規(guī)模使用的機(jī)器人，會(huì)擁有在現(xiàn)實(shí)世界中的導(dǎo)航能力，也是復(fù)用特斯拉電動(dòng)車的視覺導(dǎo)航技術(shù)，無需特定指令也能做有用的事；第三批則是10年左右，人們可以在家里使用機(jī)器人。

除了汽車工廠，還有3C的組裝、檢測等環(huán)節(jié)；以及在商業(yè)場景中，比如零售業(yè)的貨架管理、清潔等，也仍有需要大量人工的場景。隨著社會(huì)老齡化及人力成本的攀升，將有不小的勞動(dòng)力缺口需要填補(bǔ)。

當(dāng)然，有些場景也并非一定需要人形機(jī)器人，而是根據(jù)需求來選擇。比如宇樹科技創(chuàng)始人兼CEO王興興曾說，四足機(jī)器人與雙足機(jī)器人相比，具備更高的載荷能力和極強(qiáng)的平衡能力，也更易于控制、設(shè)計(jì)和維護(hù)，在工業(yè)端和消費(fèi)端等都有廣泛的應(yīng)用場景，尤其能在一些危險(xiǎn)場景代替人類進(jìn)行作業(yè)。

宇樹科技的機(jī)器狗可用于消防。圖片來源：宇樹科技

鴻海、軟銀投資的日本機(jī)器人初創(chuàng)公司Telexistence，可作為商超貨架的補(bǔ)貨機(jī)器人。

不過，今天的通用機(jī)器人，離真正商業(yè)化落地還有諸多障礙。最明顯的就是成功率、執(zhí)行速度和精度都還不太夠。比如谷歌的RT-2比起RT-1，執(zhí)行成功率提高到了80%，但在實(shí)機(jī)演示中，還是錯(cuò)誤地識(shí)別了一罐檸檬味蘇打水，說成了“橘子味”；以及被問到桌子上有什么水果時(shí)，機(jī)器人回答成“白色”，但實(shí)際是香蕉。谷歌解釋說，因?yàn)閃iFi臨時(shí)中斷，機(jī)器人使用了緩存的答案來回答。雖然80%的準(zhǔn)確率在一些場景夠用，但在另一些需要精度的場景仍然不夠，比如一些精密儀器的操作等等。

當(dāng)然，我們說了這么多具身智能、通用機(jī)器人，也并不是說原來的工業(yè)機(jī)器人領(lǐng)域就沒有機(jī)會(huì)了，只是邏輯不同。在傳統(tǒng)機(jī)械設(shè)備領(lǐng)域，仍有大量機(jī)器人零部件創(chuàng)新，和國產(chǎn)替代的機(jī)會(huì)。比如工業(yè)機(jī)器人的核心零部件減速器，就長期被日本和德國公司壟斷；工業(yè)機(jī)器人整體的國產(chǎn)化率也僅有35%，特別是在大六軸、汽車3C、焊接等工業(yè)機(jī)器人細(xì)分賽道，國產(chǎn)化率都是偏低的，結(jié)合智能化仍然有成長空間與創(chuàng)新潛力。

機(jī)器人是否要做成“人形”？

在無數(shù)科幻影視作品中，人形機(jī)器人一直才是人們對(duì)機(jī)器人的終極想象，比起工業(yè)機(jī)器人，人形機(jī)器人是一種更高維的存在。但由于實(shí)現(xiàn)難度太大，一直不是機(jī)器人行業(yè)的主要形態(tài)，直到最近1年特斯拉的人形機(jī)器人發(fā)布，才成為市場焦點(diǎn)。

市場也存在很多質(zhì)疑聲：到底我們需不需要人形機(jī)器人？既然難度這么大，到底需要多少年才能在現(xiàn)實(shí)生活中落地？是否應(yīng)該先從機(jī)械狗、多輪底盤+機(jī)械臂等形態(tài)入手，而不是一上來就做人形？

當(dāng)然這個(gè)問題還沒有答案，我們看到谷歌搭載RT-2的機(jī)器人，就是四個(gè)輪子作為底盤+一個(gè)機(jī)械臂，已經(jīng)能實(shí)現(xiàn)很多功能，比如撿起小東西、開窗戶或是垃圾篩眩這種單臂、輪式服務(wù)機(jī)器人不需要靈巧手（利用空心杯電機(jī)實(shí)現(xiàn)的仿人手設(shè)計(jì)）、不需要仿人腿的運(yùn)動(dòng)控制系統(tǒng)，也能實(shí)現(xiàn)很多家庭、工廠場景的功能。當(dāng)然它也會(huì)有限制，比如不能上下樓梯。

Google的機(jī)器人就是輪式底盤+單臂+攝像頭的形態(tài)。圖片來源：Google Deepmind

當(dāng)然，我們的觀點(diǎn)是人形肯定是終極形態(tài)，因?yàn)槲覀兿嘈抛罱K機(jī)器人是會(huì)進(jìn)入千家萬戶的。但根據(jù)不同場景需求，其他形態(tài)的機(jī)器人也會(huì)共存，比如不一定是雙足雙臂，更早到來的可能是輪式單臂。

人形的好處是：首先是應(yīng)用范圍。如果用終局思維來思考，人形機(jī)器人的應(yīng)用范圍肯定是最廣的，因?yàn)槿诵尾攀亲钸m合社會(huì)中所有場景的形態(tài)，我們所有的建筑、工具等等，都是基于人類的身形而設(shè)計(jì)的，所以無需改變場景來適應(yīng)機(jī)器人，就能直接使用人類社會(huì)中所有工具。這也符合馬斯克所提出的愿景，他希望今后人類不想干的事全都可以交給機(jī)器人來干，甚至發(fā)掘出目前我們還預(yù)料不到的用途。

比如最典型的，就是人類的腿和手，在仿生步態(tài)下，機(jī)器人的運(yùn)動(dòng)能力比傳統(tǒng)履帶、四輪、雙輪機(jī)器人都有大幅提升，機(jī)器人可以上下樓，可以跳躍過障礙物等等。對(duì)于手來說，基于空心杯電機(jī)的靈巧手，可以實(shí)現(xiàn)雙手配合和工具替換，這比起傳統(tǒng)的工業(yè)機(jī)器人，能用更廣泛的人類工具，技能更廣。

特斯拉使用空心杯電機(jī)設(shè)計(jì)的靈巧手。圖片來源：東吳證券

其次如果考慮交互，“人形”才能傳遞出的肢體語言、面部表情等等信息。比如在梅拉賓法則中，心理學(xué)家就在強(qiáng)調(diào)肢體語言的作用。肢體語言也最符合人類的認(rèn)知，人類無需重新學(xué)習(xí)任何新東西，就能輕松理解機(jī)器人的動(dòng)作。在結(jié)合大語言模型之后，能夠更好的與人類交互。

例如英國Engineered Arts 公司的人形機(jī)器人Ameca，輸入了大量真人表情數(shù)據(jù)，通過立體3D打印機(jī)制作出精確的模具，實(shí)現(xiàn)了生動(dòng)的面部表情和肢體語言。

英國機(jī)器人公司Engineered Arts的人形機(jī)器人Ameca，能夠在橡膠皮膚上表現(xiàn)出超過 62 種面部表情，這是Ameca著名的“蘇醒時(shí)刻”。

我們都知道人形有這么多好處，但對(duì)人形機(jī)器人最大的制約，還是軟硬件技術(shù)的高難度，小到每一個(gè)關(guān)節(jié)的設(shè)計(jì)，再到運(yùn)動(dòng)控制、對(duì)環(huán)境的感知等等，每一個(gè)環(huán)節(jié)都存在技術(shù)難題，綜合在一起更是對(duì)系統(tǒng)的集成度、魯棒性要求很高。

比如運(yùn)動(dòng)控制的標(biāo)桿波士頓動(dòng)力，已經(jīng)成立了31年，歷經(jīng)被谷歌收購、被軟銀收購、被韓國現(xiàn)代集團(tuán)收購，一直都在不斷投入，雖然實(shí)現(xiàn)了“跑酷”等炫酷的功能，但背后是不計(jì)成本的投入、功耗極高、噪音很大，離量產(chǎn)落地還差很遠(yuǎn)。

不過，如果一家公司把最終目標(biāo)定位成人形機(jī)器人，不代表它的產(chǎn)品只有一款人形機(jī)器人。在高難度的技術(shù)研發(fā)中，無論是移動(dòng)、抓取還是視覺感知等等，都可以在這個(gè)過程中迭代出新的產(chǎn)品，而最終把各項(xiàng)技術(shù)組合在一起，簡單來說就是：人形機(jī)器人是最難的機(jī)器人形態(tài)，誰能做好人形，誰就也能做好其他形態(tài)的機(jī)器人。

總之，機(jī)器人的通用性和智能化是接下來的重點(diǎn)，但不一定非要是人形，當(dāng)下還需要看場景需求。

訓(xùn)練數(shù)據(jù)是瓶頸

數(shù)據(jù)還能從哪里來？

能否獲得高質(zhì)量且足夠便宜的數(shù)據(jù)，是當(dāng)下制約智能機(jī)器人發(fā)展的瓶頸，也是拉開公司之間競爭的重要手段。

前車之鑒是Everday Robots，它曾是谷歌的明星獨(dú)立項(xiàng)目，但在今年2月被谷歌因成本控制而解散，并入谷歌其他部門。造成Everday Robots成本高昂的一個(gè)重要原因，就是數(shù)據(jù)采集成本過于昂貴。OpenAI曾經(jīng)也有一個(gè)機(jī)器人部門，但后來放棄了，問題也出在數(shù)據(jù)收集上。

為什么采集成本這么高？主要是因?yàn)镋verday Robots基于真實(shí)環(huán)境來收集數(shù)據(jù)。谷歌為了訓(xùn)練PaLM-E，用了13臺(tái)機(jī)器人，收集了17個(gè)月，才拿到足夠的數(shù)據(jù)量，如果是在更復(fù)雜的工業(yè)場景，數(shù)據(jù)采集成本會(huì)更高。

目前對(duì)于人形機(jī)器人來說，主流的數(shù)據(jù)獲取手段有四種：

遙操作數(shù)據(jù)：這是目前最主流的方式，特斯拉等很多機(jī)器人公司都在使用。這種方式基于人工遙操作，先學(xué)習(xí)和分解人是怎么做到的，然后對(duì)應(yīng)機(jī)器人要怎么做到。由于是真實(shí)世界的數(shù)據(jù)，所以數(shù)據(jù)質(zhì)量最高，但數(shù)據(jù)采集成本也是最高的。

機(jī)器人的遙操作

模擬器數(shù)據(jù)：由于遙操作成本過高，更低成本的基于模擬器，來生產(chǎn)仿真數(shù)據(jù)也有越來越多人使用。一方面通過合成仿真數(shù)據(jù)可以大幅擴(kuò)展數(shù)據(jù)集，此外仿真場景還可以去補(bǔ)充日常現(xiàn)實(shí)中比較少出現(xiàn)的任務(wù)。在一些任務(wù)中，比如導(dǎo)航或是抓取物品等，仿真表現(xiàn)不錯(cuò)，但在另一些對(duì)真實(shí)物理數(shù)據(jù)要求比較高的場景，比如在流體中的運(yùn)動(dòng)、或是物體破裂等等，還比較難在仿真里做到。但模擬器不是萬能的，如何構(gòu)建豐富的3D內(nèi)容、如何設(shè)置合適的獎(jiǎng)勵(lì)機(jī)制等，也是這種方式所面臨的問題，當(dāng)然還有算力成本。

視頻數(shù)據(jù)：鑒于線上視頻網(wǎng)站中，有大量第一人稱視角的視頻，這些視頻完全可以讓機(jī)器人或者AI來學(xué)習(xí)，這些都是很好的人類真實(shí)活動(dòng)的視頻，通過這些圖像來訓(xùn)練機(jī)器人的行為決策，可以快速且低成本的實(shí)現(xiàn)數(shù)據(jù)積累和泛化能力。目前學(xué)界和谷歌等大廠，都在嘗試這種方式來加快訓(xùn)練。

模仿學(xué)習(xí)：這種方式還在研究中，就是讓人直接在機(jī)器人面前演示一遍，機(jī)器人就學(xué)會(huì)了。比如在家庭場景中的一些動(dòng)作，掃地或是把臟衣服放進(jìn)洗衣機(jī)，可能只需要教幾遍，不需要額外采集數(shù)據(jù)，也不需要?jiǎng)幼鞑蹲�。有不少相關(guān)的論文已經(jīng)發(fā)表。

總之，具身大數(shù)據(jù)對(duì)于機(jī)器人來說是一個(gè)重要瓶頸，在缺乏具身數(shù)據(jù)的情況下，很難訓(xùn)練出真正好用的具身基礎(chǔ)模型。

目前在每條數(shù)據(jù)獲取的技術(shù)路徑上，都有很多公司或高校在嘗試，很多公司也是幾種方式混合在一起使用，以最快的速度和盡量低的成本來獲取高質(zhì)量數(shù)據(jù)。

今年，機(jī)器人在真實(shí)環(huán)境中的規(guī)劃、感知、決策、執(zhí)行等能力大幅提升，通過語音直接控制成為可行，人機(jī)交互也大大增強(qiáng)。在這種智能化、通用性的發(fā)展趨勢下，通用機(jī)器人的應(yīng)用領(lǐng)域被大大拓寬，人形機(jī)器人的商業(yè)化也成為了可能。

Ameca已經(jīng)可以與人類互動(dòng)，比如討論音樂。2017年10月，Ameca成為沙特阿拉伯公民，這是世界上第一個(gè)獲得國籍的機(jī)器人。圖片來源：Engineered Arts

通用機(jī)器人還將帶來工業(yè)制造能力的騰飛，從以前只能機(jī)械完成代碼指令的工業(yè)機(jī)器人，變成能使用大量人類工具、載具的通用機(jī)器人。而在工業(yè)制造領(lǐng)域，無論是在機(jī)器人零件端，還是工業(yè)制造的應(yīng)用場景、訓(xùn)練所需要的數(shù)據(jù)成本等方面，中國都更具優(yōu)勢。

在ITF World 2023大會(huì)上，英偉達(dá)創(chuàng)始人黃仁勛說，人工智能的下一個(gè)浪潮將是具身智能，即能理解、推理、并與物理世界互動(dòng)的智能系統(tǒng)。而通用機(jī)器人，無疑是最理想的載體。