當前位置：人工智能實驗室> 機器人 > 云棲大會4位CEO激辯：人形機器人，何時來敲門？

云棲大會4位CEO激辯：人形機器人，何時來敲門？
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-22 07:33:10 瀏覽：871次

導讀：出品 | 虎嗅科技組作者 | 王欣編輯 | 苗正卿頭圖 | 阿里供圖通用機器人一定要做成人形，而且是有兩條腿的人形。在圓桌討論的一開始，逐際動力創(chuàng)始人張巍就火藥味十足地定義了他眼中的人形機器人理想形態(tài)。自稱先看腿的張巍認為：人形機器人不是傳統(tǒng)機械...

出品 | 虎嗅科技組

作者 | 王欣

編輯 | 苗正卿

頭圖 | 阿里供圖

“通用機器人一定要做成人形，而且是有兩條腿的人形。”

在圓桌討論的一開始，逐際動力創(chuàng)始人張巍就火藥味十足地定義了他眼中的人形機器人理想形態(tài)。自稱“先看腿”的張巍認為：人形機器人不是傳統(tǒng)機械臂公司的延續(xù)，它的本質(zhì)就是要長出兩條腿來。通用的移動能力其實是不太需要雙臂的，只要弄成一個單臂就可以了。

不過有趣的是，逐際動力最新的人形機器人CL-1采用的卻是雙臂設計。

而北大-銀河通用具身智能聯(lián)合實驗室主任王鶴則持有不同觀點，王鶴認為：相比雙足形態(tài)，將兩條腿并成一條的輪式能以最便宜的價格穩(wěn)定落地。這是因為平地上，輪子是夠用的。而在零售商超和工廠場景的諸多動作都需要用到雙臂。

在9月19日，云棲大會主題為《人形機器人的“圖靈時刻”》的圓桌對話現(xiàn)場，星動紀元創(chuàng)始人陳建宇、北大-銀河通用具身智能聯(lián)合實驗室主任王鶴、宇樹科技創(chuàng)始人王興興、逐際動力創(chuàng)始人張巍以及至頂科技CEO高飛，共同探討了人形機器人當下最受關注的幾個問題。

與路線高度統(tǒng)一的大模型行業(yè)不同，這些人形機器人公司的路線各不相同，他們旗幟鮮明地表明不同觀點，也讓我充分感受到人形機器人行業(yè)最有趣的地方：永遠不缺乏顛覆傳統(tǒng)的“暴論”和鮮活的非共識。

比如，在一眾人形機器人和大模型公司都在探索商業(yè)化路徑時，張巍反而認為：

要避免過早做商業(yè)化。

張巍舉了ChatGPT2.0的例子在ChatGPT初期做一個超級應用，要打一堆補丁增加了部署和售后的很多成本，最終商業(yè)邏輯還是挺難跑通。關鍵點還是要看技術的開關何時打開。

而在衡量人形機器人技術水平的話題上，大家的想法終于收斂到了一個關鍵節(jié)點：

泛化。

“把一個機器人拉到它以前沒有見到的場景，只要簡單演示一下怎么操作，它就可以很自然地做好了。”宇樹科技創(chuàng)始人王興興認為這種泛化的性質(zhì)非常有價值。

那么如何測試機器人有沒有達到一個真正的泛化性？

“在演示的過程中，你就給它搗亂，走的時候突然去踹一腳，突然給它下面擺很多不平的東西。它做操作抓取的時候，突然把這個東西給拿開。再看它還能不能很穩(wěn)定的、很智能的去適應完成。”星動紀元創(chuàng)始人陳建宇給出了方法論。

這種測試方法，讓我想到了宇樹出圈的“王興興暴力測試機器人”場景。

和許多機器人公司相同，2022年表現(xiàn)驚艷的大語言模型，讓曾經(jīng)遲疑的王興興看到了人形機器人的更多可能，于是很快發(fā)布了兩款人形機器人。

這次大模型浪潮，也給具身智能帶來了新的機遇“行業(yè)開始思考，怎么樣去做機器人的Scaling Law。”陳建宇這樣總結大模型帶來的啟發(fā)。

受到大模型技術的影響，機器人領域的發(fā)展經(jīng)歷了從“規(guī)則驅(qū)動”到“算法驅(qū)動”再到“數(shù)據(jù)驅(qū)動”的跳變。

王興興表示，通用機器人尤其通用人形機器人算是目前大模型最好的落地載體。

在巨量的資金人才投入和技術的快速迭代下，大家對于未來仍然較為樂觀。

王鶴預測，從明年開始將會是商用的元年，銀河通用5年的目標則是在零售和工廠場景中達到1萬臺。銀河通用向虎嗅展示了他們在展館現(xiàn)場布置的零售場景，前來體驗的觀眾排出了10米的長隊，觀眾在iPad端下單后，銀河通用的GALBOT的通用機器人從貨架上拿到對應物品遞給觀眾。而這項技術已經(jīng)達到了產(chǎn)業(yè)化的邊界。

銀河智能展臺排起了十米長隊圖源：銀河智能

王興興認為，三年內(nèi)相對通用性的人形機器人大概率會出現(xiàn)。5年后，可能會發(fā)生天翻地覆的變化。

在圓桌討論的最后環(huán)節(jié)，大家對一個問題卻一反常態(tài)地達成了共識，或許這能解釋這些人早早潛入人形機器人行業(yè)的原因。

當被問道“人形機器人的圖靈時刻是否會到來”時，所有嘉賓都堅定地相信，這一時刻終會來臨。

以下為對話實錄，由虎嗅整理編輯：（在不改變原意的情況下，有刪減調(diào)整）

主持人：AI已經(jīng)讓我們的信息有點真假難辨了，但目前AI還是基于文本，它不是物理世界的，所以我們需要討論一下人形機器人這樣的物理智能載體，它在大模型帶動下會發(fā)生什么樣的變化，或者某一天我們也會迎來它的圖靈時刻？令我們難分真假，敲門的不知道是機器還是人，這一天是否會到來？我們圍繞這個話題請4位嘉賓交流。

我們第一輪問題討論的是初心，因為大家都是創(chuàng)業(yè)者，創(chuàng)業(yè)者初心是很重要的，你們初心就是產(chǎn)業(yè)的創(chuàng)新。第一個問題想問王興興，我知道宇樹已經(jīng)創(chuàng)立很多年了，曾經(jīng)一度你還反對過做人形機器人。但前兩年宇樹很快把人形機器人做出來了，所以我想問的是：什么使你改變了態(tài)度，還是一開始你隱藏了意圖？

王興興：對，三四年前有投資人問我，做不做人形機器人，我堅決反對做人形機器人。

原因也比較簡單，2009、2010年我大一時，就做過小的人形機器人。我發(fā)現(xiàn)，當前人類技術其實沒有辦法駕馭這么復雜的機器人系統(tǒng)。一個機器人系統(tǒng)復雜到一定程度以后，就變成非人力可維護，做一些簡單事情可以，想要復雜或者泛用性，人類的技術沒辦法駕馭，所以就沒有做人形機器人。

但后來大家也知道，最近一波差不多從2016年開始，新的AI技術誕生了，并且2018年、2019年，在機器人AI上已經(jīng)看到一些苗頭。在2022年時，大語言模型發(fā)展非常驚艷，我們就在2023年初開始正式做人形機器人。大家可以看到，雖然我們做人形機器人起步相對比較晚的，但到現(xiàn)在差不多一年半多時間，我們已經(jīng)發(fā)布過兩款人形機器人，而且目前取得的效果也非常驚艷。所以，在某種程度上，無論是硬件還是軟件的發(fā)展節(jié)奏，都超過我自己的預計。

\t主持人：第二個問題我想問一下張巍，我看到我們的定位寫的是我們是一個通用機器人公司，通用機器人一定要做成人形嗎？因為這個很有爭議，你怎么看？

\t張巍：我覺得一定要做成人形，而且是有兩條腿的人形機器人�？赡苓@個見仁見智，每個人觀點不一樣。

\t我簡單說一下我對通用機器人的理解，我首先覺得，機器人和AI，它的使命是不同的，AI是代替人來思考決策的，機器人本質(zhì)上要代替人來運動的，所以它必須能動。大家看到的各式各樣的機器人非常多，它們本質(zhì)上就在做兩件事情，一件事情就是要移動，另外一件事情就是操作。所謂的通用機器人，就是在這兩個能力上都能達到跟人一樣的環(huán)境適應能力和任務的泛化性。

\t值得一提的是，通用的移動能力其實是不太需要雙臂的，只要弄成一個單臂就可以了。但是通用的操作能力反而是需要雙腿的，不然你可能都沒法到人能夠到的地方去干活。我覺得這一代AGI的發(fā)展，相比上一代最大的區(qū)別，是從專用到通用的一個變化�？墒窃诖竽Ｐ统鰜碇�，我感覺通用這個詞是個貶義詞，感覺一說什么通用就證明它是沒什么用。

但是大模型出來以后，大家發(fā)現(xiàn)像以前我們這種在專業(yè)領域里搜數(shù)據(jù)、做專項任務的訓練方式是有很大局限性的，反而我們要忽略一下專項的能力，要先構建一個通用的基礎模型的能力，然后再在上面長出專用的能力，這才是系統(tǒng)化解決泛化性的一個關鍵。我覺得軟件算法的通用性靠大模型技術；機器人跟物理世界交互的這個通用性，靠人形機器人。這也是我們公司關注的賽道。

\t主持人：但是您剛才說的是有腿的，我不是挑事，我看到王鶴老師的官網(wǎng)上有機器人沒有腿的。我想問一下王鶴您對人形機器人怎么理解，有什么形態(tài)算人形？

王鶴：我們公司叫銀河通用，所以從建立的第一天，我們的目標就是要達成通用機器人。但是通用機器人有一個過程，它要先做到單一場景、多任務、可移動，然后再做到多場景、多任務，最后做到全場景，幾乎是全任務。在這個過程中，不同階段的形態(tài)，也有它最適合、最經(jīng)濟、最穩(wěn)定的載體。所以通用機器人這個萬億市場剛剛開局的時候，我們選擇了先從幾個場景里頭的多任務做起：比如說在零售商超場景去上貨、下貨，在工廠里去抱箱子。

在這些場合，我們發(fā)現(xiàn)平地上，輪子是夠用的。并不能說我們沒有腿，我們是把兩只腿并在了一起，這樣它能夠手碰到地，撿地面的東西。那為什么要雙手呢？因為我們發(fā)現(xiàn)，抱箱子需要兩只手，在超市里頭一只手拿籃子、一只手拿貨，也是需要兩只手。

所以，我們的形態(tài)目前是360度輪，雙腿并成一條腿，站直1.73米，最高可以夠到2.4米，蹲下來可以摸地，能以最便宜的價格、最穩(wěn)定的機器人技術率先實現(xiàn)可以落地的場景。

主持人：我聽明白了，王鶴老師說也要有腿，但是對腿的定義不一樣。我問一下陳建宇，我們的定位當中也一個詞叫“具身智能和人形機器人”，大家討論的時候總是把兩個詞放到一塊兒，你怎么看？

\t陳建宇：我覺得這是大家比較容易混淆的概念，雖然這兩個詞非常的相近，但是它們的側重點還是不太相同的。對于具身智能來說，我們主要的是關注智能性所謂軟的這個層面。但它對形態(tài)其實是要求不高的，可以是人形的、四足的、輪式的、機械臂的，甚至就是一個桌子、椅子，只要它能動，都可以給它賦予具身智能，它是在這一層面更廣泛的概念。

\t當然，人形機器人顧名思義，形態(tài)一定是人形的。當然它不僅僅是要研究人形機器人所對應的具身智能怎么去做？同時我們也需要去研究它的本體怎么去做？這里面有很多的挑戰(zhàn)性，包括我們講人形機器人還會討論它的核心零部件、它的產(chǎn)業(yè)鏈、它的工程量產(chǎn)。

\t星動紀元同時非常重視具身智能和人形機器人這兩個層面，其實也是代表我們非常重視軟件和硬件的協(xié)同一體的發(fā)展。因為對我們?nèi)祟悂碚f，我們?nèi)四X和身體本身就是不可分割的，本身就是從小到大我們同時去發(fā)育起來的，所以我們也是秉承這個觀點，我們認為機器人的軟件和硬件也需要協(xié)同發(fā)展。

\t主持人：不只是腿的變化，其他的物件，能動的桌子、椅子也是一種具身智能。接下來我問第二輪問題，人形機器人現(xiàn)在很熱，很多人關心，有這種表演等等，大家都去看。但是不同的人看人形機器人他的角度不一樣。請各位聊聊，人形機器人怎么看門道，它的技術含量到底體現(xiàn)在哪兒？如果我們?nèi)ヒ粋€展會看到人形機器人你到底看哪個位置，會說這個東西有技術含量很大？

\t陳建宇：如果我們非常粗略的把人形機器人技術分成三大塊，就是大腦、小腦和本體。相對來說，這里面最關鍵的，我個人認為是小腦的層面，因為它是最基礎的一個部分。如果只有一個本體和一個大腦，缺了小腦的話，只能成為會思考的一堆爛鐵。所以，它是承接大腦的你的思考、你的規(guī)劃，并調(diào)用我們這個硬件本體，真正能幫助我們到這個世界里面干活的。

\t而同時我個人認為，相比于其他幾個部分，現(xiàn)在人形機器人的小腦部分，反而是最薄弱的，同時也是技術的不確定性最高的，最沒有收斂的。雖然本體核心硬件的做法也非常難，但是我們可以借鑒很多產(chǎn)業(yè)，包括工業(yè)機器人、電動車的產(chǎn)業(yè)。受益于大語言模型，大腦的技術相對來說還挺強大的。但是對于小腦來說，我們發(fā)現(xiàn)大部分的機器人現(xiàn)在還是用的十幾年前、甚至幾十年前的工業(yè)機器人或者掃地機這一類的技術來去做。所以，這是局限的一個關鍵。

\t我們希望人形機器人的小腦，使它的雙腿能夠像人一樣的又穩(wěn)又快又靈活，能夠幫助我們到達任何地方，我們希望它的雙手能夠幫助我們上的廳堂、下的廚房、進得工廠，什么都能夠去干，做非常靈巧的事情，這是我們希望的，但是現(xiàn)在其實沒達到。

\t回答剛才的問題，怎么去鑒別？我們會看到各種各樣的一些demo存在。我覺得鑒別的點是，不管是行走還是操作有沒有達到一個真正的泛化性？比如說在演示的過程中，你就給它搗亂，走的時候突然去踹一腳，突然給它下面擺很多不平的東西。然后它做操作抓取的時候，突然把這個東西給拿開，或者給它搗一些亂。你看它還能不能很穩(wěn)定的、很智能的去適應、去完成。

\t主持人：我擔心您說完之后，大家把線頭拉上了。王鶴老師，您怎么看？

\t王鶴：銀河通用目前最關心的是機器人上半身的“手眼腦”協(xié)調(diào)，這里有大腦、有小腦、有對本體的控制。首先是我們的泛化抓取技術，這項技術可以明了地展示何謂具身智能。泛化的意思是不管給我透明的、高光的、吸光的，各種材質(zhì)，任意擺放的物體，機器人都能抓。此外，像抱箱子、拿藥盒，是完全靠視覺引導的泛化，貨架、地面等等都沒有任何二維碼或者標記，跟我們?nèi)祟愐粯�，都是看圖去理解。談到跟大腦耦合，那就是我們說一句話，機器人直接零代碼部署。第一次見過這個任務，機器人就能夠操作，包括我們現(xiàn)在最前沿的技術，端到端的大模型。（屏幕上展示的）是我們在用宇樹的四足機器人去訓練和測試導航能力，我們說一句話，在完全沒見過的環(huán)境中，機器人就能夠沿著我們的命令不見圖的、只用視頻作為輸入按照指令行走。

\t所以，我認為人形機器人的技術含金量可以從這兩個地方總結：一是它的泛化性到底有多強，是不是通向未來真正的通用；二是它能不能跟人之間能夠用自然語言來溝通，然后實現(xiàn)零代碼的部署。

\t主持人：不止能干活，還能交流，興興怎么看，你主要看哪個位置？

\t王興興：對人形機器人，大家還是希望有一個AI模型，無論是運動、操作都能做。當下，基本上大家分開的會多一些。比如說對于全身運動的話，我個人希望到明年，機器人能做非常復雜的全身運動表演之類的事情。當然，我們現(xiàn)在也做了一部分，但目前大部分動作還是單個做訓練的，不是全連在一起，而且每次訓練還是挺花時間和花人力的。如果能有一套全面的，比如說能做全身運動，只要給它看個視頻，或者做一個簡單的演示，它完全能學會一個動作，這樣對于表演這個事情，就會有天翻地覆的變化。

\t另外，希望有更好的操作能力。比如操作一些簡單桌面的整理，或者做一些復雜的生產(chǎn)裝備，或者相對來說設計更復雜的推理事情，操作能力有更強的提升，或者真正解決生活中手臂操作相關的事情，都是非常有價值的。目前這兩部分，大家都已經(jīng)取得了一定的進步，但離真正比較泛用性的還有一些距離。舉個例子，你把一個機器人拉到它以前沒有見到的場景，你只要簡單演示一下怎么操作，它就可以很自然地，或者自我強化地做好了，我覺得這是非常有價值的。

\t主持人：如果你看到一個機器人，第一眼看哪個，眼光落到哪里？

\t王興興：都可以看一下，個人的審美不太一樣！

\t主持人：張巍覺得呢？

\t張�。嚎礄C器人門道，和幾位嘉賓一樣，就看兩個關鍵詞：泛化、通用，這是本次變革最關鍵的兩個詞。具體看哪兒，看腦還是手，我提供一個角度，咱們先看腿。因為人形機器人之所以是一個新的物種，它不是一個傳統(tǒng)機械臂公司的延續(xù)，它的本質(zhì)就是要長出兩條腿來，我覺得腿是機器人有通用能力的基�？赐瓤词裁茨�？主要看兩點：一個是腿有沒有完成本職的工作，地形的泛化能力；二是看它能否支撐雙臂完成全身協(xié)同通用的操作，這也是腿存在的重要價值。

\t我們的視頻大家看到這個小的雙足機器人，它是沒有腳掌的，相當于人踩著高蹺，其實是很難平衡的，是我們用來測試AI算法能力的。大家可以看到機器人地形上適應能力和泛化能力基本達到了類人的能力，我個人踩著高蹺在山里，你推我一把，我估計也會摔倒，這方面算是一個比較重要的進展。

\t另外，它在一定負載4公斤前提下全身協(xié)同的操作，這樣的展示，尤其有負載的情況下相對比較少的。主要是雙腿既要保持自身的平衡，同時要四肢協(xié)同發(fā)力來完成這樣大負載的操作。過程中還要動態(tài)通過腿，全身協(xié)調(diào)來調(diào)整重心，有一定的挑戰(zhàn)性。但這樣全身協(xié)同的操作任務，我覺得是區(qū)分人形機器人和固定雙臂機器人最重要的區(qū)別，也是我們比較關注的技術點。

\t主持人：我總結一下，幾位看法有一定一致性。

一，它不能認生，它去別的地方就認生，“社恐”這個事就不行，它必須是E型人格。

二，雙手和雙腳，四肢的作用很重要，移動和操作的控制是非常重要的兩個觀察切入點。

接下來，我們已經(jīng)討論完技術的點，大家肯定很關心干活問題，因為之前兩輪討論時也提及到了，機器人到底什么時候能干活？干活指的是進工廠，或者在商業(yè)場景，我們進家門了。我想請幾位專家聊一聊，從你們眼中看，人形機器人干活的時間線是怎樣的？馬斯克很樂觀，馬斯克說大概2-3代以后100萬臺出貨量，可能很多人會購買，你們有沒有一個時間點？因為這是一個公眾場合，我希望大家說的具體一點，無論對和錯，以后我們做媒體都有稿子寫了。

\t陳建宇：我覺得這個應用，包括落地也需要準確的定義，如果不是特別嚴苛的定義，不管是工業(yè)還是商用，甚至是家用，可能在一兩年時間就能初步簡單工作。根據(jù)羅杰斯創(chuàng)新擴散的模型，任何產(chǎn)業(yè)都有早期的使用者，他愿意去嘗試、試錯，在產(chǎn)品還沒有特別完善的時候。我相信這兩年你們會看到各個行業(yè)會有早期的試用者。

如果真的大規(guī)模應用的話，進入家庭，它一定相對來說需要比較長的時間。因為對家庭來說，它是一個沒有邊界的泛化要求。從大規(guī)模應用發(fā)展一定是工業(yè)這種場景會更先進一些，因為它是有邊界的，可以人為制定一些規(guī)則，包括一些標準場景是怎么樣的，你可以人為去控制它。在最終的機器人ChatGPT，或者它的“圖靈時刻”還沒有到來之前，我們能逐步應用起來。

同時第二個難點，對工業(yè)場景的話，你可以把它和人隔開，并且它做的事情相對比較固定一些，小腦取得一定進展之后，它就可以用起來了。在工廠里干活不需要工人必須會做數(shù)學題，他能干這道工序就可以了，但對人來說，它的要求就會高很多，同時也會引來安全性的問題。

王鶴：今天在云棲大會的現(xiàn)場，我們銀河通用的機器人也展示了在零售場景的億應用，我剛剛看到同事給我們發(fā)來的圖片，有10米的長隊，觀眾在我們ipad端下單，銀河通用的GALBOT的通用機器人就給大家從貨架上拿你想要的東西遞給觀眾。像這樣的零售場景，主要是抓取和放置的東西，現(xiàn)在的技術已經(jīng)達到了產(chǎn)業(yè)化的邊界。我們預測，從明年開始將會是商用的元年。5年，我們的目標是在零售和車廠的抱箱子達到1萬臺；10年，我認為安全性可以達到家庭標準；15年，我預計可能會產(chǎn)生千萬乃至大千萬級別的市常

\t王興興：我個人其實還是相對比較樂觀的，我覺得到明年，在一些公益場景，或者在固定場景做一些有商業(yè)價值的落地應用，像銀河通用這邊，基本上問題不大。我個人還是相對樂觀，我覺得3年左右，至少全球范圍內(nèi)大概率會出現(xiàn)通用型的機器人AI。因為跟過去10年不一樣，現(xiàn)在整個機器人AI的人才、資金都是幾百倍甚至上千倍的巨量投入，所以整個時間進展會比較快。5年左右，可能會發(fā)生天翻地覆的變化。

\t張�。何矣X得幾位嘉賓都預測得非常好，我就不預測準確的時間點，我談談落地過程中的一些思考，我補充一下。

\t首先這個賽道，我認為用時間衡量它是比較難的一件事情，我管這個賽道的產(chǎn)業(yè)發(fā)展叫“事件驅(qū)動”，它更關鍵看AI技術的關鍵開關什么時候能找到，而不是用具體時間衡量它。

\t我也是相對樂觀，只不過我們要避免過早做商業(yè)化。比如在大模型ChatGPT2.0、3.0的時候你要做一個超級應用，肯定要打一堆補叮因為上一代人工智能和機器人落地過程中也遇到了很多挑戰(zhàn)，大家都調(diào)侃“人工智能等于智能不夠靠人工”，所以增加了部署和售后的很多成本，最終商業(yè)邏輯還是挺難跑通。所以我覺得不用太用時間衡量，關鍵是看技術的開關。

\t主持人：說到這兒，我再補充最后一輪問題，就是關于大模型和機器人之間的關系。大模型這個技術和背后的體系對于人形機器人的發(fā)展起到了什么樣的影響？

\t張�。悍浅４蟆Ｒ驗槲矣X得機器人這一波的發(fā)展不是它自我革命，就是Agent發(fā)展所帶來的，所以發(fā)展是靠大模型技術和大模型技術背后的技術。

我說一個背后的思考，不說具體的應用。我覺得這幾年由于受到大模型技術的啟發(fā)，機器人領域的發(fā)展也經(jīng)歷了從“規(guī)則驅(qū)動”到“算法驅(qū)動”再到“數(shù)據(jù)驅(qū)動”的跳變。以前可能看你有什么算法，然后根據(jù)算法的需求來收數(shù)據(jù)、來解決問題�，F(xiàn)在的思維變了，我們首先要看你有什么數(shù)據(jù)、你有多少量的數(shù)據(jù)，然后你獲取新數(shù)據(jù)的方式和成本是怎么樣的，這些數(shù)據(jù)的quality分布是什么樣的，這就直接決定了你采用什么樣的算法做訓練，甚至也決定了你的訓練。所以我們公司有一個口號叫“軟件定義硬件，但數(shù)據(jù)定義軟件”，這是我們的思路。

\t王興興：我一直感覺通用機器人尤其通用人形機器人算是目前大模型最好的落地載體，它其實可以解決大模型目前落地場景的問題，所以我覺得兩個是非常好的組合關系。

\t王鶴：我覺得現(xiàn)在的通用機器人，我們雖然有一些技能，但幾乎都是分立的一些小模型。所以大模型賦能這些技能有幾步：第一步是大模型可以作為一個Agent來調(diào)用這些API進行長程的任務規(guī)劃，第二步是大模型可以作為一個Monitor，它看小模型執(zhí)行過程中有沒有出任何錯誤，及時去終止或者調(diào)用別的技能來挽救這些錯誤，比如藥盒掉到地上了，它立馬說“你得給它撿起來”；第三步則是最有想象力的端到端，Vision、Language、Action，把動作作為大模型輸出的模態(tài)，像自動駕駛一樣，我們實現(xiàn)一個把通用感知、通用規(guī)劃或通用執(zhí)行融為一體的大模型。

\t陳建宇：我認為大模型帶給我們最重要的啟發(fā)，就是告訴我們Scaling Law的存在。大家都說通用機器人，必須要有它所匹配的通用智能，所以大模型啟發(fā)我們?nèi)ニ伎�，包括引導我們�(nèi)ニ伎荚趺礃尤プ鰴C器人的Scaling Law。同時，它也帶給我們一些語言模型領域的技術，比如說Transformer的架構，比如說Predict next Token的算法技術，包括你怎么Scaling這樣的數(shù)據(jù)和這樣的算力。當然這些也還是不夠的，畢竟我們的機器人需要在物理世界去交互、去做事情，去理解整個物理世界。所以在算法，模型、數(shù)據(jù)層面，都有很多不同需要我們探索。

\t主持人：剛剛您談到算力和數(shù)據(jù)，我想追問一個問題�，F(xiàn)在合成的、網(wǎng)絡的、仿真數(shù)據(jù)的比例是什么情況？算力的匹配是怎樣的，是云端還是本地的？

\t陳建宇：現(xiàn)在應該還沒有數(shù)據(jù)的比例，其實還沒有達到一個完全收斂的狀態(tài)、固定一定是多少的比例。比如以我們來說，我們是根據(jù)機器人的特性。比如我們的運動、控制、行走的數(shù)據(jù)，我們幾乎是純粹的仿真里面的數(shù)據(jù)。但是我們對操作來說，我們目前又幾乎是純粹的真實世界獲取的數(shù)據(jù)，這是根據(jù)它的仿真難度、數(shù)據(jù)獲取的難度，以及你的算法所匹配的程度來定的，未來可能會有一些改變。

\t主持人：算力在云端還是本地，這個分配是什么樣的？

\t陳建宇：我認為這個跟大模型不一樣，大模型的算力可以完全在云端，但是對于機器人來說，你必須要有本地的算力。因為它對延時或者斷網(wǎng)零容忍，會對物理世界造成嚴重的影響。所以說大體一分的話，如果你分大腦和小腦，簡單一分，小腦在本地，大腦在云端。

\t主持人：是云端協(xié)同的設計。我們最后還有1分鐘時間，大家覺得人形機器人能變成真假難分嗎？

\t陳建宇：能。

\t王鶴：一定能。

\t王興興：能。

\t張巍：一定和必須能。