當前位置：人工智能實驗室> 機器人 > 大模型+機器人，發(fā)展到什么階段了？

大模型+機器人，發(fā)展到什么階段了？
來源：互聯網發(fā)布日期：2023-07-18 09:44:54 瀏覽：18693次

導讀：本文整理自險峰主題沙龍《AI浪潮下：機器人領域新機遇》，主持：鄧卓兵，嘉賓：楊健勃、邵天蘭、弭寶瞳、李宇浩、許華、曾祥永、謝思為、董豪，原文標題：《現實與夢想：聊聊AI與機器人》，頭圖來自：視覺中國一、大模型+機器人發(fā)展到了什么階段？如何看待...

本文整理自險峰主題沙龍《AI浪潮下：機器人領域新機遇》，主持：鄧卓兵，嘉賓：楊健勃、邵天蘭、弭寶瞳、李宇浩、許華、曾祥永、謝思為、董豪，原文標題：《現實與夢想：聊聊AI與機器人》，頭圖來自：視覺中國

一、大模型+機器人發(fā)展到了什么階段？如何看待未來的趨勢？

嘉賓A：首先，大模型+機器人還處于非常早的技術探索期，一個很明顯的特征就是技術路線還沒開始收斂。

比如深度學習，2012年它剛登場時，和今天大模型一樣驚艷，直接把圖像識別準確率提升到了90%多，2015年又出現了Alpha GO，直到2018、19年，深度學習才逐漸收斂，最直觀的反映就是高引論文開始沒那么多了。

因為早期大家還在嘗試不同路線，到后面慢慢形成共識，彼此的東西越做越像，模型結構上也就不會再有大的質變。目前大模型還遠沒到這個階段，微軟谷歌英偉達，彼此之間甚至連任務定義還都不一樣。

第二是算力算法的進步速度。舉個例子，2012年時，你用電腦跑一個5億參數的模型（在今天看起來都屬于小模型），動輒也要跑半個小時；但現在你用最常見的因特爾CPU，跑5億參數只需要零點幾秒，甚至不需要掛AI芯片，也幾乎沒有成本。

所以，我們今天看大模型創(chuàng)業(yè)，需要多少個GPU，一算賬要好多錢，就覺得這件事干不了，但10年之后再看，這些可能都不是問題。現在英偉達等巨頭都在算力方面發(fā)力，對此我還是比較有信心的。

第三是大模型+機器人還遠未形成固定的產品形態(tài)。

我們看人類歷史，機械的進步=控制力的進步：比如第一次工業(yè)革命，誕生了氣缸這樣的基礎組件；到第二次工業(yè)革命，有了基礎控制和自動化，人類開始能夠通過機械操控機械；到計算機革命時代，有了PLC（可編程控制器），開始用電腦控制機械，再后來，我們用3D視覺AI控制機械，到現在用大模型控制機械。

可以看到，每個時代之間不是替代關系，而是補充關系：不是說有了計算機，機械控制就沒用了，而是通過計算機對機械控制賦能，讓機械有了更強的能力，由此誕生出了更多的產品形態(tài)。

大模型也是一樣，機器人進化和人類進化很類似：首先，機器人要能站得穩(wěn)，能走直線，不會摔倒對應到人腦，就是小腦部分要解決的問題；后來慢慢發(fā)展出了語音識別、圖像識別，這時已經對應到了大腦中某個特定區(qū)域；到現在大模型出來之后，相當于進化到了前額葉的部分，AI也開始能具備一些“基本智力”。

所以，未來我們比較看好AI的三個方向：

1、根據常識處理異常：比如說自動駕駛，現在AI已經可以做到識別障礙物，但是如果路邊有人舉個牌，說前方橋斷請繞行，AI能不能明白這些字的含義？再比如路上看到交警向你打手勢，AI能不能根據常識，知道自己要靠邊停車？

2、高層次抽象任務：比如說我和機器人說，“請把這個房間收拾一下”，再比如在倉庫場景中說，“請按清單打包發(fā)貨”，這些都屬于高層次抽象任務它不是一個單獨的指令，而是要向下拆解成很多子任務和子指令。

3、主動感知：比如我讓AI從冰箱里拿瓶水，打開冰箱后如果沒看見水，機器就會停在這一步，但如果是人就知道再翻一下，看看水是不是放在最里面了？

以上種種這些，過去的AI還都做不到，但大模型很可能會實現。舉個例子，現在微軟使用GPT的技術，已經可以做到簡單的抽象任務，比如你和機器人說“把飯熱一下”，它知道要去找微波爐。

換句話說，現在已經可以通過語言模型，讓機器人在熱飯和微波爐之間建立聯系AI知道要找到微波爐，打開，把飯放進去。

包括谷歌、英偉達也都開始嘗試，在大語言模型上加入跨模態(tài)和機器人操作，這方面網上的視頻資料很多，也非常震撼，大家感興趣可以找來看看。

二、大模型為機器人帶來了哪些通用能力？有什么是值得我們憧憬的？

險峰：過去機器人更像一種專用設備，各種能力要依賴于工程師寫代碼，但大模型出現后，AI出現了泛化能力，GPT已經成功顛覆傳統(tǒng)軟件行業(yè)，那我們該如何憧憬大模型對機器人帶來的影響？

嘉賓B：機器人雖然帶了個“人”字，但它依然還是一個效率提升的工具，既然是工具就要分場景、分功能，比如天上用的和地下用的，室內用的和室外用的機器人肯定不一樣。

所以，我認為很難出現一個可供所有機器人使用的統(tǒng)一大模型。更可能是不同專業(yè)公司，根據不同場景，搭建出一個個垂直大模型，再與機器人做深入的結合。

嘉賓C：我覺得帶來的改變主要有三個方向：

第一是效率提升，比如高空擦玻璃，這個行業(yè)過去三五年最大的變化，是慢慢把高空工人替換成了機器人，因此效率提高了3-6倍，同時還收集了大量工藝參數，但這些參數還是要靠人做數據分析，如果可以通過大模型進行泛化，效率還會進一步提升。

第二是場景感知。舉個例子，一塊玻璃有沒有洗干凈，過去很難判斷，因為戶外場景下，光線環(huán)境非常復雜，不管是雷達、超聲都不好使，只能靠人為判定，如果大模型可以讓機器有了人的感知能力，自主判斷一塊玻璃是否達到了物業(yè)驗收標準，就能進一步提效。

第三是產品設計。過去要做一款機器人產品，第一步先要訪談大量客戶，梳理需求，形成產品洞見，一個產品成敗50%取決于產品定義的方向選擇，大家如果創(chuàng)過業(yè)應該都知道，寫PRMID非常耗時，但現在可以借助大模型實現創(chuàng)新，比如把一部分工作交給GPT去解決。

嘉賓D：我們是做2C服務類機器人的，其實站在客戶的視角，他不管你具體做的什么機器人，他的認知就你這東西能不能替代我一個人工？能不能夠減員增效？但坦白講現在的機器人很難實現1對1替代。

機器人拆開就四件事：感知、決策、控制、交互，現在這四件事機器都沒辦法做得像人，核心原因還是智能化水平不夠。一年前我們還認為，沒有任何方法能解決這些問題，但突然GPT出現了，現在我們也在嘗試用它開發(fā)新的產品線。

但我認為至少5年內，還很難出現人形的大模型機器人，從我掌握的知識背景來看，挑戰(zhàn)有點過大，如果大家對大模型機器人的憧憬是變形金剛或者高達，那可能還需要等很多年。

嘉賓E：大模型首先要有大數據，比如訓練ChatGPT，用的是網上的文本文字，但是訓練機器人，往往要用3D數據，網上沒有現成的，只能靠人工采集，效率很低，所以之前我們看到一些機器人公司，采了半年的數據，訓練的模型還是只能在局部環(huán)境里使用。

未來，大模型可能會不一樣，比如可以在虛擬環(huán)境里訓練AI，然后更高效地匹配真實世界；或者直接利用2D數據訓練3D機器人，比如剛才主持人提到的，給機器人看人類搬東西的視頻，慢慢機器人也學會了搬東西，這兩種方法未來都有可能成功。

對于通用大模型機器人，我還是比較樂觀的。我們說最簡單的智能機器人其實是無人機，能跟隨你拍照，但和周圍環(huán)境還沒有太多互動；后面出現了自動駕駛，AI開始和地面環(huán)境做交互；再后來有了機械臂，開始和真實世界直接物理接觸。

整個過程中，難度其實是不斷上升的，所以我覺得等自動駕駛完全成熟以后，通用型機器人就會慢慢出現，因為整條技術路線是相通的，可以慢慢遷移過去。

三、大模型給機器人交互方式帶來哪些變化？

險峰：剛才大家談了機器人如何感知、理解和執(zhí)行任務，如果有一天大模型機器人具備了很超前的智力，在交互方式上會怎么變化？

嘉賓F：用戶對于家用機器人可能會有期待，希望交互更順暢、更智能，但我們做工業(yè)機器人的還沒有迫切需求。工業(yè)場景中，語音交互一直也不是主流，大家還是更習慣用操作桿和遙控器；所以未來，VR+手勢可能會是比較好的方向。

嘉賓G：我們做服務機器人的，交互方案已經很結構化了，就是給客戶提供一個用起來很爽的pad但我們也發(fā)現，客戶仍然會不滿足，因為服務行業(yè)普遍教育程度不是很高，他們不希望有任何學習成本，所以我認為，基于自然語言交互的服務型機器人一定會有需求。

嘉賓H：交互可以分成兩類，一是機器與人的交互，二是機器與環(huán)境的交互。

人的交互，其實不只是和機器人，應該叫智能硬件+大模型，比如小愛或者小度，你告訴它把房間燈關了，有時不一定能真的關上，但有了大模型，它可以通過光線感知到燈到底有沒有關。

另一個是多語言能力，比如之前只能和它用中文交流，現在可以多種語言切換，直接賣給海外客戶，也不需要重建新的數據集。

還有就是陪伴和情感需求，特別是海外用戶，比如英國一家做人形機器人的公司叫AMECA，大家可以搜搜它們的產品，已經有點恐怖谷效應了，未來機器人接入大模型后，對于需要情感陪伴的人可能是個好消息，尤其是老年人。

（圖：AMECA機器人）

至于機器與環(huán)境的交互，我覺得核心競爭力還是要收集到每個細分場景的小模型。

舉個例子，特斯拉要用人形機器人造車，就先要收集每個工藝環(huán)節(jié)的數據，比如把一塊擋風玻璃安在車身上，機器人具體需要調動哪些“關節(jié)”和“肌肉”，如何判斷安裝的位置在哪，這是一整套非常專精的小模型。

現在國內也有公司在做類似的事情，用大模型底座調度生成自己的小模型，目前這條路看起來是走得通的。

嘉賓J：我認為人機交互方式越簡單越好，以前我也用過很多智能家居，但是用到最后我寧愿不用，還是普通開關更方便。

其實最好的交互就是沒有交互，比如我拿著一個大箱子往前走，機器人能知道要幫我開門，或者接過來幫我拿；我吃完飯走了，機器人知道應該要收拾餐具，類似于這些對人類意圖的識別，如果大模型機器人具備了高級智力，或許更值得期待。

四、大模型能否解決機器人數據收集難、生成難的問題？

險峰：剛才很多嘉賓都提到，機器人訓練數據“收集難、生成難”，大家如何看大模型對機器人數據的影響？會有哪些新的變化？

嘉賓K：目前我們的做法還是：前段靠仿真，中段靠真實作業(yè)效果，最后由人來做評估修正；我覺得不只是我們，現在很多工業(yè)場景里機器人的工作方式，在工藝層面已經和用人工完全不一樣了，很難單純地遷移過來，不是說看看人類的錄像就能解決的。

嘉賓L：我覺得做通用人形機器人，收集數據可能沒有那么難，我們內部討論過，包括OpenAI的CTO也講過類似的邏輯，就是人身上能收集到的數據密度其實挺高的，比如你給1萬個人帶上傳感器，跑上一年所有數據都有了。

這件事本身不難，主要還是商業(yè)倫理的問題，但我覺得還是錢的問題，比如你給10萬人裝傳感器，一人一年給10萬美金，總會有人愿意，這個數據量也完全夠用了。

嘉賓M：我展開講講數據收集，目前主要有三條技術路線：

一是收集動作庫：它比較適合于生產流水線每個工位上的動作不會有太大變化，但需要多次重復的任務；它的優(yōu)點是只需要訓練一次，后面機器人就不需要做大調整，但缺點是非常耗時。

比如PaLM-E，效果確實非常好，但為了訓練它，谷歌用了13臺機器人，收集了17個月數據，一共收集了5620億個參數，而這還只是家用機器人，只需要一個底盤+一條機械臂+攝像頭，如果是用在工業(yè)流水線上，采集的時間和數據量都是要翻倍的。

（圖：谷歌的PaLM-E機器人）

第二條路線叫遙操作，也就是特斯拉正在做的：給人戴上VR和觸覺傳感器，把整套傳感數據投射到機器人身上，直接告訴機器人如何像人一樣運動。

比如騰訊做的四足機器狗，研究人員在一條金毛身上裝了一套的動捕設備，再將收集到的數據抽象壓縮到神經網絡模型中；以前的機器狗動作極其僵硬，但用了金毛數據后的機器狗就變得非常靈活。

第三條路徑叫模仿學習，就是人直接在機器人面前演示一遍，機器人就學會了。比如家政或者保潔工作，我打開洗衣機把東西放進去，只需要教一遍，不需要采集數據，也不需要動捕。

這個事情可能大家聽起來比較科幻，但像CMU、MIT都已經發(fā)過不少論文，盡管還沒有看到這個技術直接用在哪個場景上，但如果未來能實現，會是非常顛覆性的事情。

總之，目前每條技術路徑上，都有很多公司或高校在嘗試，最后很可能是幾條路線混合在一起，發(fā)展出一套最適配的AI+機器人解決方案。所以這段時間，我們一直在密切關注各大科研機構的論文，還有特斯拉、DeepMind做了哪些新工作，有哪些是可以被國內公司借鑒學習的。

嘉賓N：討論這個話題之前，我們首先要搞清楚，收集數據的目的是什么？比如讓一只金毛跑來跑去，當然可以收集到數據，但這個數據只能讓機械狗動作更自然，而不能讓機械狗學會做某件事情。

如果要機器學習的話，那對數據質量的要求就高多了，這個時候又有一個大問題，就是數據采集的成本是很高的，但不同型號機器人之間的數據并不通用。

舉個例子，你好不容易訓練好一個型號的機器人，但你的硬件總要升級迭代，假設到下一個型號里，機器人要換一種新的電機，那之前的數據等于就全廢了，所以我們最近也在跟斯坦福合作，研究怎么讓收集的數據和機器人型號是無關的，無關就可以讓數據永遠有效。

此外，遙操作的另一個問題是ROI太低了，工廠場景+固定工位還可以，但要實現通用基本不可能。所以，現在行業(yè)里大部分人還是采用虛擬訓練的策略，因為虛擬環(huán)境下，物體可以隨便生成，成本也非常低。

舉個例子，比如疊衣服，先讓機器在虛擬環(huán)境里疊各種形狀的衣服，成功率可以到90%，然后放到真實環(huán)境里疊，成功率可能直接就降到5%了，但這已經足夠了。

因為有了5%的成功率，AI就可以自己采集成功的軌跡數據，只要有5%作為起步，明天就能到10%，后天50%，再過幾天100%，這樣采集的ROI就特別好，不用人去干預，所以本質上，數據是用算力換的，而不是用人工換的。

五、大模型+機器人會有哪些應用場景？創(chuàng)業(yè)門檻有多高？

嘉賓P：我個人比較看好工業(yè)實踐中應用，我們說自動化做了這么多年，到今天還是冰山一角，還有非常大的發(fā)展空間，原因是過去自動化的非標程度太高了。

舉個例子，假設你是個自動化專業(yè)的學生，大學4年出來，可能連每種導軌、電機的型號都還認不全，不是你學得不好，是種類實在太多了。而這么多硬件組合在一起，會導致一個問題，就是讓自動化過于依賴規(guī)模生產和工藝穩(wěn)定。

比如說薯片，這個品類的自動化水平非常高，因為這么多年來，薯片除了口味，從外觀到包材幾乎沒有變化；在過去，也只有這種大規(guī)模+長時間的連續(xù)生產，才能誕生出高自動化水平的設備。

但問題是，絕大部分行業(yè)的迭代周期遠沒有薯片長。

比如說汽車，以前汽車是機器人大規(guī)模應用的代表，這個行業(yè)的特點就是高投入+長周期，一款車光調試產線就要一年半，然后可以持續(xù)賣10年；但現在行業(yè)越來越卷，生產周期越來越快，一款車一共可能只能賣一年半，就要推新產品上市。

過去中國機器人行業(yè)十年漲了十幾倍，但這期間汽車行業(yè)一直是下行的，此消彼長，傳統(tǒng)主機廠那套高投入的玩法注定是無法持續(xù)的，這就需要更高柔性的自動化。

馬斯克意識到了這點，所以他才認為人形機器人是終極解決方案類似于把擰螺絲這種工作高度標準化、智能化，然后快速部署，這里用完了可以馬上到別的地方用。

不過，開發(fā)人形機器人的難度也很大，并不是短時間內可以做出來的，但是這個過程中會產生很多技術，比如移動、抓娶視覺感知等等，結合大模型會有很多新技術的產出，由此也會誕生出新的產品，創(chuàng)造新的價值。

而當有一天，這些技術最終組合在一起，那時候人類可能就要擔心一下了。

最后講講我對這件事的判斷，首先大模型+機器人是非常重大的機會，如果你能做出很好的產品，后面的競爭者再進來會特別難受，產業(yè)形成閉環(huán)后門檻也會非常高。

但同時，這個行業(yè)對于人才、技術和資金的需求也非�？植�，參與者要么是不差錢的科技巨頭（比如谷歌微軟），要么是頭部的創(chuàng)業(yè)公司，當然還有傳統(tǒng)工業(yè)巨頭和高校研究所。

總之這個事情和以前的創(chuàng)業(yè)不太一樣：互聯網時代做個APP，可能幾個人就夠了，所以那時候我們能聽到很多個人英雄主義的故事，但現在小公司可能電費都付不起。

從這個角度說，大模型+機器人是一個人類最高科技的集大成者，創(chuàng)業(yè)者要跑出來非常困難，當然，一旦成功，它能產生的價值也是非常巨大的，會把人類的自動化程度帶到一個全新的高度。

六、大模型機器人距離落地還有哪些障礙？

險峰：剛才大家談的都是大模型的積極影響，那么大模型會給機器人帶來哪些額外問題？這件事距離最終落地還有哪些潛在的障礙？

嘉賓Q：首先大模型不可能部署在端側，至少3-5年內絕無可能，所以現在大家都是端+云的模式，那對我們來說，第一個難點就是端+云的結構怎么搭？我覺得比較好的解決方案，是在端側做一個動態(tài)的小模型，可以實現一些基礎的現場交互，大模型的部分放在云端，當然這是個技術問題。

由此帶來的第二個問題就是信號丟失，一旦沒信號，機器人就只剩端側智能了，我都接收不到信號我怎么控制它？只能保證最基礎的讓它不要撞到人；另外信號延遲也是問題，人機做交互延最怕延遲，所以我覺得，機器人通用大模型部署絕對不是一家公司的事，需要大家一起建設整個網絡，這個模型我們自己肯定做不出來，但如果meta做出來我們馬上會用。

嘉賓R：我覺得最大的障礙還是安全問題。把數據上傳到云端大模型，相信每家企業(yè)都會有顧慮，這其中的知識產權和數據安全都要打問號，所以我們最近也在嘗試，使用一些開源的小模型，疊加一些行業(yè)數據，打造一個垂直領域的專用模型。

這樣的好處是，如果客戶對數據安全要求特別高，我們可以直接把小模型部署在它指定的服務器上，只有如此，才能徹底消除客戶對數據安全的顧慮。

另外就是算力的瓶頸，作為一家機器人公司，我們不可能投入那么多的顯卡資源，我們最近也積極買卡，但要等好幾個月才能交貨。

嘉賓S：我覺得有三個問題，一是執(zhí)行速度：比如谷歌的PaLM-E，可以從抽屜里拿東西，但那個視頻是加了4倍速的，換言之，現實里機器人的動作只有視頻速度的1/4，這個速度在大部分場景都還不能替代人。

第二是執(zhí)行成功率：谷歌說他們用了大模型之后，把執(zhí)行成功率從60%提升到75%，甚至80%，作為家庭機器人已經夠用了，但要注意的是，這已經是當前大模型+機器人的最佳水平了，如果要用到更高精度的場景，比如半導體儀器的操作，或者給老人喂飯，要精確對準老人的嘴，后面還有很長的路要走。

第三是數據，谷歌PaLM-E主打家用場景，可以隨便收集數據，特斯拉有自己的工廠，也是想收就收，但如果未來一家機器人公司，想要進入一家車廠收集數據，它可以收集到什么程度？工人會不會配合？這個事情現在是無解的。

以我的了解，目前這些數據很難被帶出工廠，所以就看哪家機器人公司可以率先突破，比如和客戶建立比較好的信任關系，但這又帶來一個問題，就是A車廠的數據能不能拿給B車廠用？這些都是需要探索的。

嘉賓T：我也關注安全問題，但主要是指物理安全。開源的語言大模型，頂多是有偏見，它并不會傷害你，但如果大模型與機器人做結合，一些錯誤的理解可能會導致意外的連鎖反應，比如你讓機器人用烤箱做西餐，它卻做了中餐，結果打開燃氣意外失火等等。

現在很多人都在研究，如何在自然語言大模型中實現價值觀的對齊，這是一個研究熱點，但是在機器人領域還沒有人研究，當然可能是技術還沒發(fā)展到這個階段，也可能是要出現風險后才會有人去研究。

七、機器人公司的壁壘會如何變化？

險峰：目前人形機器人距離我們還比較遠，但從長遠趨勢看，機器人的智能化水平一直在穩(wěn)步提升。

特別是大模型出現后，機器人的構建邏輯、交互邏輯全都變了，未來機器人公司的壁壘、評價標準會如何變化？各位怎么看？

嘉賓V：長遠來看，一家大模型+機器人公司好不好，一個評估指標就是看它能不能突破新場景。

這么多年來，機器人要不是天上飛的，要不是地下跑的，已經被開發(fā)得差不多了，現在有了大模型，那一些以前機器人解決不了的場景，現在是不是可以被解決？另一方面，隨著一些新行業(yè)崛起，比如光伏、鋰電池這些產業(yè)鏈上，能否誕生機器人的新機會？這些是我們比較關注的。

此外，大模型可能帶來一些機器人形態(tài)和硬件的改變，比如電子皮膚，也就是觸覺傳感器可能會是個方向；還有軟體機器人，把機器人做成硅膠材質或者折紙結構的，可以自由伸縮，類似這樣一些“人無我有”的技術，也會是很好的壁壘。

嘉賓W：過去大家講SaaS，軟件即服務，如果機器人能實現規(guī)�；瘧�，下一個就會迎來RaaS時代（機器人即服務）。機器人本身只是一個載體，核心是為客戶提供服務，這里面就會有兩個壁壘：

一是把機器人本體做得穩(wěn)定、可靠，執(zhí)行成功率要足夠高，同時成本足夠低；二是規(guī)模服務化的能力，比如有成千上萬臺機器人同時在跑，后面你每增加一臺新機器，如何保證服務質量不下降？我覺得企業(yè)先要做到這兩點，才能談怎么與大模型做結合。

嘉賓X：機器人本質還是制造業(yè)，規(guī)�；a和服務能力是必需的，除了這些基本功以外，大模型技術最顛覆的還是為發(fā)明創(chuàng)造提供一種新工具，比如現在很多高校老師都在借助GPT搞科研，簡而言之，大模型是一種可以支撐發(fā)明的發(fā)明。

所以在機器人領域，大模型也可以幫助企業(yè)形成一些行業(yè)內的場景庫、任務庫、數據庫和工藝庫，這些會是企業(yè)構建垂直模型的核心壁壘，一旦你的產品體驗比對手好3-5倍，客戶就不會再給他們機會了。

嘉賓Y：現在人形機器人非�；穑冶救艘彩邱R斯克的粉絲，但我堅決不認為人形機器人會成為主流。

為什么機器一定要做成人的樣子？我自己就是產線工程師出身，從能耗角度講，流水線是最好的方式，輪子的能量利用效率比用腿高10倍以上，你做了一個人形機器人，放棄了傳送帶，改用腿或者四足去搬東西，這是一種技術的倒退，非�？尚�。

再比如你做個做飯機器人，它一定要長成人的樣子，在灶臺前拿個鏟子炒菜嗎？一家餐廳本來要招10個人，現在說不用了，咱們搞10個人形機器人吧，未來會是這樣嗎？一定不是，到時候餐廳一定是對整個后廚做全自動化改造，讓人不用進入后廚，就可以完成出餐；這背后的核心，是你如何理解這個場景中的任務，以及怎樣設計流程效率最高。

所以，最終絕大多數的機器人一定不是人形，對于某些工作，通用能力本身可能就是一種負擔，因為客戶付不起額外的成本我只需要的一兩種功能，你非要給我一個完整的人，那我為什么要為我用不到的功能買單？

嘉賓Z：人形確實是最難的機器人形態(tài)，雙臂+雙足+全身關節(jié)控制，要最后落地是個很長遠的事情，但我覺得現在投資人看好人形的邏輯是：誰能做好人形，誰就有可能做好其他的機器人形態(tài)。

一家公司，只要團隊足夠優(yōu)質，在它向著人形去努力的過程中，中間可能就有一些東西會跑出來，比如在中途突然發(fā)現一路岔路，沿著它最終做出一個好產品，這件事在互聯網時代已經反復印證了。

另一個思路，也是馬斯克的觀點，就是世間有沒有一種形態(tài)，是可以適應所有人類場景？完成所有人類工作的？

確實，現在很多很多標準化工序可以傳送帶解決，但要想實現通用性，可能最適應人類社會形態(tài)的還是人本身；所以，我還是比較篤信人形機器人的，未來能替代人的，最終還是一個長得像人的東西。