當(dāng)前位置：人工智能實(shí)驗(yàn)室> 機(jī)器人 > 全球首個(gè)OpenAI機(jī)器人誕生！Figure 01碾壓馬斯克擎天柱，10億機(jī)器人大軍正式啟動(dòng)

全球首個(gè)OpenAI機(jī)器人誕生！Figure 01碾壓馬斯克擎天柱，10億機(jī)器人大軍正式啟動(dòng)
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-03-18 08:58:33 瀏覽：8160次

導(dǎo)讀：新智元報(bào)道編輯：Aeneas 潤【新智元導(dǎo)讀】OpenAI上一筆融資不到八個(gè)月，F(xiàn)igure就來交卷了！這個(gè)機(jī)器人能說會(huì)動(dòng)，還能自主推理，給自己布置任務(wù)。最炸裂的是，它完全是自主行動(dòng)，沒有遠(yuǎn)程控制！1.0倍速的原視頻一出，網(wǎng)友們震驚了。世界上第一個(gè)「ChatGPT...

新智元報(bào)道

編輯：Aeneas 潤

【新智元導(dǎo)讀】OpenAI上一筆融資不到八個(gè)月，F(xiàn)igure就來交卷了！這個(gè)機(jī)器人能說會(huì)動(dòng)，還能自主推理，給自己布置任務(wù)。最炸裂的是，它完全是自主行動(dòng)，沒有遠(yuǎn)程控制！1.0倍速的原視頻一出，網(wǎng)友們震驚了。

世界上第一個(gè)「ChatGPT機(jī)器人」來了！

初創(chuàng)公司Figure聯(lián)合OpenAI，現(xiàn)在直接給LLM造了個(gè)身體（具體來說，它是個(gè)OpenAI訓(xùn)練的多模態(tài)大模型）。

半個(gè)月前剛獲得OpenAI等的6.75億美元融資，今天初創(chuàng)公司Figure就來交卷了，簡直神速。

這個(gè)名為Figure 01的機(jī)器人，充分展示了和人類以及環(huán)境交互的能力。它會(huì)說會(huì)看，還能給人類遞食物、撿垃圾、收拾碗筷。

不僅如此，它還能夠推理，自行識(shí)別、計(jì)劃和執(zhí)行有用的任務(wù)。

在這個(gè)過程中，由OpenAI提供視覺推理和語言理解，F(xiàn)igure 01的神經(jīng)網(wǎng)絡(luò)，會(huì)提供快速、低等級(jí)、靈巧的機(jī)器人動(dòng)作。

OpenAI和Figure Robotics放出的這段演示，瞬間震驚了網(wǎng)友：大模型和真實(shí)物理世界的距離，越來越近了！

此前Midjourney創(chuàng)始人預(yù)測：2040年，將會(huì)有10億機(jī)器人，2060年將有一百億，馬斯克表示同意

這段視頻可謂亮點(diǎn)滿滿。

首先，視頻是1.0倍原速拍攝的，而且是連續(xù)拍攝，跟之前那些為了表現(xiàn)流暢而加速的人形機(jī)器人演示不一樣。

其次，整個(gè)視頻只了一個(gè)端到端的神經(jīng)網(wǎng)絡(luò)。

并且，機(jī)器人背后，并沒有人在遠(yuǎn)程操作，所有動(dòng)作都是由機(jī)器人自行完成的！

現(xiàn)在，壓力給到了波士頓動(dòng)力和馬斯克的擎天柱這邊。

高能機(jī)器人，能說會(huì)看還能推理

視頻中的小哥問它：「Figure 01，你看到了什么？」

思索幾秒后，它張口說話了：「我看到桌子中間的盤子中，放了一只蘋果，瀝水架上有幾個(gè)盤子和一個(gè)杯子。我還看到你站在旁邊，你的手放在桌子上。」

小哥接著問：「我能吃點(diǎn)東西嗎？」

Figure 01回答：「當(dāng)然９然后抬起手，拿起一個(gè)蘋果遞給他。

下面，更高能的來了！

小哥直接把一堆垃圾嘩啦啦倒在Figure 1面前，然后問它，你能不能一邊給我解釋下剛才為什么會(huì)這么做的原因，一邊把這些垃圾收拾干凈呢？

Figure 01一邊有條不紊地把筐子拉到自己面前，把垃圾一個(gè)個(gè)撿進(jìn)筐子里，一邊回答道，「我給你蘋果，是因?yàn)檫@是我在桌上唯一看到的能吃的東西」。

接下來，小哥又向Figure 01發(fā)出了靈魂拷問：「根據(jù)你眼前所見的場景，你覺得你眼前的這些盤子應(yīng)該放到哪里呢？」

Figure 01自信滿滿地表示：像桌上這些盤子啊杯子啊，應(yīng)該放到旁邊的瀝水架上。

小哥表示，那你就幫忙放一下吧？五秒后，F(xiàn)igure 01抬起右手，用敏捷靈活的動(dòng)作，一個(gè)一個(gè)地把盤子和杯子放到了該放的地方。

最后，小哥還讓Figure 01給自己的表現(xiàn)來個(gè)復(fù)盤：「你覺得你表現(xiàn)得如何？」

Figure 01很滿意地說：「我覺得我做得很好，我把蘋果遞給了你，把垃圾丟掉了，桌上的東西也都放到了該放的地方�！�

小哥向它表示了感謝后，F(xiàn)igure 01甚至還伸開雙臂，聳了聳肩，表示有什么忙要幫的，歡迎隨時(shí)來找我。

網(wǎng)友炸鍋：科幻走進(jìn)現(xiàn)實(shí)了？

看到這一幕的網(wǎng)友們，紛紛表示驚嘆。

看起來，AGI可能在六個(gè)月內(nèi)就會(huì)到來了，甚至更短！

波士頓動(dòng)力只能再多編一些舞蹈花樣了，不然真的打不過。

這就是世界上第一個(gè)終結(jié)者？

有人表示，讓LLM機(jī)器人幫忙洗碗和打掃房子，就是最正確的事。不然總不能讓它們成天吟詩畫畫吧……

「Figure 1，在我出門時(shí)，請(qǐng)你幫我打掃房子、洗碗、遛狗，你可以看《終結(jié)者2》，但是不要產(chǎn)生任何瘋狂的想法，ok？」

如果對(duì)話再流暢一些，處理速度再快上100倍，那我們就會(huì)得到一個(gè)工作產(chǎn)品。

另外還有人吐槽了Figure 01的聲音，為啥搞得像一個(gè)50歲的吸煙人士……

Figure CEO則表示，機(jī)器人的聲音，是對(duì)文本轉(zhuǎn)語音的AI進(jìn)行了微調(diào)，還讓大家猜猜是誰。

這家機(jī)器人初創(chuàng)公司Figure，囊括了波士頓動(dòng)力、特斯拉、谷歌DeepMind和Archer Aviation的前員工。成立不到兩年，它已經(jīng)估值26億美元。

和OpenAI的首次合作亮相，就如此驚艷。

顯然，在機(jī)器人領(lǐng)域，人工智能時(shí)代才剛剛開始。

OpenAI的產(chǎn)品與合作副總裁Peter Welinder表示："我們一直計(jì)劃重返機(jī)器人領(lǐng)域，我們看到了與Figure合作的價(jià)值。我們想探索，在高性能的多模態(tài)模型驅(qū)動(dòng)下，人形機(jī)器人能實(shí)現(xiàn)什么樣的目標(biāo)�！�

如今，人形機(jī)器人再次引起了投資者興趣，因?yàn)榇竽Ｐ万?qū)動(dòng)的軟件，為機(jī)器人與人類的互動(dòng)提供了更多可能性。

特斯拉CEO馬斯克預(yù)測，在2040年，地球上將出現(xiàn)10億個(gè)人形機(jī)器人。

創(chuàng)始人親自下場解釋原理

話說回來，被看Figure 01的這些操作看似容易，背后可是滿滿的玄機(jī)。

Figure AI的創(chuàng)始人Corey Lynch親自在X解釋了Figure 01的工作原理。

Figure 01現(xiàn)在能夠做到：

- 描述它看到的一切情況

- 規(guī)劃未來的行動(dòng)

- 思考輸入的視覺和文字信息

- 語音輸出它的推理結(jié)果

放出的這個(gè)視頻中，所有的行為都是學(xué)習(xí)的（不是遠(yuǎn)程操作的），并且沒有加速播放。

如下圖所示，F(xiàn)igure AI用機(jī)器人攝像頭采集的視頻信息，加上麥克風(fēng)捕獲的語音中的文本轉(zhuǎn)錄到由OpenAI提供的多模態(tài)大模型中，理解圖像和文本。

模型能夠處理對(duì)話的完整記錄，包括之前的歷史視頻，得到語言響應(yīng)，然后通過文本到語音的方式傳回給人類。

同時(shí)模型還負(fù)責(zé)規(guī)劃機(jī)器人運(yùn)行哪些學(xué)習(xí)的閉環(huán)行為來完成給定的命令，將特定的神經(jīng)網(wǎng)絡(luò)權(quán)重加載到GPU上并執(zhí)行策略。

將Figure 01連接到完成預(yù)訓(xùn)練的多模態(tài)模型，為其提供了一些有趣的新功能。

Figure 01在OpenAI的大模型的加持下可以做到：

- 描述機(jī)器人周圍的環(huán)境；

- 決策時(shí)使用常識(shí)推理。比如，「餐桌上的盤子和杯子很可能之后要放到烘干架上」；

- 把「我餓了」這樣模棱兩可的高層次請(qǐng)求轉(zhuǎn)化為「遞給對(duì)方一個(gè)蘋果」等與具體情況相適應(yīng)的行為；

- 用通俗易懂的英語描述為什么它執(zhí)行某個(gè)特定的動(dòng)作。例如，「這是我能從餐桌上為你找到的唯一能吃的東西」。

理解對(duì)話內(nèi)容的大模型為Figure 01提供了強(qiáng)大的短期記憶。

比如，如果人類提出問題：「你能把它們放在那里嗎？」「它們」指的是什么？「那里」又在哪里？正確回答需要機(jī)器人擁有思考記憶的能力。

通過預(yù)訓(xùn)練的模型分析對(duì)話的圖像和文本歷史記錄，F(xiàn)igure 01可以快速形成并執(zhí)行規(guī)劃：

1）將杯子放在晾衣架上；

2）將盤子放在晾衣架上。

所有行為均由神經(jīng)網(wǎng)絡(luò)視覺運(yùn)動(dòng)Transformer進(jìn)行策略驅(qū)動(dòng)，將像素直接映射到動(dòng)作。

神經(jīng)網(wǎng)絡(luò)以10hz的頻率接收機(jī)器人拍到的圖像，并以200hz的頻率生成 24-DOF動(dòng)作（手腕姿勢和手指關(guān)節(jié)角度）。

這些動(dòng)作作為高速「錨點(diǎn)（setpoints）」，供更高速率的全身控制器跟蹤。

不同的部分各司其職：

- 云端的預(yù)訓(xùn)練模型對(duì)圖像和文本進(jìn)行常識(shí)推理，以得出高級(jí)規(guī)劃；

- 學(xué)習(xí)的視覺運(yùn)動(dòng)策略執(zhí)行規(guī)劃，執(zhí)行難以手動(dòng)指定的快速反應(yīng)行為，例如把一個(gè)袋子折疊成任何需要的形狀；

- 同時(shí)，全身控制器確保安全、穩(wěn)定的動(dòng)作。例如，保持平衡。

最后Corey Lynch強(qiáng)調(diào)，即使就在幾年前，業(yè)界都認(rèn)為人形機(jī)器人進(jìn)行規(guī)劃和執(zhí)行自己學(xué)習(xí)的行為，以及與它進(jìn)行完整的對(duì)話的場景，將是幾十年之后才會(huì)發(fā)生的事情。

顯然，因?yàn)榇竽Ｐ偷某霈F(xiàn)，一切都被加速了。

Figure AI是目前將AI能力延伸到現(xiàn)實(shí)世界中做得最好的地方。

Figure創(chuàng)始人：絕不把人形機(jī)器人用于軍事

半個(gè)月前，這個(gè)消息就在AI圈內(nèi)傳開了

人形機(jī)器人初創(chuàng)公司Figure，獲得了OpenAI等公司的6.75億美元融資！

參與融資的其他公司，包括OpenAI創(chuàng)業(yè)基金、亞馬遜工業(yè)創(chuàng)新基金、Parkway風(fēng)投公司、英特爾投資公司、Align風(fēng)投公司和ARK投資公司。

OpenAI給Figure投錢，當(dāng)然也是想下一盤大棋。

Figure的創(chuàng)始人兼首席執(zhí)行官Brett Adcock表示，公司將利用這筆資金開發(fā)用于機(jī)器人技術(shù)的大型語言模型，擴(kuò)大生產(chǎn)規(guī)模，并雇傭更多員工。

現(xiàn)在，F(xiàn)igure的演示已經(jīng)顯示了，他們?cè)谌诵瓮ㄓ脵C(jī)器人的交互上，做出了重大飛躍的產(chǎn)品。

史上第一次，機(jī)器人在沒有操控的情況下，和人如此自然地互動(dòng)，并且能夠服從人類。如此流暢的演示，此前的公司都沒有做到。

當(dāng)然，F(xiàn)igure 01目前只是一個(gè)原型，如果要進(jìn)行商業(yè)部署，出售給企業(yè)，會(huì)需要更多的工作。

不過，Adcock已經(jīng)表示，F(xiàn)igure的目標(biāo)就是訓(xùn)練一個(gè)世界模型，來操作十億單位級(jí)的人形機(jī)器人！

在Figure的網(wǎng)站上，Adcock介紹了Figure的總體規(guī)劃

Figure的目標(biāo)是：開發(fā)對(duì)人類產(chǎn)生積極影響的通用類人機(jī)器人，并為子孫后代創(chuàng)造更美好的生活。這些機(jī)器人可以消除對(duì)不安全和不受歡迎的工作的需求，最終讓我們過上更快樂、更有目的的生活。

Adcock表示，公司接下來還要艱苦奮斗幾十年，需要一支冠軍團(tuán)隊(duì)、數(shù)十億美元的投資和工程創(chuàng)新�！肝覀兊娘L(fēng)險(xiǎn)極高，成功機(jī)會(huì)極低」。

同時(shí)，他還宣稱

我們不會(huì)將人形機(jī)器人用于軍事或國防應(yīng)用，也不會(huì)將其用于任何需要對(duì)人類造成傷害的角色。我們的重點(diǎn)是為人類不想從事的工作提供資源。

現(xiàn)在，隨著LLM的進(jìn)步，全世界機(jī)器人都瘋狂開卷了！

除了特斯拉的擎天柱Optimus，與亞馬遜合作的人形機(jī)器人初創(chuàng)公司Agility，還有剛挖來前Optimus科學(xué)家領(lǐng)導(dǎo)開源機(jī)器人項(xiàng)目的Hugging Face，以及昨天剛成立的初創(chuàng)公司Physical Intelligence。

「青春版馬斯克」幫人類連接天網(wǎng)

成立不到兩年，F(xiàn)igure就成為估值26億的獨(dú)角獸，是連續(xù)創(chuàng)業(yè)者Brett Adcock成立的第3家公司。