展會(huì)信息港展會(huì)大全

全球首個(gè)OpenAI機(jī)器人誕生!Figure 01碾壓馬斯克擎天柱,10億機(jī)器人大軍正式啟動(dòng)
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-03-18 08:58:33   瀏覽:8160次  

導(dǎo)讀:新智元報(bào)道 編輯:Aeneas 潤 【新智元導(dǎo)讀】OpenAI上一筆融資不到八個(gè)月,F(xiàn)igure就來交卷了!這個(gè)機(jī)器人能說會(huì)動(dòng),還能自主推理,給自己布置任務(wù)。最炸裂的是,它完全是自主行動(dòng),沒有遠(yuǎn)程控制!1.0倍速的原視頻一出,網(wǎng)友們震驚了。 世界上第一個(gè)「ChatGPT...

新智元報(bào)道

編輯:Aeneas 潤

【新智元導(dǎo)讀】OpenAI上一筆融資不到八個(gè)月,F(xiàn)igure就來交卷了!這個(gè)機(jī)器人能說會(huì)動(dòng),還能自主推理,給自己布置任務(wù)。最炸裂的是,它完全是自主行動(dòng),沒有遠(yuǎn)程控制!1.0倍速的原視頻一出,網(wǎng)友們震驚了。

世界上第一個(gè)「ChatGPT機(jī)器人」來了!

初創(chuàng)公司Figure聯(lián)合OpenAI,現(xiàn)在直接給LLM造了個(gè)身體(具體來說,它是個(gè)OpenAI訓(xùn)練的多模態(tài)大模型)。

半個(gè)月前剛獲得OpenAI等的6.75億美元融資,今天初創(chuàng)公司Figure就來交卷了,簡直神速。

這個(gè)名為Figure 01的機(jī)器人,充分展示了和人類以及環(huán)境交互的能力。它會(huì)說會(huì)看,還能給人類遞食物、撿垃圾、收拾碗筷。

不僅如此,它還能夠推理,自行識(shí)別、計(jì)劃和執(zhí)行有用的任務(wù)。

在這個(gè)過程中,由OpenAI提供視覺推理和語言理解,F(xiàn)igure 01的神經(jīng)網(wǎng)絡(luò),會(huì)提供快速、低等級(jí)、靈巧的機(jī)器人動(dòng)作。

OpenAI和Figure Robotics放出的這段演示,瞬間震驚了網(wǎng)友:大模型和真實(shí)物理世界的距離,越來越近了!

此前Midjourney創(chuàng)始人預(yù)測:2040年,將會(huì)有10億機(jī)器人,2060年將有一百億,馬斯克表示同意

這段視頻可謂亮點(diǎn)滿滿。

首先,視頻是1.0倍原速拍攝的,而且是連續(xù)拍攝,跟之前那些為了表現(xiàn)流暢而加速的人形機(jī)器人演示不一樣。

其次,整個(gè)視頻只了一個(gè)端到端的神經(jīng)網(wǎng)絡(luò)。

并且,機(jī)器人背后,并沒有人在遠(yuǎn)程操作,所有動(dòng)作都是由機(jī)器人自行完成的!

現(xiàn)在,壓力給到了波士頓動(dòng)力和馬斯克的擎天柱這邊。

高能機(jī)器人,能說會(huì)看還能推理

視頻中的小哥問它:「Figure 01,你看到了什么?」

思索幾秒后,它張口說話了:「我看到桌子中間的盤子中,放了一只蘋果,瀝水架上有幾個(gè)盤子和一個(gè)杯子。我還看到你站在旁邊,你的手放在桌子上。」

小哥接著問:「我能吃點(diǎn)東西嗎?」

Figure 01回答:「當(dāng)然9然后抬起手,拿起一個(gè)蘋果遞給他。

下面,更高能的來了!

小哥直接把一堆垃圾嘩啦啦倒在Figure 1面前,然后問它,你能不能一邊給我解釋下剛才為什么會(huì)這么做的原因,一邊把這些垃圾收拾干凈呢?

Figure 01一邊有條不紊地把筐子拉到自己面前,把垃圾一個(gè)個(gè)撿進(jìn)筐子里,一邊回答道,「我給你蘋果,是因?yàn)檫@是我在桌上唯一看到的能吃的東西」。

接下來,小哥又向Figure 01發(fā)出了靈魂拷問:「根據(jù)你眼前所見的場景,你覺得你眼前的這些盤子應(yīng)該放到哪里呢?」

Figure 01自信滿滿地表示:像桌上這些盤子啊杯子啊,應(yīng)該放到旁邊的瀝水架上。

小哥表示,那你就幫忙放一下吧?五秒后,F(xiàn)igure 01抬起右手,用敏捷靈活的動(dòng)作,一個(gè)一個(gè)地把盤子和杯子放到了該放的地方。

最后,小哥還讓Figure 01給自己的表現(xiàn)來個(gè)復(fù)盤:「你覺得你表現(xiàn)得如何?」

Figure 01很滿意地說:「我覺得我做得很好,我把蘋果遞給了你,把垃圾丟掉了,桌上的東西也都放到了該放的地方!

小哥向它表示了感謝后,F(xiàn)igure 01甚至還伸開雙臂,聳了聳肩,表示有什么忙要幫的,歡迎隨時(shí)來找我。

網(wǎng)友炸鍋:科幻走進(jìn)現(xiàn)實(shí)了?

看到這一幕的網(wǎng)友們,紛紛表示驚嘆。

看起來,AGI可能在六個(gè)月內(nèi)就會(huì)到來了,甚至更短!

波士頓動(dòng)力只能再多編一些舞蹈花樣了,不然真的打不過。

這就是世界上第一個(gè)終結(jié)者?

有人表示,讓LLM機(jī)器人幫忙洗碗和打掃房子,就是最正確的事。不然總不能讓它們成天吟詩畫畫吧……

「Figure 1,在我出門時(shí),請(qǐng)你幫我打掃房子、洗碗、遛狗,你可以看《終結(jié)者2》,但是不要產(chǎn)生任何瘋狂的想法,ok?」

如果對(duì)話再流暢一些,處理速度再快上100倍,那我們就會(huì)得到一個(gè)工作產(chǎn)品。

另外還有人吐槽了Figure 01的聲音,為啥搞得像一個(gè)50歲的吸煙人士……

Figure CEO則表示,機(jī)器人的聲音,是對(duì)文本轉(zhuǎn)語音的AI進(jìn)行了微調(diào),還讓大家猜猜是誰。

這家機(jī)器人初創(chuàng)公司Figure,囊括了波士頓動(dòng)力、特斯拉、谷歌DeepMind和Archer Aviation的前員工。成立不到兩年,它已經(jīng)估值26億美元。

和OpenAI的首次合作亮相,就如此驚艷。

顯然,在機(jī)器人領(lǐng)域,人工智能時(shí)代才剛剛開始。

OpenAI的產(chǎn)品與合作副總裁Peter Welinder表示:"我們一直計(jì)劃重返機(jī)器人領(lǐng)域,我們看到了與Figure合作的價(jià)值。我們想探索,在高性能的多模態(tài)模型驅(qū)動(dòng)下,人形機(jī)器人能實(shí)現(xiàn)什么樣的目標(biāo)!

如今,人形機(jī)器人再次引起了投資者興趣,因?yàn)榇竽P万?qū)動(dòng)的軟件,為機(jī)器人與人類的互動(dòng)提供了更多可能性。

特斯拉CEO馬斯克預(yù)測,在2040年,地球上將出現(xiàn)10億個(gè)人形機(jī)器人。

創(chuàng)始人親自下場解釋原理

話說回來,被看Figure 01的這些操作看似容易,背后可是滿滿的玄機(jī)。

Figure AI的創(chuàng)始人Corey Lynch親自在X解釋了Figure 01的工作原理。

Figure 01現(xiàn)在能夠做到:

- 描述它看到的一切情況

- 規(guī)劃未來的行動(dòng)

- 思考輸入的視覺和文字信息

- 語音輸出它的推理結(jié)果

放出的這個(gè)視頻中,所有的行為都是學(xué)習(xí)的(不是遠(yuǎn)程操作的),并且沒有加速播放。

如下圖所示,F(xiàn)igure AI用機(jī)器人攝像頭采集的視頻信息,加上麥克風(fēng)捕獲的語音中的文本轉(zhuǎn)錄到由OpenAI提供的多模態(tài)大模型中,理解圖像和文本。

模型能夠處理對(duì)話的完整記錄,包括之前的歷史視頻,得到語言響應(yīng),然后通過文本到語音的方式傳回給人類。

同時(shí)模型還負(fù)責(zé)規(guī)劃機(jī)器人運(yùn)行哪些學(xué)習(xí)的閉環(huán)行為來完成給定的命令,將特定的神經(jīng)網(wǎng)絡(luò)權(quán)重加載到GPU上并執(zhí)行策略。

將Figure 01連接到完成預(yù)訓(xùn)練的多模態(tài)模型,為其提供了一些有趣的新功能。

Figure 01在OpenAI的大模型的加持下可以做到:

- 描述機(jī)器人周圍的環(huán)境;

- 決策時(shí)使用常識(shí)推理。比如,「餐桌上的盤子和杯子很可能之后要放到烘干架上」;

- 把「我餓了」這樣模棱兩可的高層次請(qǐng)求轉(zhuǎn)化為「遞給對(duì)方一個(gè)蘋果」等與具體情況相適應(yīng)的行為;

- 用通俗易懂的英語描述為什么它執(zhí)行某個(gè)特定的動(dòng)作。例如,「這是我能從餐桌上為你找到的唯一能吃的東西」。

理解對(duì)話內(nèi)容的大模型為Figure 01提供了強(qiáng)大的短期記憶。

比如,如果人類提出問題:「你能把它們放在那里嗎?」 「它們」指的是什么?「那里」又在哪里?正確回答需要機(jī)器人擁有思考記憶的能力。

通過預(yù)訓(xùn)練的模型分析對(duì)話的圖像和文本歷史記錄,F(xiàn)igure 01可以快速形成并執(zhí)行規(guī)劃:

1)將杯子放在晾衣架上;

2)將盤子放在晾衣架上。

所有行為均由神經(jīng)網(wǎng)絡(luò)視覺運(yùn)動(dòng)Transformer進(jìn)行策略驅(qū)動(dòng),將像素直接映射到動(dòng)作。

神經(jīng)網(wǎng)絡(luò)以10hz的頻率接收機(jī)器人拍到的圖像,并以200hz的頻率生成 24-DOF動(dòng)作(手腕姿勢和手指關(guān)節(jié)角度)。

這些動(dòng)作作為高速「錨點(diǎn)(setpoints)」,供更高速率的全身控制器跟蹤。

不同的部分各司其職:

- 云端的預(yù)訓(xùn)練模型對(duì)圖像和文本進(jìn)行常識(shí)推理,以得出高級(jí)規(guī)劃;

- 學(xué)習(xí)的視覺運(yùn)動(dòng)策略執(zhí)行規(guī)劃,執(zhí)行難以手動(dòng)指定的快速反應(yīng)行為,例如把一個(gè)袋子折疊成任何需要的形狀;

- 同時(shí),全身控制器確保安全、穩(wěn)定的動(dòng)作。例如,保持平衡。

最后Corey Lynch強(qiáng)調(diào),即使就在幾年前,業(yè)界都認(rèn)為人形機(jī)器人進(jìn)行規(guī)劃和執(zhí)行自己學(xué)習(xí)的行為,以及與它進(jìn)行完整的對(duì)話的場景,將是幾十年之后才會(huì)發(fā)生的事情。

顯然,因?yàn)榇竽P偷某霈F(xiàn),一切都被加速了。

Figure AI是目前將AI能力延伸到現(xiàn)實(shí)世界中做得最好的地方。

Figure創(chuàng)始人:絕不把人形機(jī)器人用于軍事

半個(gè)月前,這個(gè)消息就在AI圈內(nèi)傳開了

人形機(jī)器人初創(chuàng)公司Figure,獲得了OpenAI等公司的6.75億美元融資!

參與融資的其他公司,包括OpenAI創(chuàng)業(yè)基金、亞馬遜工業(yè)創(chuàng)新基金、Parkway風(fēng)投公司、英特爾投資公司、Align風(fēng)投公司和ARK投資公司。

OpenAI給Figure投錢,當(dāng)然也是想下一盤大棋。

Figure的創(chuàng)始人兼首席執(zhí)行官Brett Adcock表示,公司將利用這筆資金開發(fā)用于機(jī)器人技術(shù)的大型語言模型,擴(kuò)大生產(chǎn)規(guī)模,并雇傭更多員工。

現(xiàn)在,F(xiàn)igure的演示已經(jīng)顯示了,他們?cè)谌诵瓮ㄓ脵C(jī)器人的交互上,做出了重大飛躍的產(chǎn)品。

史上第一次,機(jī)器人在沒有操控的情況下,和人如此自然地互動(dòng),并且能夠服從人類。如此流暢的演示,此前的公司都沒有做到。

當(dāng)然,F(xiàn)igure 01目前只是一個(gè)原型,如果要進(jìn)行商業(yè)部署,出售給企業(yè),會(huì)需要更多的工作。

不過,Adcock已經(jīng)表示,F(xiàn)igure的目標(biāo)就是訓(xùn)練一個(gè)世界模型,來操作十億單位級(jí)的人形機(jī)器人!

在Figure的網(wǎng)站上,Adcock介紹了Figure的總體規(guī)劃

Figure的目標(biāo)是:開發(fā)對(duì)人類產(chǎn)生積極影響的通用類人機(jī)器人,并為子孫后代創(chuàng)造更美好的生活。這些機(jī)器人可以消除對(duì)不安全和不受歡迎的工作的需求,最終讓我們過上更快樂、更有目的的生活。

Adcock表示,公司接下來還要艱苦奮斗幾十年,需要一支冠軍團(tuán)隊(duì)、數(shù)十億美元的投資和工程創(chuàng)新!肝覀兊娘L(fēng)險(xiǎn)極高,成功機(jī)會(huì)極低」。

同時(shí),他還宣稱

我們不會(huì)將人形機(jī)器人用于軍事或國防應(yīng)用,也不會(huì)將其用于任何需要對(duì)人類造成傷害的角色。我們的重點(diǎn)是為人類不想從事的工作提供資源。

現(xiàn)在,隨著LLM的進(jìn)步,全世界機(jī)器人都瘋狂開卷了!

除了特斯拉的擎天柱Optimus,與亞馬遜合作的人形機(jī)器人初創(chuàng)公司Agility,還有剛挖來前Optimus科學(xué)家領(lǐng)導(dǎo)開源機(jī)器人項(xiàng)目的Hugging Face,以及昨天剛成立的初創(chuàng)公司Physical Intelligence。

「青春版馬斯克」幫人類連接天網(wǎng)

成立不到兩年,F(xiàn)igure就成為估值26億的獨(dú)角獸,是連續(xù)創(chuàng)業(yè)者Brett Adcock成立的第3家公司。

1986年出生的Brett Adcoc,目前僅有38歲,從2012開始至今,創(chuàng)立了3個(gè)科技公司:

26歲的他在2012年就試圖使用AI來革新招聘行業(yè)。

當(dāng)時(shí),他成立了Vettery一個(gè)在線獵頭平臺(tái),不到一年的時(shí)間團(tuán)隊(duì)迅速發(fā)展到數(shù)百名員工,客戶網(wǎng)絡(luò)擴(kuò)大到30000家招聘公司。

Vettery人工智能系統(tǒng)每月匹配20000次面試,幫助數(shù)千人找到他們夢想的工作。

在成立1年多后,他就以1億美元的價(jià)格將公司賣給了Adecco。

而他在2018年成立的第二家公司Archer,主營業(yè)務(wù)是制造可以垂直起降的電動(dòng)飛機(jī),解決在繁忙城市中無法使用飛機(jī)的問題。

不到5年的時(shí)間,Archer就以27億美元的估值成功登錄紐交所,成為了飛機(jī)行業(yè)中的特斯拉。

而在2022年,他成立的第三家公司Figure,希望能夠用人形機(jī)器人徹底改變?nèi)祟惖墓ぷ鞣绞。讓人類無需再出現(xiàn)在那些危險(xiǎn)而不適合人類的工作場所之中。

在Brett Adcock的眼里,F(xiàn)igure有可能成為世界上影響力最大的公司。

他白手起家,10年間成立的3家公司,分別達(dá)成了「億元賣身」,「紐交所上市」,「2年成長為獨(dú)角獸」3大成就,實(shí)在是令人咋舌。

而且縱觀他成立的3家公司的過程和所涉及的行業(yè),和前世界首富馬斯克頗有相似之處。

而現(xiàn)在他的Figure AI更是直接與特斯拉的展開了競爭。

如今科技巨頭紛紛「用錢投票」,一方面確實(shí)是因?yàn)槿诵螜C(jī)器人的賽道想象力實(shí)在太大,而另一方面,也是看中了Brett Adcock成功的履歷和用科技改變世界的決心。

在他的個(gè)人網(wǎng)站上,給自己的介紹是:專注成立公司20年

參考資料:

https://twitter.com/figure_robot/status/1767913661253984474

https://twitter.com/coreylynch/status/1767927194163331345

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港