展會(huì)信息港展會(huì)大全

能說(shuō)會(huì)看會(huì)行動(dòng),OpenAI機(jī)器人,一出手就是王炸
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-03-18 08:56:52   瀏覽:7045次  

導(dǎo)讀:機(jī)器之能報(bào)道 機(jī)器之心編輯部 網(wǎng)友:波士頓動(dòng)力要整點(diǎn)新舞步,才能讓Figure 01下熱搜。 「借助 OpenAI 的能力,F(xiàn)igure 01 現(xiàn)在可以與人全面對(duì)話了...

機(jī)器之能報(bào)道

機(jī)器之心編輯部

網(wǎng)友:波士頓動(dòng)力要整點(diǎn)新舞步,才能讓Figure 01下熱搜。

「借助 OpenAI 的能力,F(xiàn)igure 01 現(xiàn)在可以與人全面對(duì)話了9

本周三,半個(gè)硅谷都在投的明星機(jī)器人創(chuàng)業(yè)公司 Figure,發(fā)布了全新 OpenAI 大模型加持的機(jī)器人 demo。

這家公司在 3 月 1 日剛剛宣布獲得 OpenAI 等公司的投資,才十幾天就直接用上了 OpenAI 的多模態(tài)大模型。

如你所見(jiàn),得到 OpenAI 大模型能力加持的 Figure 01 現(xiàn)在是這個(gè)樣子的。

它可以為聽(tīng)從人類(lèi)的命令,遞給人類(lèi)蘋(píng)果。

將黑色塑料袋收拾進(jìn)框子里。

將杯子和盤(pán)子歸置放在瀝水架上。

需要強(qiáng)調(diào)的是:你看到的這一切,只用到了一個(gè)神經(jīng)網(wǎng)絡(luò)。

完整的demo視頻如下所示:

廣大網(wǎng)友在看到如此驚艷的 demo 后,對(duì)機(jī)器人的發(fā)展速度感到震驚,我們似乎正處在這場(chǎng)洶涌的進(jìn)化浪潮中。甚至有人感嘆,已經(jīng)準(zhǔn)備好迎接更多的機(jī)器人了。

還有網(wǎng)友調(diào)侃道:「波士頓動(dòng)力:好的,伙計(jì)們,這是一場(chǎng)真正的競(jìng)爭(zhēng)。讓我們回到實(shí)驗(yàn)室,設(shè)計(jì)更多舞蹈套路!

所有這些,全是機(jī)器人自學(xué)的!

Figure創(chuàng)始人Brett Adcock表示,視頻中Figure 01展示了端到端神經(jīng)網(wǎng)絡(luò)框架下與人類(lèi)的對(duì)話,沒(méi)有任何遠(yuǎn)程操作。并且,機(jī)器人的速度有了顯著的提升,開(kāi)始接近人類(lèi)的速度。

Figure機(jī)器人操作高級(jí)AI工程師Corey Lynch介紹了此次Figure 01的技術(shù)原理。他表示,F(xiàn)igure 01現(xiàn)在可以做到以下這些:

描述其視覺(jué)體驗(yàn)

規(guī)劃未來(lái)的行動(dòng)

反思自己的記憶

口頭解釋推理過(guò)程

他接著解釋道,視頻中機(jī)器人的所有行為都是學(xué)到的(再次強(qiáng)調(diào)不是遠(yuǎn)程操作),并以正常速度(1.0x)運(yùn)行。

在具體實(shí)現(xiàn)過(guò)程中,他們將機(jī)器人攝像頭中的圖像輸入,并將機(jī)載麥克風(fēng)捕獲的語(yǔ)音文本轉(zhuǎn)錄到由 OpenAI訓(xùn)練的大型多模態(tài)模型中,該模型可以理解圖像和文本。該模型對(duì)整個(gè)對(duì)話記錄進(jìn)行處理,包括過(guò)去的圖像,從而獲得語(yǔ)言響應(yīng),然后通過(guò)文本到語(yǔ)音的方式將其回復(fù)給人類(lèi)。

此外,該模型負(fù)責(zé)決定在機(jī)器人上運(yùn)行哪些學(xué)習(xí)到的閉環(huán)行為以完成給定的命令,從而將特定的神經(jīng)網(wǎng)絡(luò)權(quán)重加載到GPU上并執(zhí)行策略。

將Figure 01 連接到大型預(yù)訓(xùn)練多模態(tài)模型為其提供了一些有趣的新功能。Figure 01 + OpenAI 現(xiàn)在可以:

描述其周?chē)h(huán)境。

使用常識(shí)推理做出決定。例如,「桌子上的盤(pán)子和杯子等餐具接下來(lái)可能需要放進(jìn)瀝水架」。

將「我餓了」等模棱兩可的高級(jí)請(qǐng)求轉(zhuǎn)化為一些適合上下文的行為,例如「遞給對(duì)方一個(gè)蘋(píng)果」。

用簡(jiǎn)單的英語(yǔ)描述為什么它執(zhí)行特定的操作。例如,「這是我可以從桌子上為您提供的唯一可食用物品」。

理解對(duì)話歷史的大型預(yù)訓(xùn)練模型為Figure 01提供了強(qiáng)大的短期記憶。

考慮一個(gè)簡(jiǎn)單的問(wèn)題:「你能把它們放在那里嗎?」

其中 「它們」指的是什么?「那里」又是哪里?正確回答這個(gè)問(wèn)題需要反思記憶的能力。

通過(guò)預(yù)訓(xùn)練模型分析對(duì)話的圖像和文本歷史記錄,F(xiàn)igure 01快速形成并執(zhí)行計(jì)劃:1)將杯子放在瀝水架上,2)將盤(pán)子放在瀝水架上。

關(guān)于學(xué)到的低級(jí)雙手操作,所有行為均由神經(jīng)網(wǎng)絡(luò)視覺(jué)運(yùn)動(dòng)transformer策略驅(qū)動(dòng),將像素直接映射到動(dòng)作。這些網(wǎng)絡(luò)以10hz 的頻率接收機(jī)載圖像,并以200hz的頻率生成 24-DOF 動(dòng)作(手腕姿勢(shì)和手指關(guān)節(jié)角度)。

這些動(dòng)作充當(dāng)高速「設(shè)定點(diǎn)」,以供更高速率的全身控制器跟蹤。這是一個(gè)有用的關(guān)注點(diǎn)分離,其中:

互聯(lián)網(wǎng)預(yù)訓(xùn)練模型對(duì)圖像和文本進(jìn)行常識(shí)推理,以得出高級(jí)規(guī)劃。

學(xué)習(xí)到的視覺(jué)運(yùn)動(dòng)策略執(zhí)行計(jì)劃,執(zhí)行難以手動(dòng)指定的快速反應(yīng)行為,例如在任何位置操縱可變形的袋子。

全身控制器確保安全、穩(wěn)定的動(dòng)力,例如保持平衡。

最后他表示,即使在幾年前,自己還認(rèn)為人形機(jī)器人規(guī)劃和執(zhí)行自身完全學(xué)得行為的同時(shí)與人類(lèi)進(jìn)行完整的對(duì)話是幾十年后才能看到的事情。顯然,現(xiàn)在已經(jīng)發(fā)生了太多變化。

至于聲音方面,大家都在猜機(jī)器人金屬感十足的聲音源自誰(shuí)?有猜喬布斯的、Sam Altman的,也有猜演員 Rob Lowe 的,你認(rèn)為呢?

Figure,具身智能時(shí)代最熱創(chuàng)業(yè)公司

最近,生成式 AI 的競(jìng)爭(zhēng)正在走向長(zhǎng)文本、多模態(tài),各家科技公司和機(jī)構(gòu)也沒(méi)有忘記投資下個(gè)熱點(diǎn)具身智能。

具身智能,對(duì)于計(jì)算機(jī)視覺(jué)、機(jī)器人等領(lǐng)域來(lái)說(shuō)是一個(gè)很有挑戰(zhàn)的目標(biāo):假設(shè) AI 智能體(機(jī)器人)不僅能接收來(lái)自數(shù)據(jù)集的靜態(tài)圖像,還能在三維虛擬世界甚至真實(shí)環(huán)境中四處移動(dòng),并與周?chē)h(huán)境交互,那我們就會(huì)迎來(lái)技術(shù)的一次重大突破,從識(shí)別圖像等機(jī)器學(xué)習(xí)的簡(jiǎn)單能力,轉(zhuǎn)變到學(xué)習(xí)如何通過(guò)多個(gè)步驟執(zhí)行復(fù)雜的類(lèi)人任務(wù)。

被生成式 AI 龍頭 OpenAI 看好的具身智能,最有希望通向具身智能的公司,似乎就是這家 Figure。

3月1日,F(xiàn)igure 宣布完成驚人的 6.75 億美元 B 輪融資,公司估值達(dá)到 26 億美元。一眼望去,感覺(jué)半個(gè)硅谷都投了它:微軟、英特爾、OpenAI Startup Fund、Amazon Industrial Innovation Fund 、英偉達(dá)、貝索斯、「木頭姐」的方舟投資、Parkway Venture Capital、Align Ventures 等。

該公司的產(chǎn)品 Figure 01,據(jù)稱是世界上第一個(gè)具有商業(yè)可行性的自主人形機(jī)器人,身高 1.5 米,體重 60 公斤,可承載 20 公斤貨物,采用電機(jī)驅(qū)動(dòng)。它的可工作時(shí)長(zhǎng)是 5 小時(shí),行走速度每秒 1.2 米,可以說(shuō)很多指標(biāo)已經(jīng)接近人類(lèi)。

自 2023 年 1 月以來(lái),人們對(duì) Figure 的關(guān)注度一直在上升。雖然到目前為止,公司一共才發(fā)布過(guò)四個(gè) demo 視頻。其中的一個(gè)展示了 Figure 01 是如何制作咖啡的:

據(jù)Figure表示,機(jī)器人練習(xí)這些動(dòng)作的方法是端到端的,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時(shí)間是10小時(shí)。

在 2 月 27 日的視頻里,F(xiàn)igure 01 自主完成了一個(gè)典型的物流環(huán)節(jié)任務(wù)搬運(yùn)空箱。

當(dāng)然,速度還是比人類(lèi)慢了很多。不過(guò)在這些任務(wù)中,F(xiàn)igure 01 都是完全自主地執(zhí)行任務(wù)。所謂「完全自主」,是指只需將機(jī)器人放在地面上(無(wú)論放在屋里什么地方),在沒(méi)有其他用戶輸入的情況下,直接按開(kāi)始就行。

在訓(xùn)練過(guò)的大型視覺(jué)語(yǔ)言模型( VLM )幫助下,人形機(jī)器人會(huì)先識(shí)別、定位目標(biāo)箱子,然后推理合適的拿放姿勢(shì)。接下來(lái),F(xiàn)igure 01 會(huì)導(dǎo)航自己到目標(biāo)跟前,檢測(cè)抓取點(diǎn)和手部力量,嘗試抓取成功并將箱子放到傳送帶上。

這些技術(shù)亮點(diǎn)也是 Figure 和一直希望回歸機(jī)器人領(lǐng)域的 OpenAI 達(dá)成合作協(xié)議的重要原因之一將 OpenAI 的研究與 Figure 的機(jī)器人經(jīng)驗(yàn)結(jié)合起來(lái),為人形機(jī)器人開(kāi)發(fā)下一代 AI 模型。OpenAI 也希望將自己的高性能多模態(tài)大模型擴(kuò)展到機(jī)器人領(lǐng)域。

除了接受大筆風(fēng)投之外,F(xiàn)igure 也在積極拓展落地場(chǎng)景。目前,F(xiàn)igure 01 已經(jīng)開(kāi)始在寶馬位于南卡羅來(lái)納州斯帕坦堡的汽車(chē)工廠接受測(cè)試,人們計(jì)劃讓機(jī)器人替代人類(lèi)從事一些危險(xiǎn)度高的任務(wù)。

參考鏈接:

https://twitter.com/i/status/1767913661253984474

https://www.figure.ai/

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港