最新国产精品福利2020,777米奇影视,最热精品视频网站

能說(shuō)會(huì)看會(huì)行動(dòng)，OpenAI機(jī)器人，一出手就是王炸

來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-03-18 08:56:52 瀏覽：7045次

導(dǎo)讀：機(jī)器之能報(bào)道機(jī)器之心編輯部網(wǎng)友：波士頓動(dòng)力要整點(diǎn)新舞步，才能讓Figure 01下熱搜。「借助 OpenAI 的能力，F(xiàn)igure 01 現(xiàn)在可以與人全面對(duì)話了...

機(jī)器之能報(bào)道

機(jī)器之心編輯部

網(wǎng)友：波士頓動(dòng)力要整點(diǎn)新舞步，才能讓Figure 01下熱搜。

「借助 OpenAI 的能力，F(xiàn)igure 01 現(xiàn)在可以與人全面對(duì)話了９

本周三，半個(gè)硅谷都在投的明星機(jī)器人創(chuàng)業(yè)公司 Figure，發(fā)布了全新 OpenAI 大模型加持的機(jī)器人 demo。

這家公司在 3 月 1 日剛剛宣布獲得 OpenAI 等公司的投資，才十幾天就直接用上了 OpenAI 的多模態(tài)大模型。

如你所見(jiàn)，得到 OpenAI 大模型能力加持的 Figure 01 現(xiàn)在是這個(gè)樣子的。

它可以為聽(tīng)從人類(lèi)的命令，遞給人類(lèi)蘋(píng)果。

將黑色塑料袋收拾進(jìn)框子里。

將杯子和盤(pán)子歸置放在瀝水架上。

需要強(qiáng)調(diào)的是：你看到的這一切，只用到了一個(gè)神經(jīng)網(wǎng)絡(luò)。

完整的demo視頻如下所示：

廣大網(wǎng)友在看到如此驚艷的 demo 后，對(duì)機(jī)器人的發(fā)展速度感到震驚，我們似乎正處在這場(chǎng)洶涌的進(jìn)化浪潮中。甚至有人感嘆，已經(jīng)準(zhǔn)備好迎接更多的機(jī)器人了。

還有網(wǎng)友調(diào)侃道：「波士頓動(dòng)力：好的，伙計(jì)們，這是一場(chǎng)真正的競(jìng)爭(zhēng)。讓我們回到實(shí)驗(yàn)室，設(shè)計(jì)更多舞蹈套路�！�

所有這些，全是機(jī)器人自學(xué)的！

Figure創(chuàng)始人Brett Adcock表示，視頻中Figure 01展示了端到端神經(jīng)網(wǎng)絡(luò)框架下與人類(lèi)的對(duì)話，沒(méi)有任何遠(yuǎn)程操作。并且，機(jī)器人的速度有了顯著的提升，開(kāi)始接近人類(lèi)的速度。

Figure機(jī)器人操作高級(jí)AI工程師Corey Lynch介紹了此次Figure 01的技術(shù)原理。他表示，F(xiàn)igure 01現(xiàn)在可以做到以下這些：

描述其視覺(jué)體驗(yàn)

規(guī)劃未來(lái)的行動(dòng)

反思自己的記憶

口頭解釋推理過(guò)程

他接著解釋道，視頻中機(jī)器人的所有行為都是學(xué)到的（再次強(qiáng)調(diào)不是遠(yuǎn)程操作），并以正常速度（1.0x）運(yùn)行。

在具體實(shí)現(xiàn)過(guò)程中，他們將機(jī)器人攝像頭中的圖像輸入，并將機(jī)載麥克風(fēng)捕獲的語(yǔ)音文本轉(zhuǎn)錄到由 OpenAI訓(xùn)練的大型多模態(tài)模型中，該模型可以理解圖像和文本。該模型對(duì)整個(gè)對(duì)話記錄進(jìn)行處理，包括過(guò)去的圖像，從而獲得語(yǔ)言響應(yīng)，然后通過(guò)文本到語(yǔ)音的方式將其回復(fù)給人類(lèi)。

此外，該模型負(fù)責(zé)決定在機(jī)器人上運(yùn)行哪些學(xué)習(xí)到的閉環(huán)行為以完成給定的命令，從而將特定的神經(jīng)網(wǎng)絡(luò)權(quán)重加載到GPU上并執(zhí)行策略。

將Figure 01 連接到大型預(yù)訓(xùn)練多模態(tài)模型為其提供了一些有趣的新功能。Figure 01 + OpenAI 現(xiàn)在可以：

描述其周?chē)h(huán)境。

使用常識(shí)推理做出決定。例如，「桌子上的盤(pán)子和杯子等餐具接下來(lái)可能需要放進(jìn)瀝水架」。

將「我餓了」等模棱兩可的高級(jí)請(qǐng)求轉(zhuǎn)化為一些適合上下文的行為，例如「遞給對(duì)方一個(gè)蘋(píng)果」。

用簡(jiǎn)單的英語(yǔ)描述為什么它執(zhí)行特定的操作。例如，「這是我可以從桌子上為您提供的唯一可食用物品」。

理解對(duì)話歷史的大型預(yù)訓(xùn)練模型為Figure 01提供了強(qiáng)大的短期記憶。

考慮一個(gè)簡(jiǎn)單的問(wèn)題：「你能把它們放在那里嗎？」

其中「它們」指的是什么？「那里」又是哪里？正確回答這個(gè)問(wèn)題需要反思記憶的能力。

通過(guò)預(yù)訓(xùn)練模型分析對(duì)話的圖像和文本歷史記錄，F(xiàn)igure 01快速形成并執(zhí)行計(jì)劃：1）將杯子放在瀝水架上，2）將盤(pán)子放在瀝水架上。

關(guān)于學(xué)到的低級(jí)雙手操作，所有行為均由神經(jīng)網(wǎng)絡(luò)視覺(jué)運(yùn)動(dòng)transformer策略驅(qū)動(dòng)，將像素直接映射到動(dòng)作。這些網(wǎng)絡(luò)以10hz 的頻率接收機(jī)載圖像，并以200hz的頻率生成 24-DOF 動(dòng)作（手腕姿勢(shì)和手指關(guān)節(jié)角度）。

這些動(dòng)作充當(dāng)高速「設(shè)定點(diǎn)」，以供更高速率的全身控制器跟蹤。這是一個(gè)有用的關(guān)注點(diǎn)分離，其中：

互聯(lián)網(wǎng)預(yù)訓(xùn)練模型對(duì)圖像和文本進(jìn)行常識(shí)推理，以得出高級(jí)規(guī)劃。

學(xué)習(xí)到的視覺(jué)運(yùn)動(dòng)策略執(zhí)行計(jì)劃，執(zhí)行難以手動(dòng)指定的快速反應(yīng)行為，例如在任何位置操縱可變形的袋子。

全身控制器確保安全、穩(wěn)定的動(dòng)力，例如保持平衡。

最后他表示，即使在幾年前，自己還認(rèn)為人形機(jī)器人規(guī)劃和執(zhí)行自身完全學(xué)得行為的同時(shí)與人類(lèi)進(jìn)行完整的對(duì)話是幾十年后才能看到的事情。顯然，現(xiàn)在已經(jīng)發(fā)生了太多變化。

至于聲音方面，大家都在猜機(jī)器人金屬感十足的聲音源自誰(shuí)？有猜喬布斯的、Sam Altman的，也有猜演員 Rob Lowe 的，你認(rèn)為呢？

Figure，具身智能時(shí)代最熱創(chuàng)業(yè)公司

最近，生成式 AI 的競(jìng)爭(zhēng)正在走向長(zhǎng)文本、多模態(tài)，各家科技公司和機(jī)構(gòu)也沒(méi)有忘記投資下個(gè)熱點(diǎn)具身智能。

具身智能，對(duì)于計(jì)算機(jī)視覺(jué)、機(jī)器人等領(lǐng)域來(lái)說(shuō)是一個(gè)很有挑戰(zhàn)的目標(biāo)：假設(shè) AI 智能體（機(jī)器人）不僅能接收來(lái)自數(shù)據(jù)集的靜態(tài)圖像，還能在三維虛擬世界甚至真實(shí)環(huán)境中四處移動(dòng)，并與周?chē)h(huán)境交互，那我們就會(huì)迎來(lái)技術(shù)的一次重大突破，從識(shí)別圖像等機(jī)器學(xué)習(xí)的簡(jiǎn)單能力，轉(zhuǎn)變到學(xué)習(xí)如何通過(guò)多個(gè)步驟執(zhí)行復(fù)雜的類(lèi)人任務(wù)。

被生成式 AI 龍頭 OpenAI 看好的具身智能，最有希望通向具身智能的公司，似乎就是這家 Figure。

3月1日，F(xiàn)igure 宣布完成驚人的 6.75 億美元 B 輪融資，公司估值達(dá)到 26 億美元。一眼望去，感覺(jué)半個(gè)硅谷都投了它：微軟、英特爾、OpenAI Startup Fund、Amazon Industrial Innovation Fund 、英偉達(dá)、貝索斯、「木頭姐」的方舟投資、Parkway Venture Capital、Align Ventures 等。

該公司的產(chǎn)品 Figure 01，據(jù)稱是世界上第一個(gè)具有商業(yè)可行性的自主人形機(jī)器人，身高 1.5 米，體重 60 公斤，可承載 20 公斤貨物，采用電機(jī)驅(qū)動(dòng)。它的可工作時(shí)長(zhǎng)是 5 小時(shí)，行走速度每秒 1.2 米，可以說(shuō)很多指標(biāo)已經(jīng)接近人類(lèi)。

自 2023 年 1 月以來(lái)，人們對(duì) Figure 的關(guān)注度一直在上升。雖然到目前為止，公司一共才發(fā)布過(guò)四個(gè) demo 視頻。其中的一個(gè)展示了 Figure 01 是如何制作咖啡的：

據(jù)Figure表示，機(jī)器人練習(xí)這些動(dòng)作的方法是端到端的，神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時(shí)間是10小時(shí)。

在 2 月 27 日的視頻里，F(xiàn)igure 01 自主完成了一個(gè)典型的物流環(huán)節(jié)任務(wù)搬運(yùn)空箱。

當(dāng)然，速度還是比人類(lèi)慢了很多。不過(guò)在這些任務(wù)中，F(xiàn)igure 01 都是完全自主地執(zhí)行任務(wù)。所謂「完全自主」，是指只需將機(jī)器人放在地面上（無(wú)論放在屋里什么地方），在沒(méi)有其他用戶輸入的情況下，直接按開(kāi)始就行。

在訓(xùn)練過(guò)的大型視覺(jué)語(yǔ)言模型( VLM )幫助下，人形機(jī)器人會(huì)先識(shí)別、定位目標(biāo)箱子，然后推理合適的拿放姿勢(shì)。接下來(lái)，F(xiàn)igure 01 會(huì)導(dǎo)航自己到目標(biāo)跟前，檢測(cè)抓取點(diǎn)和手部力量，嘗試抓取成功并將箱子放到傳送帶上。

這些技術(shù)亮點(diǎn)也是 Figure 和一直希望回歸機(jī)器人領(lǐng)域的 OpenAI 達(dá)成合作協(xié)議的重要原因之一將 OpenAI 的研究與 Figure 的機(jī)器人經(jīng)驗(yàn)結(jié)合起來(lái)，為人形機(jī)器人開(kāi)發(fā)下一代 AI 模型。OpenAI 也希望將自己的高性能多模態(tài)大模型擴(kuò)展到機(jī)器人領(lǐng)域。

除了接受大筆風(fēng)投之外，F(xiàn)igure 也在積極拓展落地場(chǎng)景。目前，F(xiàn)igure 01 已經(jīng)開(kāi)始在寶馬位于南卡羅來(lái)納州斯帕坦堡的汽車(chē)工廠接受測(cè)試，人們計(jì)劃讓機(jī)器人替代人類(lèi)從事一些危險(xiǎn)度高的任務(wù)。

參考鏈接：

https://twitter.com/i/status/1767913661253984474

https://www.figure.ai/

能說(shuō)會(huì)看會(huì)行動(dòng)，OpenAI機(jī)器人，一出手就是王炸
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-03-18 08:56:52 瀏覽：7045次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門(mén)排行

推薦內(nèi)容

在線客服

熱門(mén)欄目HotCates

關(guān)于我們

版權(quán)聲明

能說(shuō)會(huì)看會(huì)行動(dòng)，OpenAI機(jī)器人，一出手就是王炸 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-03-18 08:56:52 瀏覽：7045次