當(dāng)前位置：人工智能實(shí)驗(yàn)室> 機(jī)器人 > OpenAI沒有放棄的機(jī)器人夢想

OpenAI沒有放棄的機(jī)器人夢想
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-03-18 09:04:29 瀏覽：7955次

導(dǎo)讀：圖片來源@視覺中國文｜甲子光年，作者｜王博、艾倫 2021年夏天，OpenAI悄然解散了它的機(jī)器人團(tuán)隊，理由是缺乏訓(xùn)練機(jī)器人使用人工智能進(jìn)行移動和推理所需的數(shù)據(jù)，研發(fā)受到了阻礙。當(dāng)時，在美國創(chuàng)業(yè)孵化器Y Combinator的論壇上，BuzzFeed數(shù)據(jù)科學(xué)家馬克思伍...

圖片來源@視覺中國

文｜甲子光年，作者｜王博、艾倫

2021年夏天，OpenAI悄然解散了它的機(jī)器人團(tuán)隊，理由是缺乏訓(xùn)練機(jī)器人使用人工智能進(jìn)行移動和推理所需的數(shù)據(jù)，研發(fā)受到了阻礙。

當(dāng)時，在美國創(chuàng)業(yè)孵化器Y Combinator的論壇上，BuzzFeed數(shù)據(jù)科學(xué)家馬克思伍爾夫（Max Woolf）直言：“一種可能準(zhǔn)確但帶有諷刺意味的觀點(diǎn)是，研究語言模型比研究機(jī)器人學(xué)具有更高的投資回報率和更低的風(fēng)險。”

事實(shí)證明，OpenAI的確在大語言模型方面取得了更大突破。

不過，OpenAI忘記機(jī)器人了嗎？

「甲子光年」在2023北京智源大會上注意到，OpenAI CEO薩姆奧爾特曼（Sam Altman）談到了曾經(jīng)的機(jī)器人研究，他說：“我們對此很感興趣，也有過掙扎，希望有朝一日，我們能重拾機(jī)器人的研究。”

現(xiàn)在，他們又入局了。OpenAI與人形機(jī)器人初創(chuàng)公司Figure合作推出的Figure 01機(jī)器人，憑借一段2分35秒的視頻刷爆全網(wǎng)，視頻中的Figure 01展現(xiàn)出了驚人的理解、判斷、行動和自我評價的能力。

這就是OpenAI和Figure宣布合作13天后的成果。此前，F(xiàn)igure已從亞馬遜創(chuàng)始人貝索斯（Bezos）、英偉達(dá)、OpenAI和微軟等巨頭那里籌集了約6.75億美元的資金，公司估值達(dá)到了26億美元。

除了資金，OpenAI還給Figure帶來了什么？

Figure 01做到的和沒做到的

Figure高級AI工程師科里林奇（Corey Lynch）介紹，在和OpenAI合作后，F(xiàn)igure 01機(jī)器人可以做到：

描述其周圍環(huán)境；在做決策時使用常識推理。例如，“桌子上的餐具，比如盤子和杯子，很可能會放入瀝水籃里”；將模糊的、高層次的請求轉(zhuǎn)換成一些情境適當(dāng)?shù)男袨�。例如，�?ldquo;我能吃點(diǎn)兒什么”翻譯成“給那個人一個蘋果”；用簡單的英語描述它為什么執(zhí)行了特定的行動。例如，“這是我能從桌子上給你提供的唯一可食用的物品”。

國內(nèi)某頭部機(jī)器人公司算法專家梁亮告訴「甲子光年」，接入GPT4V后，F(xiàn)igure 01機(jī)器人對環(huán)境的感知有了“巨大提升”，對人類指令的理解以及任務(wù)完成度“非常高”，并且在執(zhí)行完成后的自我評估“很到位”。

北京大學(xué)計算機(jī)學(xué)院助理教授、博士生導(dǎo)師董豪表示，OpenAI和Figure合作，帶來了機(jī)器人上層的感知決策。

“它其實(shí)是分兩層，一層是感知決策，通過大模型來實(shí)現(xiàn)。因?yàn)榇竽Ｐ捅緛砭途邆涓兄芰�，感知模型將逐步被大模型取代。然后它要輸出Set-point（設(shè)定點(diǎn)），其實(shí)就是我們說的以物體為中心（Object-centric）的表達(dá)。”董豪告訴「甲子光年」，“還有一層是機(jī)器人操控，通過小模型實(shí)現(xiàn)，可達(dá)到高頻200hz。然后通過運(yùn)控算法，做全身控制，讓手去到指定的位置。”

Figure團(tuán)隊介紹，Figure 01機(jī)器人由OpenAI提供視覺推理和語言理解能力，由Figure的神經(jīng)網(wǎng)絡(luò)提供快速、低層、靈巧的機(jī)器人動作能力。

為了實(shí)現(xiàn)視頻中的效果，F(xiàn)igure研究人員將機(jī)器人攝像頭捕獲的圖像和機(jī)載麥克風(fēng)捕捉到的語音轉(zhuǎn)錄文本，輸入到一個由OpenAI訓(xùn)練的大型多模態(tài)模型中，然后由該模型處理對話的整個歷史記錄，得出語言響應(yīng)，然后通過文本到語音的方式將其回復(fù)給人類。

“同樣的模型，也負(fù)責(zé)決定在機(jī)器人上運(yùn)行哪些學(xué)習(xí)的閉環(huán)行為來完成給定的命令，將特定的神經(jīng)網(wǎng)絡(luò)權(quán)重加載到GPU上并執(zhí)行策略。”林奇在X上分享道。

利用一個神經(jīng)網(wǎng)絡(luò)便完成了從語音輸入到感知、推理、決策以及行為指令輸出全過程，這被Figure稱為“端到端神經(jīng)網(wǎng)絡(luò)”（end-to-end neural networks）。

Figure 01原理解釋，圖片來源：Figure

但是“端到端”的說法，引發(fā)了一些討論。

出門問問創(chuàng)始人、CEO李志飛認(rèn)為，原理上，F(xiàn)igure看起來類似于Google在2023年3月發(fā)布的PaLM-E和RT-1的pipeline組合，而不是Google于2023年7月發(fā)布的端到端模型RT-2。

“'端到端'這個事，不同人的理解不一樣。”董豪解釋，“有的人認(rèn)為RT-2這種直接輸出action的才叫'端到端'，但是那種方法缺點(diǎn)很明顯，調(diào)用大模型的頻率比較高，算力消耗特別大，而且很難做到比較高的決策速度。Figure說的‘端到端’，不是指直接輸出action，而是由高頻的模型來輸出action。”

還有一個爭議，F(xiàn)igure 01的演示視頻是不是“擺拍”？

盡管Figure創(chuàng)始人布雷特阿德科克（Brett Adcock）表示，機(jī)器人沒有遠(yuǎn)程操作，而且這個視頻是以1.0倍速（正常速度）連續(xù)拍攝的，但是質(zhì)疑者認(rèn)為，視頻中并不是一個陌生的環(huán)境，而是精心設(shè)計過的，且拍攝過程中失敗的次數(shù)難以估計，最終Figure選取了表現(xiàn)最好的一次。

人工智能和機(jī)器人領(lǐng)域技術(shù)專家、機(jī)器姬創(chuàng)始人劉智勇分析：“我認(rèn)為沒有擺拍，只是它的泛化能力，尤其是在陌生環(huán)境泛化、具身控制泛化方面，沒有通過視頻表現(xiàn)出來。如果把這個機(jī)器人丟到一個全新的環(huán)境當(dāng)中去，它可能就不行了，但是在這個環(huán)境、這個時刻，它是完全自主運(yùn)行的。”

阿德科克近期受訪時也坦言，在開放環(huán)境中完成交互是Figure正在重點(diǎn)努力的方向。

劉智勇告訴「甲子光年」，當(dāng)天晚上看到視頻的第一反應(yīng)“沒有那么震撼”，因?yàn)橐曨l里展現(xiàn)的機(jī)器人技術(shù)都是業(yè)內(nèi)熟知的，“比如推理能力、視覺描述能力和任務(wù)規(guī)劃能力，之前學(xué)術(shù)界的論文和demo里都有過展示。”

在他看來，這次OpenAI和Figure展現(xiàn)出來的“真正的新東西”是基于Transformer架構(gòu)的控制網(wǎng)絡(luò)以及Transformer網(wǎng)絡(luò)背后的數(shù)據(jù)收集（data collection）系統(tǒng)。

在機(jī)器人領(lǐng)域，數(shù)據(jù)收集系統(tǒng)是指一套用于從機(jī)器人及其所處環(huán)境中獲取信息的工具和方法。這樣的系統(tǒng)對于機(jī)器人的學(xué)習(xí)和進(jìn)步至關(guān)重要，因?yàn)樗鼮闄C(jī)器學(xué)習(xí)算法提供了必要的輸入，使機(jī)器人能夠通過經(jīng)驗(yàn)改善其性能。

“通過一套硬件設(shè)備，提供標(biāo)準(zhǔn)化的通用的訓(xùn)練數(shù)據(jù)。因?yàn)閿?shù)據(jù)收集系統(tǒng)的存在，才可以做Transformer的訓(xùn)練。我覺得這是一個巨大的突破，而不在于機(jī)器人本體突破。”劉智勇說。

而此前OpenAI解散機(jī)器人團(tuán)隊的理由就是缺乏訓(xùn)練機(jī)器人使用人工智能進(jìn)行移動和推理所需的數(shù)據(jù)，由此推斷，OpenAI能和Figure合作，也與其數(shù)據(jù)收集系統(tǒng)相關(guān)。

OpenAI此次用在Figure 01機(jī)器人上多模態(tài)模型也引發(fā)了很多人關(guān)于Sora用于機(jī)器人領(lǐng)域的猜測。李志飛并不認(rèn)同兩者之間的關(guān)聯(lián)，“Figure與Sora一點(diǎn)關(guān)系都沒有，因?yàn)镾ora現(xiàn)階段主要是生成，不是理解，就算未來Sora既能理解也能生成，是否能端到端做到200hz的決策速度也是一個很大的問題。”

還有人會擔(dān)心大模型的上下文長度限制以及“幻覺”問題，會對機(jī)器人行為產(chǎn)生影響。對此，劉智勇認(rèn)為：“通過TokenLearner（一種視覺表征學(xué)習(xí)方法）來優(yōu)化輸入數(shù)據(jù)，可以解除上下文窗口限制。而幻覺問題可以用self reflection機(jī)制或者叫內(nèi)心獨(dú)白機(jī)制來解決，通常是通過一個hierarchical planning（層次化規(guī)劃）的機(jī)制來去解決任務(wù)規(guī)劃的問題，機(jī)器人的幻覺可能不只是語言層面，還需要通過環(huán)境可供性和行為似然性解決視覺、語言和行動三者的grounding的問題。”

差距有多大？在哪里？

Figure 01機(jī)器人演示視頻破圈后，「甲子光年」與多位國內(nèi)人工智能與機(jī)器人領(lǐng)域的學(xué)者、從業(yè)者進(jìn)行了交流，業(yè)內(nèi)人士普遍認(rèn)為“效果不錯”但“并不震撼”，很多技術(shù)此前“已有研究成果”，且國內(nèi)的相關(guān)研究也“走在前列”。

但是，為什么Figure 01機(jī)器人沒有誕生在國內(nèi)？

梁亮告訴「甲子光年」，目前國內(nèi)大部分廠商和Figure的方案類似，都是通過大模型進(jìn)行感知、推理、決策，通過小模型抓取數(shù)據(jù)以及視覺判斷，但是Figure 01機(jī)器人能如此優(yōu)秀地與物理世界交互，離不開OpenAI大模型的加持，“差距不是十天半個月的，至少是一年多。”

劉智勇也認(rèn)為，國內(nèi)與世界最先進(jìn)的具身智能的差距在“一年到一年半”。但他的觀點(diǎn)有所不同，在他看來，主要是“數(shù)據(jù)收集硬件方面的差距”。

“我覺得大模型能力并不會限制具身智能發(fā)展，因?yàn)樾袨檫x擇中間層的使用說明已經(jīng)不是一個‘端到端’的方案了，而是感知決策和控制分塊的。視覺語言模型的感知和大語言模型的決策并不存在真正的瓶頸，國內(nèi)外差別不一定很大。”劉智勇對「甲子光年」說，“真正的聚焦點(diǎn)還是具身控制，我們是否能夠搭建起一套完整數(shù)據(jù)收集系統(tǒng)，能否形成一個數(shù)據(jù)的飛輪和scaling law（規(guī)模法則）的出現(xiàn)，另外數(shù)據(jù)收集系統(tǒng)還要有標(biāo)準(zhǔn)的數(shù)據(jù)格式。”

劉智勇介紹，國內(nèi)目前缺少一套公認(rèn)的數(shù)據(jù)收集系統(tǒng)以及模型訓(xùn)練的流程、數(shù)據(jù)遞歸生成的pipeline。“換句話說，我們還無法通過一套數(shù)據(jù)收集硬件設(shè)備，提供標(biāo)準(zhǔn)化的通用的訓(xùn)練數(shù)據(jù)。Figure 01正是因?yàn)檫@個系統(tǒng)的存在，可以做Transformer的訓(xùn)練。”

在ARK invest的一次訪談中，阿德科克就曾提到，收集數(shù)據(jù)并用這些數(shù)據(jù)來訓(xùn)練AI系統(tǒng)是Figure最重要的事情之一，“我們需要思考如何收集數(shù)據(jù)，如何在規(guī)模上考慮這個問題，以及如何成功地、遞歸地通過AI數(shù)據(jù)引擎循環(huán)運(yùn)行。我們花了很多時間來思考如何在規(guī)模上做到這一點(diǎn)，以及如何在早期運(yùn)營中開始這樣做。”

換言之，規(guī)�；占瘮�(shù)據(jù)是Figure保持長期競爭力的關(guān)鍵。只有批量化產(chǎn)出機(jī)器人，并在全球范圍內(nèi)推廣，才能真正完成人形機(jī)器人的內(nèi)循環(huán)，搭建起人形機(jī)器人的數(shù)據(jù)飛輪。

此外，訓(xùn)練數(shù)據(jù)所需的算力資源也是不容忽視的影響因素。

不過，近期國內(nèi)的機(jī)器人研究也有新進(jìn)展，且關(guān)注點(diǎn)就在Figure 01本次沒有展現(xiàn)的泛化能力。北大董豪團(tuán)隊發(fā)布的最新具身大模型研究成果ManipLLM的論文已被計算機(jī)視覺領(lǐng)域頂會CVPR 2024接收。

ManipLLM訓(xùn)練策略示意圖，圖片來源：受訪者

“我們的大模型重點(diǎn)是為了解決可泛化的物體操作。”董豪告訴「甲子光年」，“我們提出了使用大模型直接在物體上輸出動作的方法，而不是輸出機(jī)器人本體的動作，這樣可以提高機(jī)器人的泛化能力。”

在仿真和真實(shí)世界中，ManipLLM在各種類別的物體上均取得了令人滿意的效果，證明了其在多樣化類別物體中的可靠性和適用性。

今年3月初，劉智勇創(chuàng)辦的機(jī)器姬公司推出了面向科研和教育市場可銷售的家用機(jī)器人本體。機(jī)器姬不僅成功推出了具有長周期任務(wù)規(guī)劃能力和基礎(chǔ)操作能力的文生行動推理智能體。同時，他們還針對科研和教育市場推出了家用機(jī)器人本體科研平臺，旨在為高校和研究機(jī)構(gòu)提供一個開放的研發(fā)平臺，以促進(jìn)具身智能領(lǐng)域的科學(xué)研究和教學(xué)。

2023年底，工信部印發(fā)《人形機(jī)器人創(chuàng)新發(fā)展指導(dǎo)意見》，首次以單獨(dú)文件形式對人形機(jī)器人發(fā)展做出全面清晰的戰(zhàn)略規(guī)劃部署。意見指出，人形機(jī)器人集成人工智能、高端制造、新材料等先進(jìn)技術(shù)，有望成為繼計算機(jī)、智能手機(jī)、新能源汽車后的顛覆性產(chǎn)品，將深刻變革人類生產(chǎn)生活方式，重塑全球產(chǎn)業(yè)發(fā)展格局。

同樣是在2023年底，“人形機(jī)器人第一股”優(yōu)必選在港交所掛牌上市也給國內(nèi)機(jī)器人行業(yè)注入一針“強(qiáng)心劑”。人形機(jī)器人有沒有可能像中國新能源產(chǎn)業(yè)一樣引領(lǐng)全球？優(yōu)必選創(chuàng)始人、董事長兼CEO周劍對此很有信心：“可以非常確定的是，人形機(jī)器人的未來要看中國。”

OpenAI的機(jī)器人夢想

OpenAI最初就有研究機(jī)器人的計劃，早期OpenAI的主要目標(biāo)就包括了制造“通用”機(jī)器人和使用自然語言的聊天機(jī)器人。

“OpenAI的許多早期探索都與電子游戲、多代理模擬和機(jī)器人有關(guān)，他們在這些領(lǐng)域廣泛探索并取得了巨大成功。”OpenAI前科學(xué)家喬爾雷曼（Joel Lehman）告訴「甲子光年」。

2018年7月30日，OpenAI發(fā)布研究文章《學(xué)習(xí)靈巧性（Learning dexterity）》，并宣稱：“我們訓(xùn)練了一只類人機(jī)器人手，能夠以前所未有的靈巧程度操縱物理物體。”

這個系統(tǒng)名為Dactyl，Dactyl從零開始學(xué)習(xí)，使用與OpenAI Five相同的通用強(qiáng)化學(xué)習(xí)算法和代碼。OpenAI的研究結(jié)果表明，有可能在模擬環(huán)境中訓(xùn)練智能體，并讓它們解決現(xiàn)實(shí)世界的任務(wù)，而無需對世界的物理精確建模。

盡管世界上第一只人形手在幾十年前就開發(fā)出來了，但使用它們有效地操縱物體一直是機(jī)器人控制領(lǐng)域面臨的挑戰(zhàn)。使用傳統(tǒng)機(jī)器人方法進(jìn)行靈巧操縱的進(jìn)展緩慢，并且當(dāng)時的技術(shù)在操縱現(xiàn)實(shí)世界中的物體時，能力仍然有限。

Dactyl亮相前一個月，OpenAI發(fā)布了GPT-1，正式踏上GPT大模型之旅。此時的 OpenAI的類人機(jī)器人，還未與GPT大模型產(chǎn)生關(guān)聯(lián)。

2019年，OpenAI機(jī)器人團(tuán)隊表示，Dactyl已經(jīng)學(xué)會了單手解決魔方問題，用3分多鐘獨(dú)自摸索復(fù)原了魔方。OpenAI將這一壯舉視為機(jī)器人附屬物的靈巧性和它自己的AI軟件的飛躍。

“很多機(jī)器人都能很快解決魔方問題，這些機(jī)器人都是被制造出來專門解魔方的。”OpenAI機(jī)器人技術(shù)負(fù)責(zé)人彼得韋林德（Peter Welinder）說，“OpenAI的機(jī)器人團(tuán)隊有著截然不同的雄心壯志，我們正在試著制造一個通用機(jī)器人，就像我們的手可以做很多事情，而不僅僅是完成一項(xiàng)特定的任務(wù)。”

Dactyl就是一種“自學(xué)習(xí)”的機(jī)械手，可以像人類一樣完成新的任務(wù)。OpenAI希望有一天，Dactyl將有助于人類開發(fā)出科幻小說中的那種類人機(jī)器人。

這一年，OpenAI推出了GPT-2，發(fā)現(xiàn)了通往新大陸的航海圖。

隨后的2020年，OpenAI將所有精力和資源押注在GPT大模型上，并發(fā)布了GPT-3。這在當(dāng)時是一個外界無法理解非主流技術(shù)路線，持續(xù)下注的行為一度被視作信仰。OpenAI實(shí)驗(yàn)室逐漸剔除了所有實(shí)驗(yàn)中的項(xiàng)目，力出一孔。

2021年夏天，OpenAI的機(jī)器人團(tuán)隊等來了解散的消息。

不過，OpenAI沒有放棄打造機(jī)器人的夢想。

2022年底，ChatGPT的巨大成功讓OpenAI獲得了大量資源，不過這一次，OpenAI不再執(zhí)著于完全自研，而是投資技術(shù)路線“對口”的初創(chuàng)公司。2023年3月，OpenAI投資了來自挪威的人形機(jī)器人公司1X Technologies。

然后就是今年2月29日，OpenAI對Figure的投資與合作。

有趣的是，1X與Figure的選擇的技術(shù)路線都是端到端的神經(jīng)網(wǎng)絡(luò)對于機(jī)器人的控制。

不負(fù)眾望，F(xiàn)igure在與OpenAI宣布合作后13天，便發(fā)布了Figure 01的全新演示視頻，驚艷世界，這再次證明了OpenAI對于技術(shù)路線的超強(qiáng)洞察力。

盡管OpenAI與Figure的合作順暢，但OpenAI并未把寶都壓在一家機(jī)器人公司上。

當(dāng)?shù)貢r間3月12日，一家名為Physical Intelligence的公司宣布在舊金山成立，目標(biāo)是“為機(jī)器人構(gòu)建大腦”。根據(jù)其官網(wǎng)介紹，Physical Intelligence是一家將通用目的人工智能帶入物理世界的新公司，團(tuán)隊由工程師、科學(xué)家、機(jī)器人專家和創(chuàng)業(yè)者組成，致力于開發(fā)基礎(chǔ)模型和學(xué)習(xí)算法，為當(dāng)今的機(jī)器人和未來的物理驅(qū)動設(shè)備提供動力。

公司在其“簡陋”的官網(wǎng)上寫道，“我們感謝Khosla Ventures、Lux Capital、OpenAI、Sequoia Capital和Thrive Capital的支持和合作。”

不斷下注人形機(jī)器人公司，OpenAI重燃了機(jī)器人夢想。

在OpenAI創(chuàng)立之初，埃隆馬斯克（Elon Musk）、薩姆奧爾特曼（Sam Altman）、格雷格布羅克曼（Greg Brockman）、伊利亞蘇茨克維（Ilya Sutskever）等人曾聯(lián)合發(fā)文稱：“我們正致力于利用物理機(jī)器人（現(xiàn)有而非OpenAI開發(fā)）完成基本家務(wù)。”

而這次Figure 01機(jī)器人演示的正是完成基本家務(wù)。

曾經(jīng)擁有共同夢想的人，已經(jīng)分道揚(yáng)鑣、對簿公堂，但對于馬斯克來說，他在機(jī)器人領(lǐng)域又一次迎來了自己的“老朋友”也是“死對頭”奧爾特曼。

參考資料：

《OpenAI和Figure機(jī)器人背后的技術(shù)原理是什么？》，飛哥說AI《The Future of Human-like Robots with Figure AI’s Brett Adcock》，ARK invest《Learning dexterity》，OpenAI