展會信息港展會大全

OpenAI沒有放棄的機(jī)器人夢想
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-03-18 09:04:29   瀏覽:7955次  

導(dǎo)讀:圖片來源@視覺中國 文|甲子光年,作者|王博、艾倫 2021年夏天,OpenAI悄然解散了它的機(jī)器人團(tuán)隊,理由是缺乏訓(xùn)練機(jī)器人使用人工智能進(jìn)行移動和推理所需的數(shù)據(jù),研發(fā)受到了阻礙。 當(dāng)時,在美國創(chuàng)業(yè)孵化器Y Combinator的論壇上,BuzzFeed數(shù)據(jù)科學(xué)家馬克思伍...

圖片來源@視覺中國

文|甲子光年,作者|王博、艾倫

2021年夏天,OpenAI悄然解散了它的機(jī)器人團(tuán)隊,理由是缺乏訓(xùn)練機(jī)器人使用人工智能進(jìn)行移動和推理所需的數(shù)據(jù),研發(fā)受到了阻礙。

當(dāng)時,在美國創(chuàng)業(yè)孵化器Y Combinator的論壇上,BuzzFeed數(shù)據(jù)科學(xué)家馬克思伍爾夫(Max Woolf)直言 :“一種可能準(zhǔn)確但帶有諷刺意味的觀點(diǎn)是,研究語言模型比研究機(jī)器人學(xué)具有更高的投資回報率和更低的風(fēng)險。”

事實(shí)證明,OpenAI的確在大語言模型方面取得了更大突破。

不過,OpenAI忘記機(jī)器人了嗎?

「甲子光年」在2023北京智源大會上注意到,OpenAI CEO薩姆奧爾特曼(Sam Altman)談到了曾經(jīng)的機(jī)器人研究,他說:“我們對此很感興趣,也有過掙扎,希望有朝一日,我們能重拾機(jī)器人的研究。”

現(xiàn)在,他們又入局了。OpenAI與人形機(jī)器人初創(chuàng)公司Figure合作推出的Figure 01機(jī)器人,憑借一段2分35秒的視頻刷爆全網(wǎng),視頻中的Figure 01展現(xiàn)出了驚人的理解、判斷、行動和自我評價的能力。

這就是OpenAI和Figure宣布合作13天后的成果。此前,F(xiàn)igure已從亞馬遜創(chuàng)始人貝索斯(Bezos)、英偉達(dá)、OpenAI和微軟等巨頭那里籌集了約6.75億美元的資金,公司估值達(dá)到了26億美元。

除了資金,OpenAI還給Figure帶來了什么?

Figure 01做到的和沒做到的

Figure高級AI工程師科里林奇(Corey Lynch)介紹,在和OpenAI合作后,F(xiàn)igure 01機(jī)器人可以做到:

描述其周圍環(huán)境;在做決策時使用常識推理。例如,“桌子上的餐具,比如盤子和杯子,很可能會放入瀝水籃里”;將模糊的、高層次的請求轉(zhuǎn)換成一些情境適當(dāng)?shù)男袨。例如,?ldquo;我能吃點(diǎn)兒什么”翻譯成“給那個人一個蘋果”;用簡單的英語描述它為什么執(zhí)行了特定的行動。例如,“這是我能從桌子上給你提供的唯一可食用的物品”。

國內(nèi)某頭部機(jī)器人公司算法專家梁亮告訴「甲子光年」,接入GPT4V后,F(xiàn)igure 01機(jī)器人對環(huán)境的感知有了“巨大提升”,對人類指令的理解以及任務(wù)完成度“非常高”,并且在執(zhí)行完成后的自我評估“很到位”。

北京大學(xué)計算機(jī)學(xué)院助理教授、博士生導(dǎo)師董豪表示,OpenAI和Figure合作,帶來了機(jī)器人上層的感知決策。

“它其實(shí)是分兩層,一層是感知決策,通過大模型來實(shí)現(xiàn)。因?yàn)榇竽P捅緛砭途邆涓兄芰,感知模型將逐步被大模型取代。然后它要輸出Set-point(設(shè)定點(diǎn)),其實(shí)就是我們說的以物體為中心(Object-centric)的表達(dá)。”董豪告訴「甲子光年」,“還有一層是機(jī)器人操控,通過小模型實(shí)現(xiàn),可達(dá)到高頻200hz。然后通過運(yùn)控算法,做全身控制,讓手去到指定的位置。”

Figure團(tuán)隊介紹,Figure 01機(jī)器人由OpenAI提供視覺推理和語言理解能力,由Figure的神經(jīng)網(wǎng)絡(luò)提供快速、低層、靈巧的機(jī)器人動作能力。

為了實(shí)現(xiàn)視頻中的效果,F(xiàn)igure研究人員將機(jī)器人攝像頭捕獲的圖像和機(jī)載麥克風(fēng)捕捉到的語音轉(zhuǎn)錄文本,輸入到一個由OpenAI訓(xùn)練的大型多模態(tài)模型中,然后由該模型處理對話的整個歷史記錄,得出語言響應(yīng),然后通過文本到語音的方式將其回復(fù)給人類。

“同樣的模型,也負(fù)責(zé)決定在機(jī)器人上運(yùn)行哪些學(xué)習(xí)的閉環(huán)行為來完成給定的命令,將特定的神經(jīng)網(wǎng)絡(luò)權(quán)重加載到GPU上并執(zhí)行策略。”林奇在X上分享道。

利用一個神經(jīng)網(wǎng)絡(luò)便完成了從語音輸入到感知、推理、決策以及行為指令輸出全過程,這被Figure稱為“端到端神經(jīng)網(wǎng)絡(luò)”(end-to-end neural networks)。

Figure 01原理解釋,圖片來源:Figure

但是“端到端”的說法,引發(fā)了一些討論。

出門問問創(chuàng)始人、CEO李志飛認(rèn)為,原理上,F(xiàn)igure看起來類似于Google在2023年3月發(fā)布的PaLM-E和RT-1的pipeline組合,而不是Google于2023年7月發(fā)布的端到端模型RT-2。

“'端到端'這個事,不同人的理解不一樣。”董豪解釋,“有的人認(rèn)為RT-2這種直接輸出action的才叫'端到端',但是那種方法缺點(diǎn)很明顯,調(diào)用大模型的頻率比較高,算力消耗特別大,而且很難做到比較高的決策速度。Figure說的‘端到端’,不是指直接輸出action,而是由高頻的模型來輸出action。”

還有一個爭議,F(xiàn)igure 01的演示視頻是不是“擺拍”?

盡管Figure創(chuàng)始人布雷特阿德科克(Brett Adcock)表示,機(jī)器人沒有遠(yuǎn)程操作,而且這個視頻是以1.0倍速(正常速度)連續(xù)拍攝的,但是質(zhì)疑者認(rèn)為,視頻中并不是一個陌生的環(huán)境,而是精心設(shè)計過的,且拍攝過程中失敗的次數(shù)難以估計,最終Figure選取了表現(xiàn)最好的一次。

人工智能和機(jī)器人領(lǐng)域技術(shù)專家、機(jī)器姬創(chuàng)始人劉智勇分析:“我認(rèn)為沒有擺拍,只是它的泛化能力,尤其是在陌生環(huán)境泛化、具身控制泛化方面,沒有通過視頻表現(xiàn)出來。如果把這個機(jī)器人丟到一個全新的環(huán)境當(dāng)中去,它可能就不行了,但是在這個環(huán)境、這個時刻,它是完全自主運(yùn)行的。”

阿德科克近期受訪時也坦言,在開放環(huán)境中完成交互是Figure正在重點(diǎn)努力的方向。

劉智勇告訴「甲子光年」,當(dāng)天晚上看到視頻的第一反應(yīng)“沒有那么震撼”,因?yàn)橐曨l里展現(xiàn)的機(jī)器人技術(shù)都是業(yè)內(nèi)熟知的,“比如推理能力、視覺描述能力和任務(wù)規(guī)劃能力,之前學(xué)術(shù)界的論文和demo里都有過展示。”

在他看來,這次OpenAI和Figure展現(xiàn)出來的“真正的新東西”是基于Transformer架構(gòu)的控制網(wǎng)絡(luò)以及Transformer網(wǎng)絡(luò)背后的數(shù)據(jù)收集(data collection)系統(tǒng)。

在機(jī)器人領(lǐng)域,數(shù)據(jù)收集系統(tǒng)是指一套用于從機(jī)器人及其所處環(huán)境中獲取信息的工具和方法。這樣的系統(tǒng)對于機(jī)器人的學(xué)習(xí)和進(jìn)步至關(guān)重要,因?yàn)樗鼮闄C(jī)器學(xué)習(xí)算法提供了必要的輸入,使機(jī)器人能夠通過經(jīng)驗(yàn)改善其性能。

“通過一套硬件設(shè)備,提供標(biāo)準(zhǔn)化的通用的訓(xùn)練數(shù)據(jù)。因?yàn)閿?shù)據(jù)收集系統(tǒng)的存在,才可以做Transformer的訓(xùn)練。我覺得這是一個巨大的突破,而不在于機(jī)器人本體突破。”劉智勇說。

而此前OpenAI解散機(jī)器人團(tuán)隊的理由就是缺乏訓(xùn)練機(jī)器人使用人工智能進(jìn)行移動和推理所需的數(shù)據(jù),由此推斷,OpenAI能和Figure合作,也與其數(shù)據(jù)收集系統(tǒng)相關(guān)。

OpenAI此次用在Figure 01機(jī)器人上多模態(tài)模型也引發(fā)了很多人關(guān)于Sora用于機(jī)器人領(lǐng)域的猜測。李志飛并不認(rèn)同兩者之間的關(guān)聯(lián),“Figure與Sora一點(diǎn)關(guān)系都沒有,因?yàn)镾ora現(xiàn)階段主要是生成,不是理解,就算未來Sora既能理解也能生成,是否能端到端做到200hz的決策速度也是一個很大的問題。”

還有人會擔(dān)心大模型的上下文長度限制以及“幻覺”問題,會對機(jī)器人行為產(chǎn)生影響。對此,劉智勇認(rèn)為:“通過TokenLearner(一種視覺表征學(xué)習(xí)方法)來優(yōu)化輸入數(shù)據(jù),可以解除上下文窗口限制。而幻覺問題可以用self reflection機(jī)制或者叫內(nèi)心獨(dú)白機(jī)制來解決,通常是通過一個hierarchical planning(層次化規(guī)劃)的機(jī)制來去解決任務(wù)規(guī)劃的問題,機(jī)器人的幻覺可能不只是語言層面,還需要通過環(huán)境可供性和行為似然性解決視覺、語言和行動三者的grounding的問題。”

差距有多大?在哪里?

Figure 01機(jī)器人演示視頻破圈后,「甲子光年」與多位國內(nèi)人工智能與機(jī)器人領(lǐng)域的學(xué)者、從業(yè)者進(jìn)行了交流,業(yè)內(nèi)人士普遍認(rèn)為“效果不錯”但“并不震撼”,很多技術(shù)此前“已有研究成果”,且國內(nèi)的相關(guān)研究也“走在前列”。

但是,為什么Figure 01機(jī)器人沒有誕生在國內(nèi)?

梁亮告訴「甲子光年」,目前國內(nèi)大部分廠商和Figure的方案類似,都是通過大模型進(jìn)行感知、推理、決策,通過小模型抓取數(shù)據(jù)以及視覺判斷,但是Figure 01機(jī)器人能如此優(yōu)秀地與物理世界交互,離不開OpenAI大模型的加持,“差距不是十天半個月的,至少是一年多。”

劉智勇也認(rèn)為,國內(nèi)與世界最先進(jìn)的具身智能的差距在“一年到一年半”。但他的觀點(diǎn)有所不同,在他看來,主要是“數(shù)據(jù)收集硬件方面的差距”。

我覺得大模型能力并不會限制具身智能發(fā)展,因?yàn)樾袨檫x擇中間層的使用說明已經(jīng)不是一個‘端到端’的方案了,而是感知決策和控制分塊的。視覺語言模型的感知和大語言模型的決策并不存在真正的瓶頸,國內(nèi)外差別不一定很大。”劉智勇對「甲子光年」說,“真正的聚焦點(diǎn)還是具身控制,我們是否能夠搭建起一套完整數(shù)據(jù)收集系統(tǒng),能否形成一個數(shù)據(jù)的飛輪和scaling law(規(guī)模法則)的出現(xiàn),另外數(shù)據(jù)收集系統(tǒng)還要有標(biāo)準(zhǔn)的數(shù)據(jù)格式。

劉智勇介紹,國內(nèi)目前缺少一套公認(rèn)的數(shù)據(jù)收集系統(tǒng)以及模型訓(xùn)練的流程、數(shù)據(jù)遞歸生成的pipeline。“換句話說,我們還無法通過一套數(shù)據(jù)收集硬件設(shè)備,提供標(biāo)準(zhǔn)化的通用的訓(xùn)練數(shù)據(jù)。Figure 01正是因?yàn)檫@個系統(tǒng)的存在,可以做Transformer的訓(xùn)練。”

在ARK invest的一次訪談中,阿德科克就曾提到,收集數(shù)據(jù)并用這些數(shù)據(jù)來訓(xùn)練AI系統(tǒng)是Figure最重要的事情之一,“我們需要思考如何收集數(shù)據(jù),如何在規(guī)模上考慮這個問題,以及如何成功地、遞歸地通過AI數(shù)據(jù)引擎循環(huán)運(yùn)行。我們花了很多時間來思考如何在規(guī)模上做到這一點(diǎn),以及如何在早期運(yùn)營中開始這樣做。”

換言之,規(guī);占瘮(shù)據(jù)是Figure保持長期競爭力的關(guān)鍵。只有批量化產(chǎn)出機(jī)器人,并在全球范圍內(nèi)推廣,才能真正完成人形機(jī)器人的內(nèi)循環(huán),搭建起人形機(jī)器人的數(shù)據(jù)飛輪。

此外,訓(xùn)練數(shù)據(jù)所需的算力資源也是不容忽視的影響因素。

不過,近期國內(nèi)的機(jī)器人研究也有新進(jìn)展,且關(guān)注點(diǎn)就在Figure 01本次沒有展現(xiàn)的泛化能力。北大董豪團(tuán)隊發(fā)布的最新具身大模型研究成果ManipLLM的論文已被計算機(jī)視覺領(lǐng)域頂會CVPR 2024接收。

ManipLLM訓(xùn)練策略示意圖,圖片來源:受訪者

“我們的大模型重點(diǎn)是為了解決可泛化的物體操作。”董豪告訴「甲子光年」,“我們提出了使用大模型直接在物體上輸出動作的方法,而不是輸出機(jī)器人本體的動作,這樣可以提高機(jī)器人的泛化能力。”

在仿真和真實(shí)世界中,ManipLLM在各種類別的物體上均取得了令人滿意的效果,證明了其在多樣化類別物體中的可靠性和適用性。

今年3月初,劉智勇創(chuàng)辦的機(jī)器姬公司推出了面向科研和教育市場可銷售的家用機(jī)器人本體。機(jī)器姬不僅成功推出了具有長周期任務(wù)規(guī)劃能力和基礎(chǔ)操作能力的文生行動推理智能體。同時,他們還針對科研和教育市場推出了家用機(jī)器人本體科研平臺,旨在為高校和研究機(jī)構(gòu)提供一個開放的研發(fā)平臺,以促進(jìn)具身智能領(lǐng)域的科學(xué)研究和教學(xué)。

2023年底,工信部印發(fā)《人形機(jī)器人創(chuàng)新發(fā)展指導(dǎo)意見》,首次以單獨(dú)文件形式對人形機(jī)器人發(fā)展做出全面清晰的戰(zhàn)略規(guī)劃部署。意見指出,人形機(jī)器人集成人工智能、高端制造、新材料等先進(jìn)技術(shù),有望成為繼計算機(jī)、智能手機(jī)、新能源汽車后的顛覆性產(chǎn)品,將深刻變革人類生產(chǎn)生活方式,重塑全球產(chǎn)業(yè)發(fā)展格局。

同樣是在2023年底,“人形機(jī)器人第一股”優(yōu)必選在港交所掛牌上市也給國內(nèi)機(jī)器人行業(yè)注入一針“強(qiáng)心劑”。人形機(jī)器人有沒有可能像中國新能源產(chǎn)業(yè)一樣引領(lǐng)全球?優(yōu)必選創(chuàng)始人、董事長兼CEO周劍對此很有信心:“可以非常確定的是,人形機(jī)器人的未來要看中國。”

OpenAI的機(jī)器人夢想

OpenAI最初就有研究機(jī)器人的計劃,早期OpenAI的主要目標(biāo)就包括了制造“通用”機(jī)器人和使用自然語言的聊天機(jī)器人。

“OpenAI的許多早期探索都與電子游戲、多代理模擬和機(jī)器人有關(guān),他們在這些領(lǐng)域廣泛探索并取得了巨大成功。”OpenAI前科學(xué)家喬爾雷曼(Joel Lehman)告訴「甲子光年」。

2018年7月30日,OpenAI發(fā)布研究文章《學(xué)習(xí)靈巧性(Learning dexterity)》,并宣稱:“我們訓(xùn)練了一只類人機(jī)器人手,能夠以前所未有的靈巧程度操縱物理物體。”

這個系統(tǒng)名為Dactyl,Dactyl從零開始學(xué)習(xí),使用與OpenAI Five相同的通用強(qiáng)化學(xué)習(xí)算法和代碼。OpenAI的研究結(jié)果表明,有可能在模擬環(huán)境中訓(xùn)練智能體,并讓它們解決現(xiàn)實(shí)世界的任務(wù),而無需對世界的物理精確建模。

盡管世界上第一只人形手在幾十年前就開發(fā)出來了,但使用它們有效地操縱物體一直是機(jī)器人控制領(lǐng)域面臨的挑戰(zhàn)。使用傳統(tǒng)機(jī)器人方法進(jìn)行靈巧操縱的進(jìn)展緩慢,并且當(dāng)時的技術(shù)在操縱現(xiàn)實(shí)世界中的物體時,能力仍然有限。

Dactyl亮相前一個月,OpenAI發(fā)布了GPT-1,正式踏上GPT大模型之旅。此時的 OpenAI的類人機(jī)器人,還未與GPT大模型產(chǎn)生關(guān)聯(lián)。

2019年,OpenAI機(jī)器人團(tuán)隊表示,Dactyl已經(jīng)學(xué)會了單手解決魔方問題,用3分多鐘獨(dú)自摸索復(fù)原了魔方。OpenAI將這一壯舉視為機(jī)器人附屬物的靈巧性和它自己的AI軟件的飛躍。

“很多機(jī)器人都能很快解決魔方問題,這些機(jī)器人都是被制造出來專門解魔方的。”OpenAI機(jī)器人技術(shù)負(fù)責(zé)人彼得韋林德(Peter Welinder)說,“OpenAI的機(jī)器人團(tuán)隊有著截然不同的雄心壯志,我們正在試著制造一個通用機(jī)器人,就像我們的手可以做很多事情,而不僅僅是完成一項(xiàng)特定的任務(wù)。”

Dactyl就是一種“自學(xué)習(xí)”的機(jī)械手,可以像人類一樣完成新的任務(wù)。OpenAI希望有一天,Dactyl將有助于人類開發(fā)出科幻小說中的那種類人機(jī)器人。

這一年,OpenAI推出了GPT-2,發(fā)現(xiàn)了通往新大陸的航海圖。

隨后的2020年,OpenAI將所有精力和資源押注在GPT大模型上,并發(fā)布了GPT-3。這在當(dāng)時是一個外界無法理解非主流技術(shù)路線,持續(xù)下注的行為一度被視作信仰。OpenAI實(shí)驗(yàn)室逐漸剔除了所有實(shí)驗(yàn)中的項(xiàng)目,力出一孔。

2021年夏天,OpenAI的機(jī)器人團(tuán)隊等來了解散的消息。

不過,OpenAI沒有放棄打造機(jī)器人的夢想。

2022年底,ChatGPT的巨大成功讓OpenAI獲得了大量資源,不過這一次,OpenAI不再執(zhí)著于完全自研,而是投資技術(shù)路線“對口”的初創(chuàng)公司。2023年3月,OpenAI投資了來自挪威的人形機(jī)器人公司1X Technologies。

然后就是今年2月29日,OpenAI對Figure的投資與合作。

有趣的是,1X與Figure的選擇的技術(shù)路線都是端到端的神經(jīng)網(wǎng)絡(luò)對于機(jī)器人的控制。

不負(fù)眾望,F(xiàn)igure在與OpenAI宣布合作后13天,便發(fā)布了Figure 01的全新演示視頻,驚艷世界,這再次證明了OpenAI對于技術(shù)路線的超強(qiáng)洞察力。

盡管OpenAI與Figure的合作順暢,但OpenAI并未把寶都壓在一家機(jī)器人公司上。

當(dāng)?shù)貢r間3月12日,一家名為Physical Intelligence的公司宣布在舊金山成立,目標(biāo)是“為機(jī)器人構(gòu)建大腦”。根據(jù)其官網(wǎng)介紹,Physical Intelligence是一家將通用目的人工智能帶入物理世界的新公司,團(tuán)隊由工程師、科學(xué)家、機(jī)器人專家和創(chuàng)業(yè)者組成,致力于開發(fā)基礎(chǔ)模型和學(xué)習(xí)算法,為當(dāng)今的機(jī)器人和未來的物理驅(qū)動設(shè)備提供動力。

公司在其“簡陋”的官網(wǎng)上寫道,“我們感謝Khosla Ventures、Lux Capital、OpenAI、Sequoia Capital和Thrive Capital的支持和合作。”

不斷下注人形機(jī)器人公司,OpenAI重燃了機(jī)器人夢想。

在OpenAI創(chuàng)立之初,埃隆馬斯克(Elon Musk)、薩姆奧爾特曼(Sam Altman)、格雷格布羅克曼(Greg Brockman)、伊利亞蘇茨克維(Ilya Sutskever)等人曾聯(lián)合發(fā)文稱:“我們正致力于利用物理機(jī)器人(現(xiàn)有而非OpenAI開發(fā))完成基本家務(wù)。”

而這次Figure 01機(jī)器人演示的正是完成基本家務(wù)。

曾經(jīng)擁有共同夢想的人,已經(jīng)分道揚(yáng)鑣、對簿公堂,但對于馬斯克來說,他在機(jī)器人領(lǐng)域又一次迎來了自己的“老朋友”也是“死對頭”奧爾特曼。

參考資料:

《OpenAI和Figure機(jī)器人背后的技術(shù)原理是什么?》,飛哥說AI《The Future of Human-like Robots with Figure AI’s Brett Adcock》,ARK invest《Learning dexterity》,OpenAI

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港