展會信息港展會大全

幫人做晚飯、跑腿和疊衣服,AI可以幫助機器人做到這些嗎? |《自然》長文
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-09-06 13:52:13   瀏覽:1781次  

導讀:原文作者:Elizabeth Gibney 人工智能與機器人技術交匯融合,相互助力實現(xiàn)飛速發(fā)展。 美國Figure公司開發(fā)的人形機器人使用了OpenAI的語言視覺模型。圖片來源:AP Photo/Jae C. Hong/Alamy 對于看著《星球大戰(zhàn)》長大的這一代科學家來說,屋里屋外仍見不到如C-...

原文作者:Elizabeth Gibney

人工智能與機器人技術交匯融合,相互助力實現(xiàn)飛速發(fā)展。

美國Figure公司開發(fā)的人形機器人使用了OpenAI的語言視覺模型。圖片來源:AP Photo/Jae C. Hong/Alamy

對于看著《星球大戰(zhàn)》長大的這一代科學家來說,屋里屋外仍見不到如C-3PO般智能的機器人,實在令人失望。那些能夠在工作生活中為我們提供幫助的人形機器人,到底何時才能出現(xiàn)呢?

人工智能技術的快速發(fā)展或能填補這一空白。美國斯坦福大學機器學習和機器人研究人員Alexander Khazatsky說:“如果下一代人就能目睹那些科幻場景變?yōu)楝F(xiàn)實,我也絲毫不會感到驚訝。”

從OpenAI到谷歌DeepMind,幾乎所有人工智能領域的科技巨頭,都在致力于將支持聊天機器人的多功能學習算法(即基礎模型)引入機器人領域,從而使機器人具備常識,有能力處理各種任務。許多研究人員認為,未來機器人功能將更強大,反應將更迅速。美國科技公司英偉達的機器人營銷經(jīng)理Gerard Andrews說:“我們相信機器人行業(yè)將迎來巨大變革。”今年三月,英偉達公司發(fā)布了用于人形機器人的通用人工智能模型。

與此同時,機器人還能促進人工智能的發(fā)展。許多研究人員希望,在人工智能訓練中,通過引入環(huán)境互動實現(xiàn)“人工通用智能”,即人工智能在處理各項任務時展現(xiàn)出類似人類的認知能力。美國Meta公司的人工智能研究員Akshara Rai說:“具身智能是通向真正智能的最后一步。”

不過,盡管許多研究人員對將人工智能引入機器人行業(yè)感到興奮,但他們也提醒說,一些看著很厲害的演示也僅僅只是演示而已,往往是希望引發(fā)熱議的公司所為。美國麻省理工學院的機器人專家Rodney Brooks認為,從演示到實際應用,任重而道遠。其公司iRobot研發(fā)了Roomba掃地機器人。

人工智能與機器人融合之路阻礙重重,例如,需要收集大量合適的數(shù)據(jù)供機器人學習,解決硬件穩(wěn)定性以及安全性等問題。新加坡國立大學人機互動專家Harold Soh認為,“應該探索”用于機器人的基礎模型。然而,這能否像一些研究人員所愿觸發(fā)機器人行業(yè)的革命,他對此持保留態(tài)度。

堅實的基礎

機器人這個詞的內(nèi)涵包括了各種自動化設備,從廣泛用于制造業(yè)的機械臂,到自動駕駛汽車和用于戰(zhàn)爭和救援任務的無人機。多數(shù)機器人都不同程度地應用了人工智能技術,例如物體識別。美國機器人公司創(chuàng)新中心MassRobotics的聯(lián)合創(chuàng)始人Joyce Sidopoulos指出,這些機器人一般用于執(zhí)行特定任務,在特定環(huán)境中工作,或在一定程度上還需要人工控制。美國機器人公司Boston Dynamics研發(fā)的機器人Atlas,曾在2018年展示了令人驚嘆的跑酷技能。然而,即使是Atlas,也需要在全面探測周邊環(huán)境后,基于內(nèi)置模板庫選擇最佳行動方案。

大多數(shù)涉足機器人領域的人工智能專家,希望研發(fā)出行動更自主、適應性更強的機器人。Sidopoulos說,他們的工作可能始于工廠“取放”產(chǎn)品的機械臂,最終或能研發(fā)出為老年人提供陪伴和支持的人形機器人,“應用領域非常廣泛。”

人形機器人在設計上很復雜,而且可能不適用于某些任務,但它有一個巨大優(yōu)勢,即完美融入人類構建的世界,像人一樣與周圍的環(huán)境互動。

然而,控制機器人非常困難,人形機器人尤甚。那些看似簡單的任務,比如開個門,實際上卻非常復雜,要求機器人了解門開合的不同機制,對把手施力大小,以及如何在這個過程中保持平衡。現(xiàn)實世界變化不僅多端,而且持續(xù)變化著。

目前流行的機器人控制方式,是使用驅動ChatGPT等聊天機器人和圖像生成器的人工智能基礎模型。這類模型基于類似大腦的神經(jīng)網(wǎng)絡,學習大量通用數(shù)據(jù)。它們將訓練數(shù)據(jù)的不同元素相互關聯(lián),收到輸出指令時,利用這些關聯(lián)生成恰當?shù)膯卧~或圖像,結果往往令人驚嘆。

同樣,機器人基礎模型也通過互聯(lián)網(wǎng)上的文本和圖像進行訓練,獲取物體性質及環(huán)境等信息。它還能從機器人操作實例中學習。例如,觀看視頻中機器人根據(jù)指令反復嘗試或人類遠程操作機器人,輔以相應指令,可用于訓練機器人基礎模型。經(jīng)過訓練的機器人基礎模型可以觀察場景,并利用所學來預測什么操作能帶來最佳結果。

谷歌DeepMind公司研發(fā)的的機器人基礎模型Robotic Transformer 2 (RT-2) 處于業(yè)內(nèi)領先水平,可用于操作其姊妹公司Everyday Robots打造的移動機械臂。同其它機器人基礎模型一樣,它也是用互聯(lián)網(wǎng)和機器人操作視頻進行訓練的。得益于線上訓練,即使指令超出視頻學習范圍,RT-2也可以完成指令[1]。例如,它可以按照指令將飲料罐放到泰勒斯威夫特的照片上,盡管RT-2觀看的13萬個操作示例中并沒有出現(xiàn)過這位明星的圖像。

換言之,機器人能將從互聯(lián)網(wǎng)中獲取的知識(比如歌手泰勒斯威夫特的長相)應用于操作中。美國谷歌DeepMind公司的人工智能和機器人研究員 Keerthana Gopalakrishnan指出,“機器人能夠遷移應用由互聯(lián)網(wǎng)習得的概念”,這從根本上減少了機器人為應對不同情況而需要學習的數(shù)據(jù)量。

然而,要完全理解動作的基本原理及其影響,機器人仍需學習大量操作實例。問題就在這里。

數(shù)據(jù)匱乏

聊天機器人可通過互聯(lián)網(wǎng)中浩如煙海的詞匯進行訓練,但我們無法找到同等量級的機器人行為的數(shù)據(jù)。Khazatsky說,數(shù)據(jù)的缺乏讓機器人技術止步不前。

一個辦法是收集數(shù)據(jù)。Khazatsky和同事創(chuàng)建了開源數(shù)據(jù)集DROID[2],收錄全球18個實驗室遠程操作德國Franka Robotics公司制造的Franka Panda 7DoF機械臂的視頻,時常約350小時。這些視頻以機器人視角錄制,操作環(huán)境包括浴室、洗衣房、臥室和廚房等。Khazatsky說,場景的多樣性有助于機器人出色完成未曾接觸過的任務。

接到指令“找出滅絕的動物”后,谷歌 RT-2機器人從桌上一堆物品中選擇了恐龍玩具。圖片來源:谷歌DeepMind

Gopalakrishnan參與了十余個實驗室的聯(lián)合項目,致力于收集從單機械臂到四機械臂等多種形態(tài)的機器人數(shù)據(jù)。他們認為,學習一類機器人與現(xiàn)實世界交互的經(jīng)驗,有助于人工智能操控其它類型的機器人,就像學習英語可以幫助語言模型生成中文,因為不同語言所描述世界的基本概念是相同的。這似乎是可行的。該項目研發(fā)的基礎模型RT-X已于2023年10月發(fā)布[3],與基于單一機器人架構訓練的模型相比,它在實際任務中表現(xiàn)更出色。

許多研究人員表示,這種多樣性至關重要。人工智能專家、美國人工智能公司Covariant聯(lián)合創(chuàng)始人陳曦(Peter Chen)說:“我們認為,真正的機器人基礎模型不應該只囿于一種機器人形態(tài)。”

Covariant也在努力擴大機器人數(shù)據(jù)庫規(guī)模。該公司由前OpenAI研究人員參與創(chuàng)建,他們自2018 年開始收集30種機械臂的數(shù)據(jù)。這些機械臂來自全球各地的倉庫,均使用Covariant的軟件。Covariant的Robotics Foundation Model 1(RFM-1)采集的數(shù)據(jù)不僅有視頻,還包括貨物重量、施力大小等傳感器讀數(shù)。Gopalakrishnan解釋,理論上,這類數(shù)據(jù)有助于機器人處理柔軟的物體,例如使它學會避免擠壓香蕉。

Covariant建立了一個專有數(shù)據(jù)庫,數(shù)據(jù)量達到數(shù)千億token(現(xiàn)實世界的機器人信息單位)。陳曦介紹,這與OpenAI 2020年發(fā)布的大語言模型GPT-3的訓練數(shù)據(jù)規(guī)模相當。他說:“我們擁有的這類數(shù)據(jù)最多,這是我們一直以來關注的重點。”陳曦表示, RFM-1即將發(fā)布,屆時搭載Covariant軟件的機器人的操作員,就可以用文字或語音發(fā)布一般性指令,例如“從儲藏箱中取出蘋果”。

另一種獲取大量動作類視頻的方法針對于人形機器人,讓人工智能通過觀看真人視頻來學習網(wǎng)絡上能找到數(shù)以十億計的真人視頻。Andrews舉例說,英偉達公司的GR00T基礎模型正在學習人類執(zhí)行各種任務的視頻。Gopalakrishnan說,盡管模仿人類有望提高機器人技能,但這并非易事。她解釋道,機器人視頻一般都附有背景介紹和對應指令等信息,而真人視頻則沒有。

虛擬現(xiàn)實

研究人員說,獲取交互數(shù)據(jù)的最后一個可行方法是模擬。許多機器人專家正在研究建立三維虛擬現(xiàn)實環(huán)境,其物理機制與真實世界類似,然后將其連接到機器人大腦進行訓練。模擬器可以產(chǎn)生大量數(shù)據(jù),讓人類和機器人在罕見或危險的虛擬場景中互動,這樣既沒有風險,也不會造成機械損傷。英偉達公司的Andrews說:“如果你有大量機械臂,想通過實操練習讓它們變得靈活,那電機恐怕要過熱報廢了。”

然而,打造性能優(yōu)良的模擬器也不容易。Khazatsky說:“模擬器物理特性優(yōu)良,但還達不到完美的程度,要模擬多樣化的場景,難度幾乎與收集多樣化的數(shù)據(jù)相當。”

Meta和英偉達公司都押注通過模擬增加機器人數(shù)據(jù)。他們分別建立了復雜的模擬世界Habitat和Isaac Sim。在這些模擬世界中,機器人在數(shù)小時內(nèi)就能獲得在真實世界數(shù)年才能積累的經(jīng)驗,然后在試驗中成功利用所學應對現(xiàn)實世界中從未遇到過的情況。Rai說:“模擬是推動機器人技術發(fā)展的強大工具,但卻未得到足夠的重視,我很高興看到它的發(fā)展勢頭越來越好。”

許多研究人員認為,基礎模型能夠制造出可替代人工的通用機器人。今年二月,美國機器人公司 Figure獲得6.75億美元投資,用于研發(fā)搭載OpenAI語言視覺模型的通用人形機器人。在一段展示視頻中,機器人得到“給我一些食物”的模糊請求后,給人拿來了一個蘋果。這段視頻在X(前身為 Twitter)上的點擊量已達480萬次。

這個機器人的基礎模型是如何訓練的,它在不同環(huán)境中具體表現(xiàn)如何,目前尚不清楚(OpenAI 和Figure都未回應《自然》的采訪請求)。Soh認為應謹慎對待這種展示。他說,視頻中的環(huán)境非?諘。提高環(huán)境的復雜度可能會讓機器人感到困擾,就像自動駕駛汽車難以應對復雜路況。Soh說:“作為機器人的研究者,我們有理由對這類視頻持保留態(tài)度。作為制作者,我們知道100次拍攝通常只能成功一次。”

前路的挑戰(zhàn)

人工智能專家在機器人大腦研發(fā)領域突破不斷,但機器人行業(yè)有人指出硬件也是一個挑戰(zhàn):機器人設計復雜,而且經(jīng)常損壞。陳曦說,硬件雖在升級,但“很多人只看到基礎模型的發(fā)展前景,卻不知道打造這類機器人有多困難。”

另一個問題是,使用視覺數(shù)據(jù)完成大多數(shù)交互訓練的機器人基礎模型,到底可以走多遠。Soh指出,機器人可能需要大量其他類型的感覺數(shù)據(jù),例如觸覺或本體感覺(身體在空間中的位置感)。目前還沒有這樣的數(shù)據(jù)集。他說:“我認為,這些缺失的數(shù)據(jù),對人形機器人在真實環(huán)境中高效工作是必需的。”

將基礎模型應用于真實世界還面臨著另一個重大挑戰(zhàn)安全性。近兩年,大語言模型大量涌現(xiàn),人們發(fā)現(xiàn)它們會提供錯誤和有偏見的信息。它們還可能受到誘導做程序禁止的事情,比如告訴用戶如何制作炸彈。賦予人工智能一個軀體,就會把這類錯誤引入真實世界,產(chǎn)生威脅。Gopalakrishnan說:“如果機器人出錯,會傷到人、弄壞東西,或造成損害。”

Gopalakrishnan介紹,機器人行業(yè)將借鑒人工智能安全領域的寶貴經(jīng)驗。此外,她的團隊還為一些機器人人工智能模型設置了等級高于學習的規(guī)則,例如不要嘗試與人、動物或其它生物體互動的任務。她說:“在我們對機器人有信心之前,需要大量的人類監(jiān)管。”

盡管存在風險,但人工智能和機器人技術的融合和促進方興未艾。Gopalakrishnan認為,將人工智能大腦與實體機器人關聯(lián),可以改善基礎模型,例如讓它們具備更好的空間推理能力。Rai說,一些研究人員認為“真正的智能只能產(chǎn)生于與真實世界的互動之中”,Meta正是踐行者之一。有人說,現(xiàn)實世界中的互動,能讓人工智能不再囿于學習模式和預測,真正理解這個世界并進行推理。

未來如何,尚無定論。Brooks認為,機器人會不斷改進并應用于新的領域,但這些應用終究不如人形機器人替代人類勞動來得吸引人。然而,也有人認為,研發(fā)出實用安全的人形機器人,幫人做晚飯、跑腿和疊衣服是可能的,只不過可能要花費數(shù)億美元。Khazatsky說:“我相信有人能成功的。就是要花上大量的金錢,還有時間。”

原文以The AI revolution is coming to robots: how will it change them?標題發(fā)表在2024年5月28日《自然》的新聞特寫版塊上

nature

贊助本站

人工智能實驗室
相關內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港