當前位置：人工智能實驗室> 機器人 > 幫人做晚飯、跑腿和疊衣服，AI可以幫助機器人做到這些嗎？ |《自然》長文

幫人做晚飯、跑腿和疊衣服，AI可以幫助機器人做到這些嗎？ |《自然》長文
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-06 13:52:13 瀏覽：1781次

導讀：原文作者：Elizabeth Gibney 人工智能與機器人技術交匯融合，相互助力實現(xiàn)飛速發(fā)展。美國Figure公司開發(fā)的人形機器人使用了OpenAI的語言視覺模型。圖片來源：AP Photo/Jae C. Hong/Alamy 對于看著《星球大戰(zhàn)》長大的這一代科學家來說，屋里屋外仍見不到如C-...

原文作者：Elizabeth Gibney

人工智能與機器人技術交匯融合，相互助力實現(xiàn)飛速發(fā)展。

美國Figure公司開發(fā)的人形機器人使用了OpenAI的語言視覺模型。圖片來源：AP Photo/Jae C. Hong/Alamy

對于看著《星球大戰(zhàn)》長大的這一代科學家來說，屋里屋外仍見不到如C-3PO般智能的機器人，實在令人失望。那些能夠在工作生活中為我們提供幫助的人形機器人，到底何時才能出現(xiàn)呢？

人工智能技術的快速發(fā)展或能填補這一空白。美國斯坦福大學機器學習和機器人研究人員Alexander Khazatsky說：“如果下一代人就能目睹那些科幻場景變?yōu)楝F(xiàn)實，我也絲毫不會感到驚訝。”

從OpenAI到谷歌DeepMind，幾乎所有人工智能領域的科技巨頭，都在致力于將支持聊天機器人的多功能學習算法（即基礎模型）引入機器人領域，從而使機器人具備常識，有能力處理各種任務。許多研究人員認為，未來機器人功能將更強大，反應將更迅速。美國科技公司英偉達的機器人營銷經(jīng)理Gerard Andrews說：“我們相信機器人行業(yè)將迎來巨大變革。”今年三月，英偉達公司發(fā)布了用于人形機器人的通用人工智能模型。

與此同時，機器人還能促進人工智能的發(fā)展。許多研究人員希望，在人工智能訓練中，通過引入環(huán)境互動實現(xiàn)“人工通用智能”，即人工智能在處理各項任務時展現(xiàn)出類似人類的認知能力。美國Meta公司的人工智能研究員Akshara Rai說：“具身智能是通向真正智能的最后一步。”

不過，盡管許多研究人員對將人工智能引入機器人行業(yè)感到興奮，但他們也提醒說，一些看著很厲害的演示也僅僅只是演示而已，往往是希望引發(fā)熱議的公司所為。美國麻省理工學院的機器人專家Rodney Brooks認為，從演示到實際應用，任重而道遠。其公司iRobot研發(fā)了Roomba掃地機器人。

人工智能與機器人融合之路阻礙重重，例如，需要收集大量合適的數(shù)據(jù)供機器人學習，解決硬件穩(wěn)定性以及安全性等問題。新加坡國立大學人機互動專家Harold Soh認為，“應該探索”用于機器人的基礎模型。然而，這能否像一些研究人員所愿觸發(fā)機器人行業(yè)的革命，他對此持保留態(tài)度。

堅實的基礎

機器人這個詞的內(nèi)涵包括了各種自動化設備，從廣泛用于制造業(yè)的機械臂，到自動駕駛汽車和用于戰(zhàn)爭和救援任務的無人機。多數(shù)機器人都不同程度地應用了人工智能技術，例如物體識別。美國機器人公司創(chuàng)新中心MassRobotics的聯(lián)合創(chuàng)始人Joyce Sidopoulos指出，這些機器人一般用于執(zhí)行特定任務，在特定環(huán)境中工作，或在一定程度上還需要人工控制。美國機器人公司Boston Dynamics研發(fā)的機器人Atlas，曾在2018年展示了令人驚嘆的跑酷技能。然而，即使是Atlas，也需要在全面探測周邊環(huán)境后，基于內(nèi)置模板庫選擇最佳行動方案。

大多數(shù)涉足機器人領域的人工智能專家，希望研發(fā)出行動更自主、適應性更強的機器人。Sidopoulos說，他們的工作可能始于工廠“取放”產(chǎn)品的機械臂，最終或能研發(fā)出為老年人提供陪伴和支持的人形機器人，“應用領域非常廣泛。”

人形機器人在設計上很復雜，而且可能不適用于某些任務，但它有一個巨大優(yōu)勢，即完美融入人類構建的世界，像人一樣與周圍的環(huán)境互動。

然而，控制機器人非常困難，人形機器人尤甚。那些看似簡單的任務，比如開個門，實際上卻非常復雜，要求機器人了解門開合的不同機制，對把手施力大小，以及如何在這個過程中保持平衡。現(xiàn)實世界變化不僅多端，而且持續(xù)變化著。

目前流行的機器人控制方式，是使用驅動ChatGPT等聊天機器人和圖像生成器的人工智能基礎模型。這類模型基于類似大腦的神經(jīng)網(wǎng)絡，學習大量通用數(shù)據(jù)。它們將訓練數(shù)據(jù)的不同元素相互關聯(lián)，收到輸出指令時，利用這些關聯(lián)生成恰當?shù)膯卧~或圖像，結果往往令人驚嘆。

同樣，機器人基礎模型也通過互聯(lián)網(wǎng)上的文本和圖像進行訓練，獲取物體性質及環(huán)境等信息。它還能從機器人操作實例中學習。例如，觀看視頻中機器人根據(jù)指令反復嘗試或人類遠程操作機器人，輔以相應指令，可用于訓練機器人基礎模型。經(jīng)過訓練的機器人基礎模型可以觀察場景，并利用所學來預測什么操作能帶來最佳結果。

谷歌DeepMind公司研發(fā)的的機器人基礎模型Robotic Transformer 2 (RT-2) 處于業(yè)內(nèi)領先水平，可用于操作其姊妹公司Everyday Robots打造的移動機械臂。同其它機器人基礎模型一樣，它也是用互聯(lián)網(wǎng)和機器人操作視頻進行訓練的。得益于線上訓練，即使指令超出視頻學習范圍，RT-2也可以完成指令[1]。例如，它可以按照指令將飲料罐放到泰勒斯威夫特的照片上，盡管RT-2觀看的13萬個操作示例中并沒有出現(xiàn)過這位明星的圖像。

換言之，機器人能將從互聯(lián)網(wǎng)中獲取的知識（比如歌手泰勒斯威夫特的長相）應用于操作中。美國谷歌DeepMind公司的人工智能和機器人研究員 Keerthana Gopalakrishnan指出，“機器人能夠遷移應用由互聯(lián)網(wǎng)習得的概念”，這從根本上減少了機器人為應對不同情況而需要學習的數(shù)據(jù)量。

然而，要完全理解動作的基本原理及其影響，機器人仍需學習大量操作實例。問題就在這里。

數(shù)據(jù)匱乏

聊天機器人可通過互聯(lián)網(wǎng)中浩如煙海的詞匯進行訓練，但我們無法找到同等量級的機器人行為的數(shù)據(jù)。Khazatsky說，數(shù)據(jù)的缺乏讓機器人技術止步不前。

一個辦法是收集數(shù)據(jù)。Khazatsky和同事創(chuàng)建了開源數(shù)據(jù)集DROID[2]，收錄全球18個實驗室遠程操作德國Franka Robotics公司制造的Franka Panda 7DoF機械臂的視頻，時常約350小時。這些視頻以機器人視角錄制，操作環(huán)境包括浴室、洗衣房、臥室和廚房等。Khazatsky說，場景的多樣性有助于機器人出色完成未曾接觸過的任務。

接到指令“找出滅絕的動物”后，谷歌 RT-2機器人從桌上一堆物品中選擇了恐龍玩具。圖片來源：谷歌DeepMind

Gopalakrishnan參與了十余個實驗室的聯(lián)合項目，致力于收集從單機械臂到四機械臂等多種形態(tài)的機器人數(shù)據(jù)。他們認為，學習一類機器人與現(xiàn)實世界交互的經(jīng)驗，有助于人工智能操控其它類型的機器人，就像學習英語可以幫助語言模型生成中文，因為不同語言所描述世界的基本概念是相同的。這似乎是可行的。該項目研發(fā)的基礎模型RT-X已于2023年10月發(fā)布[3]，與基于單一機器人架構訓練的模型相比，它在實際任務中表現(xiàn)更出色。

許多研究人員表示，這種多樣性至關重要。人工智能專家、美國人工智能公司Covariant聯(lián)合創(chuàng)始人陳曦（Peter Chen）說：“我們認為，真正的機器人基礎模型不應該只囿于一種機器人形態(tài)。”

Covariant也在努力擴大機器人數(shù)據(jù)庫規(guī)模。該公司由前OpenAI研究人員參與創(chuàng)建，他們自2018 年開始收集30種機械臂的數(shù)據(jù)。這些機械臂來自全球各地的倉庫，均使用Covariant的軟件。Covariant的Robotics Foundation Model 1（RFM-1）采集的數(shù)據(jù)不僅有視頻，還包括貨物重量、施力大小等傳感器讀數(shù)。Gopalakrishnan解釋，理論上，這類數(shù)據(jù)有助于機器人處理柔軟的物體，例如使它學會避免擠壓香蕉。

Covariant建立了一個專有數(shù)據(jù)庫，數(shù)據(jù)量達到數(shù)千億token（現(xiàn)實世界的機器人信息單位）。陳曦介紹，這與OpenAI 2020年發(fā)布的大語言模型GPT-3的訓練數(shù)據(jù)規(guī)模相當。他說：“我們擁有的這類數(shù)據(jù)最多，這是我們一直以來關注的重點。”陳曦表示， RFM-1即將發(fā)布，屆時搭載Covariant軟件的機器人的操作員，就可以用文字或語音發(fā)布一般性指令，例如“從儲藏箱中取出蘋果”。

另一種獲取大量動作類視頻的方法針對于人形機器人，讓人工智能通過觀看真人視頻來學習網(wǎng)絡上能找到數(shù)以十億計的真人視頻。Andrews舉例說，英偉達公司的GR00T基礎模型正在學習人類執(zhí)行各種任務的視頻。Gopalakrishnan說，盡管模仿人類有望提高機器人技能，但這并非易事。她解釋道，機器人視頻一般都附有背景介紹和對應指令等信息，而真人視頻則沒有。

虛擬現(xiàn)實

研究人員說，獲取交互數(shù)據(jù)的最后一個可行方法是模擬。許多機器人專家正在研究建立三維虛擬現(xiàn)實環(huán)境，其物理機制與真實世界類似，然后將其連接到機器人大腦進行訓練。模擬器可以產(chǎn)生大量數(shù)據(jù)，讓人類和機器人在罕見或危險的虛擬場景中互動，這樣既沒有風險，也不會造成機械損傷。英偉達公司的Andrews說：“如果你有大量機械臂，想通過實操練習讓它們變得靈活，那電機恐怕要過熱報廢了。”

然而，打造性能優(yōu)良的模擬器也不容易。Khazatsky說：“模擬器物理特性優(yōu)良，但還達不到完美的程度，要模擬多樣化的場景，難度幾乎與收集多樣化的數(shù)據(jù)相當。”

Meta和英偉達公司都押注通過模擬增加機器人數(shù)據(jù)。他們分別建立了復雜的模擬世界Habitat和Isaac Sim。在這些模擬世界中，機器人在數(shù)小時內(nèi)就能獲得在真實世界數(shù)年才能積累的經(jīng)驗，然后在試驗中成功利用所學應對現(xiàn)實世界中從未遇到過的情況。Rai說：“模擬是推動機器人技術發(fā)展的強大工具，但卻未得到足夠的重視，我很高興看到它的發(fā)展勢頭越來越好。”

許多研究人員認為，基礎模型能夠制造出可替代人工的通用機器人。今年二月，美國機器人公司 Figure獲得6.75億美元投資，用于研發(fā)搭載OpenAI語言視覺模型的通用人形機器人。在一段展示視頻中，機器人得到“給我一些食物”的模糊請求后，給人拿來了一個蘋果。這段視頻在X（前身為 Twitter）上的點擊量已達480萬次。

這個機器人的基礎模型是如何訓練的，它在不同環(huán)境中具體表現(xiàn)如何，目前尚不清楚（OpenAI 和Figure都未回應《自然》的采訪請求）。Soh認為應謹慎對待這種展示。他說，視頻中的環(huán)境非�？諘�。提高環(huán)境的復雜度可能會讓機器人感到困擾，就像自動駕駛汽車難以應對復雜路況。Soh說：“作為機器人的研究者，我們有理由對這類視頻持保留態(tài)度。作為制作者，我們知道100次拍攝通常只能成功一次。”

前路的挑戰(zhàn)

人工智能專家在機器人大腦研發(fā)領域突破不斷，但機器人行業(yè)有人指出硬件也是一個挑戰(zhàn)：機器人設計復雜，而且經(jīng)常損壞。陳曦說，硬件雖在升級，但“很多人只看到基礎模型的發(fā)展前景，卻不知道打造這類機器人有多困難。”

另一個問題是，使用視覺數(shù)據(jù)完成大多數(shù)交互訓練的機器人基礎模型，到底可以走多遠。Soh指出，機器人可能需要大量其他類型的感覺數(shù)據(jù)，例如觸覺或本體感覺（身體在空間中的位置感）。目前還沒有這樣的數(shù)據(jù)集。他說：“我認為，這些缺失的數(shù)據(jù)，對人形機器人在真實環(huán)境中高效工作是必需的。”

將基礎模型應用于真實世界還面臨著另一個重大挑戰(zhàn)安全性。近兩年，大語言模型大量涌現(xiàn)，人們發(fā)現(xiàn)它們會提供錯誤和有偏見的信息。它們還可能受到誘導做程序禁止的事情，比如告訴用戶如何制作炸彈。賦予人工智能一個軀體，就會把這類錯誤引入真實世界，產(chǎn)生威脅。Gopalakrishnan說：“如果機器人出錯，會傷到人、弄壞東西，或造成損害。”

Gopalakrishnan介紹，機器人行業(yè)將借鑒人工智能安全領域的寶貴經(jīng)驗。此外，她的團隊還為一些機器人人工智能模型設置了等級高于學習的規(guī)則，例如不要嘗試與人、動物或其它生物體互動的任務。她說：“在我們對機器人有信心之前，需要大量的人類監(jiān)管。”

盡管存在風險，但人工智能和機器人技術的融合和促進方興未艾。Gopalakrishnan認為，將人工智能大腦與實體機器人關聯(lián)，可以改善基礎模型，例如讓它們具備更好的空間推理能力。Rai說，一些研究人員認為“真正的智能只能產(chǎn)生于與真實世界的互動之中”，Meta正是踐行者之一。有人說，現(xiàn)實世界中的互動，能讓人工智能不再囿于學習模式和預測，真正理解這個世界并進行推理。

未來如何，尚無定論。Brooks認為，機器人會不斷改進并應用于新的領域，但這些應用終究不如人形機器人替代人類勞動來得吸引人。然而，也有人認為，研發(fā)出實用安全的人形機器人，幫人做晚飯、跑腿和疊衣服是可能的，只不過可能要花費數(shù)億美元。Khazatsky說：“我相信有人能成功的。就是要花上大量的金錢，還有時間。”

原文以The AI revolution is coming to robots: how will it change them?標題發(fā)表在2024年5月28日《自然》的新聞特寫版塊上

nature