展會(huì)信息港展會(huì)大全

圖靈獎(jiǎng)得主姚期智:未來(lái)AGI需有具身實(shí)體,但具身機(jī)器人還面臨四大挑戰(zhàn)
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2023-08-20 14:10:23   瀏覽:14345次  

導(dǎo)讀:騰訊科技 文/ 李海丹 在本周正在召開(kāi)的2023世界機(jī)器人大會(huì)上,2000年圖靈獎(jiǎng)獲得者、中國(guó)科學(xué)院院士、清華大學(xué)交叉信息研究院院長(zhǎng)姚期智在談及機(jī)器人發(fā)展時(shí)表示: 未來(lái)的AGI需要有具身的實(shí)體,同真實(shí)的物理世界相交互來(lái)完成各種任務(wù),這樣才能給產(chǎn)業(yè)帶來(lái)真正...

科技新聞 文/ 李海丹

在本周正在召開(kāi)的2023世界機(jī)器人大會(huì)上,2000年圖靈獎(jiǎng)獲得者、中國(guó)科學(xué)院院士、清華大學(xué)交叉信息研究院院長(zhǎng)姚期智在談及機(jī)器人發(fā)展時(shí)表示:未來(lái)的AGI需要有具身的實(shí)體,同真實(shí)的物理世界相交互來(lái)完成各種任務(wù),這樣才能給產(chǎn)業(yè)帶來(lái)真正更大的價(jià)值。姚期智指出,具身機(jī)器人目前遇到的主要有四大挑戰(zhàn):

第一,機(jī)器人不能夠像大語(yǔ)言模型一樣有一個(gè)基礎(chǔ)大模型直接一步到位,做到最底層的控制。

第二,計(jì)算能力的挑戰(zhàn)。即使谷歌研發(fā)的Robotics Transformer模型,要做到機(jī)器人控制,距離實(shí)際需要的控制水平仍有許多事情要做。

第三,如何把機(jī)器人多模態(tài)的感官感知全部融合起來(lái),仍面臨諸多難題需要解決。

第四,機(jī)器人的發(fā)展需要收集很多數(shù)據(jù),其中也面臨很多安全隱私等方面的問(wèn)題。

2000年圖靈獎(jiǎng)獲得者、中國(guó)科學(xué)院院士、清華大學(xué)交叉信息研究院院長(zhǎng)姚期智

以下為姚期智的分享全文:

最近,ChatGPT的出現(xiàn),在人工智能在學(xué)術(shù)上是一個(gè)突破,同時(shí)它為各行各業(yè)也創(chuàng)造了許多新價(jià)值。所以人工智能的下一步是什么呢?ChatGPT主要是對(duì)于語(yǔ)言的處理能力,如果真正的想要讓通用人工智能發(fā)揮出它的力量,未來(lái)的AGI需要有具身的實(shí)體,讓它能夠同真實(shí)的物理世界相交互來(lái)完成各種任務(wù),這樣才能夠帶來(lái)真正更大的一個(gè)價(jià)值。

那么,具身智能體長(zhǎng)的應(yīng)該是什么樣子呢?人類(lèi)本身就是世界上相當(dāng)理想的一個(gè)具身智能體。它基本上具備三個(gè)方面,三個(gè)成分:第一方面是身體,第二方面是小腦,第三方面是大腦。身體的部分具身必須要有足夠的硬件,具有傳感器和執(zhí)行器,小腦會(huì)主導(dǎo)視覺(jué)、觸覺(jué)各種感知來(lái)控制身體,完成復(fù)雜的任務(wù),最后大腦部分,它主導(dǎo)上層的邏輯推理、決策、長(zhǎng)時(shí)間的規(guī)劃以用自然語(yǔ)言能夠和其他的智能體、環(huán)境交流。目前,清華大學(xué)交叉信研究院里有八九位老師近年來(lái)的工作都是在關(guān)于具身智能的方方面面。接下來(lái)我想從這些團(tuán)隊(duì)的一些進(jìn)展和思考方面,和大家分享。

第一,關(guān)于身體部分。具身AGI最理想身體的形式,我們認(rèn)為應(yīng)該就是人形機(jī)器人。因?yàn)槿祟?lèi)的社會(huì)環(huán)境主要是為人類(lèi)而定制的,比如說(shuō)樓梯的結(jié)構(gòu)、門(mén)把手的高度、被子的形狀等等,這些都是為了人類(lèi)的形狀而定制,所以如果我們能夠打造一個(gè)有泛應(yīng)用的通用機(jī)器人,人形是最好最適合的一個(gè)形態(tài),人形機(jī)器人能夠適應(yīng)人類(lèi)的各種環(huán)境。

在清華大學(xué)交叉信息研究院里,我們自主研發(fā)了人形機(jī)器人初步的造型,這個(gè)工作主要由陳建宇團(tuán)隊(duì)所完成的。目前我們已經(jīng)有了兩個(gè)形式的機(jī)器人,其中有一個(gè)是前幾個(gè)月在世界人工智能大會(huì)上亮相的“小星”。它的高度是1米2,而這次我們?cè)谶@個(gè)機(jī)器人大會(huì)里面亮相的是“小星MAX”,它的身高達(dá)到了1米6,這兩款機(jī)器人在展區(qū)有進(jìn)行展示。

關(guān)于它的技術(shù):它所用的是新一代的本體感知驅(qū)動(dòng)器技術(shù)方案,在算法方面采用了動(dòng)態(tài)的雙足行走,是世界上為數(shù)不多的,能夠走通整個(gè)軟硬件技術(shù)的團(tuán)隊(duì)之一。

其次,關(guān)于具身智能體第二方面的小腦如何體現(xiàn)呢?比如小星機(jī)器人實(shí)體上是一套機(jī)器人運(yùn)動(dòng)控制的算法,分成兩層:上一層是固態(tài)規(guī)劃層,下一層是基于動(dòng)力學(xué)的實(shí)時(shí)全身運(yùn)動(dòng)控制,它用來(lái)計(jì)算發(fā)給電機(jī)關(guān)節(jié)精確的指令。我們?cè)僬故疽幌逻@幾個(gè)機(jī)器人在戶(hù)外運(yùn)動(dòng)的畫(huà)面,可以看到左邊小星可以在水泥地上很靈活的快速行走,在右邊也可以在比較復(fù)雜的一個(gè)樹(shù)林里面走,它具有一定的抗干擾的能力在草地里、石子路上走的也具有穩(wěn)定性。

在構(gòu)建小腦的算法端,我們想到在未來(lái)需要給機(jī)器人更好的功能、更好的控制,所以我們也在研究靈活度更高的,利用人工智能、強(qiáng)化學(xué)習(xí)的方法去運(yùn)用和強(qiáng)化學(xué)習(xí)框架。它的好處是沒(méi)有一個(gè)模型的限制,所以它能夠?qū)τ趶?fù)雜的環(huán)境跟不確定的環(huán)境,能夠展現(xiàn)出更強(qiáng)的適應(yīng)的能力。另外還有一個(gè)方法來(lái)學(xué)習(xí),就是能夠利用人體運(yùn)動(dòng)實(shí)際的數(shù)據(jù),我們把它放到這個(gè)框架里,給予強(qiáng)化學(xué)習(xí)更好的引導(dǎo)。

我們可以看到,通過(guò)強(qiáng)化學(xué)習(xí),機(jī)器人能夠用一種自然的方式來(lái)模擬人態(tài)的行走,在設(shè)計(jì)上我們可以使它消耗更低的能耗,我們把這個(gè)硬件參數(shù)代入仿真里,能夠?qū)崿F(xiàn)更高度的運(yùn)動(dòng)形態(tài),比如在仿真里能夠走到4米/秒。而除了這種方法以外,強(qiáng)化學(xué)習(xí)方面,清華大學(xué)交叉信息研究院里的隊(duì)伍也來(lái)研究一些基礎(chǔ)的核心技術(shù),尤其是在機(jī)器人研究方面,能夠使得強(qiáng)化學(xué)習(xí)更加有效。

第一是有關(guān)樣本的效率方面,目前一直困擾著強(qiáng)化學(xué)習(xí)應(yīng)用的難題它所需要的樣本非常多。在這方面我們做了一些工作。比如Atari游戲作為標(biāo)準(zhǔn)測(cè)試的指標(biāo),Deepmind在2015年在自然上發(fā)表了DQN算法,需要花一千個(gè)小時(shí)去進(jìn)行學(xué)習(xí),才能夠達(dá)到人類(lèi)的水平,這在當(dāng)時(shí)已經(jīng)非常了不起,而高陽(yáng)隊(duì)伍提出了一個(gè)新的算法叫Efficient Zero,它能夠在兩小時(shí)時(shí)間里能夠達(dá)到超過(guò)人類(lèi)平均水平,比DQN提高了500倍的樣本效率。

另外一個(gè)困擾著強(qiáng)化學(xué)習(xí)的難題是泛化性,就是對(duì)于這些任務(wù)及其環(huán)境中間的不確定性和干擾,能不能夠泛化的更好,許華哲團(tuán)隊(duì)圍繞著這個(gè)問(wèn)題提出了一系列解決方案,比如應(yīng)用到機(jī)器人包餃子的演示,我們可以看到在這個(gè)物理過(guò)程里面有些非常復(fù)雜的動(dòng)作,使得算法適應(yīng)性高,即使有人為干擾下也能夠達(dá)到任務(wù)。

我們?cè)倏葱∧X方面。除了走路以外別的功能,其中一個(gè)重要的任務(wù)是視覺(jué)處理,趙行團(tuán)隊(duì)有一些最新工作:基于視覺(jué)機(jī)器人跑酷,在這里面四足機(jī)器人基于視覺(jué)信號(hào)能夠識(shí)別路障,能夠匍匐前進(jìn),能夠跳高臺(tái),同時(shí)請(qǐng)注意到當(dāng)這些跳躍失敗的時(shí)候,這個(gè)機(jī)器人會(huì)不停的來(lái)嘗試,一直到成功為主,未來(lái)我們也會(huì)把這類(lèi)跑酷功能放到人形機(jī)器人來(lái)實(shí)現(xiàn)。

清華大學(xué)交叉信研究院院趙行團(tuán)隊(duì)四足機(jī)器人

還有一個(gè)比較高端的感知就是觸覺(jué)。人的皮膚吸收了很多的觸覺(jué)信號(hào),能夠完成非常精細(xì)的物體抓取的動(dòng)作來(lái)回避危險(xiǎn),所以我們希望給機(jī)器人能夠有好的觸覺(jué)的傳感器,讓它們能夠觸摸感受到這個(gè)世界。對(duì)此,許華哲隊(duì)伍運(yùn)用到一些非常好的材料,他設(shè)計(jì)了一個(gè)觸覺(jué)傳感器低成本、易操作,能夠精確的感覺(jué)得到接觸到物體三維的幾何,還有能夠捕捉到物體很細(xì)小的紋理,它和人工算法能夠結(jié)合,能夠達(dá)到物體的分割和最終的效果。并且,我們也做了一些下游的關(guān)于觸覺(jué)物體操縱的觸覺(jué)工作,希望機(jī)器人將來(lái)對(duì)于更小的物體能夠操作。此外比較難的事情,就如何打造機(jī)器人靈活的雙手,需要自由度非常高,接觸和物件非常復(fù)雜,所以機(jī)器人想要做這些動(dòng)作非常困難。弋力團(tuán)隊(duì)提出新的算法,可以用自動(dòng)的方式來(lái)創(chuàng)建場(chǎng)景和建模仿真,使得機(jī)器人在仿真里學(xué)習(xí)到這些技術(shù)。

最后我們談一談關(guān)于機(jī)器人第三方面關(guān)于大腦。這一部分谷歌做了大量的工作,特別是Palm-e多模態(tài)的大語(yǔ)言,能夠?qū)C(jī)器人的任務(wù)進(jìn)行規(guī)劃,大語(yǔ)言模型就把他所做的事情調(diào)用到下沉的控制器,去按照這個(gè)順序來(lái)做任務(wù),這也是一個(gè)非常重要的,尤其是谷歌在具身大模型方面主要的技術(shù)路線(xiàn)。

不過(guò),這個(gè)框架有一個(gè)主要的問(wèn)題:它的下層不一定能夠很好執(zhí)行上一層的規(guī)劃,尤其是中間如果發(fā)生一些意外的干擾。對(duì)此,陳建宇團(tuán)隊(duì)提出一個(gè)新的方案和新的框架,比如是否可以在任務(wù)執(zhí)行中能夠自動(dòng)的判斷是不是有異常,如果有異常的話(huà)怎么樣解決,這些都是有一個(gè)語(yǔ)言模型和視覺(jué)模型自動(dòng)的完成的。我們把這個(gè)方法用在了人形機(jī)器人上。首先我們需要像大語(yǔ)言模型一樣,給這個(gè)機(jī)器人描述一下他所需要的任務(wù),機(jī)器人按照任務(wù)來(lái)執(zhí)行。在場(chǎng)景工作中,如果機(jī)器人做搬箱子的工作,它的視覺(jué)語(yǔ)言模型通過(guò)視角檢測(cè)是否有意外發(fā)生,如果有的話(huà)如何能夠糾正,如果看到這個(gè)箱子掉到地上,機(jī)器人能夠想出一個(gè)方法最后把它撿起來(lái),最后完成任務(wù)。

除了上面談到的以外,斯坦福大學(xué)的李飛飛團(tuán)隊(duì),通過(guò)大語(yǔ)言模型有系統(tǒng)的去產(chǎn)生了一個(gè)代碼來(lái)控制機(jī)器人,而清華大學(xué)交叉信息研究院的楊植麟團(tuán)隊(duì)也提出了CodeGeeX(多語(yǔ)言代碼生成模型), 通過(guò)不同的大語(yǔ)言模型進(jìn)行訓(xùn)練。

最后,我們談?wù)勀壳斑有很多挑戰(zhàn)需要克服的方面。對(duì)于具身機(jī)器人,第一,我們能不能像大語(yǔ)言模型一樣有一個(gè)具身的大模型,它能夠直接的一步到位,能夠控制最低層的效率。第二是關(guān)于計(jì)算能力的挑戰(zhàn),我們做一個(gè)比較,就像谷歌的Robotic Transformer做第一個(gè)到下沉的統(tǒng)一模型,目前只能達(dá)到三個(gè)赫茲的水平,和我們需要的500個(gè)赫茲差的很遠(yuǎn),所以這里面還有很多的事情我們需要來(lái)克服困難。第三個(gè)挑戰(zhàn),怎么樣把多模式的感官融合起來(lái)。第四個(gè)挑戰(zhàn),機(jī)器人要收集數(shù)據(jù)還需要很多的事情需要做,其中也面臨很多安全隱私等方面的問(wèn)題等。我的演講就到此為止,謝謝各位。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港