展會(huì)信息港展會(huì)大全

姚期智:通用人工智能需要依托“具身”實(shí)體,才能賦予產(chǎn)業(yè)更大價(jià)值
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2023-10-13 09:04:32   瀏覽:6548次  

導(dǎo)讀:ChatGPT主要體現(xiàn)了對(duì)于語(yǔ)言的處理能力,如果真正想要讓通用人工智能(AGI)發(fā)揮出它的力量, 未來(lái)的AGI需要有具身(embodied)實(shí)體 ,使其能夠通過(guò)與真實(shí)的物理世界進(jìn)行交互來(lái)完成各種任務(wù),這樣才能為產(chǎn)業(yè)發(fā)展帶來(lái)真正的更大價(jià)值。 人類本身就是世界上相當(dāng)...

ChatGPT主要體現(xiàn)了對(duì)于語(yǔ)言的處理能力,如果真正想要讓通用人工智能(AGI)發(fā)揮出它的力量,未來(lái)的AGI需要有“具身”(embodied)實(shí)體,使其能夠通過(guò)與真實(shí)的物理世界進(jìn)行交互來(lái)完成各種任務(wù),這樣才能為產(chǎn)業(yè)發(fā)展帶來(lái)真正的更大價(jià)值。

人類本身就是世界上相當(dāng)理想的一個(gè)具身智能體。未來(lái)的AGI具身智能體也需具備三個(gè)關(guān)鍵組成:身體、小腦和大腦。在此方面,還有很多難點(diǎn)需要克服,如樣本效率、計(jì)算能力、感官融合、收集數(shù)據(jù)等問(wèn)題。

姚期智 圖靈獎(jiǎng)獲得者、中國(guó)科學(xué)院院士、清華大學(xué)交叉信息研究院院長(zhǎng)

* 本文整理自作者在2023世界機(jī)器人大會(huì)上的講話。文章僅代表作者個(gè)人觀點(diǎn),不代表CF40及作者所在機(jī)構(gòu)立常

ChatGPT的出現(xiàn),是人工智能在學(xué)術(shù)領(lǐng)域的一個(gè)突破,同時(shí)它也為各行各業(yè)創(chuàng)造了許多新價(jià)值。

人工智能的下一步是什么?ChatGPT主要體現(xiàn)了對(duì)于語(yǔ)言的處理能力,如果真正想要讓通用人工智能(Artificial General Intelligence, AGI)發(fā)揮出它的力量,未來(lái)的AGI需要有“具身”(embodied)的實(shí)體,讓它能夠同真實(shí)的物理世界進(jìn)行交互來(lái)完成各種任務(wù),這樣才能為產(chǎn)業(yè)發(fā)展帶來(lái)真正的更大價(jià)值。

那么,具身智能體應(yīng)該長(zhǎng)成什么樣子?人類本身就是世界上相當(dāng)理想的一個(gè)具身智能體。它基本上具備三個(gè)方面:第一方面是身體,第二方面是小腦,第三方面是大腦。身體方面,具身智能體必須要有足夠的硬件,具有傳感器和執(zhí)行器;小腦會(huì)主導(dǎo)視覺(jué)、觸覺(jué)等各種感知來(lái)控制身體,完成復(fù)雜的任務(wù);大腦部分主導(dǎo)上層的邏輯推理、決策、長(zhǎng)時(shí)間的規(guī)劃,使得一個(gè)智能體能夠通過(guò)自然語(yǔ)言與其他智能體、環(huán)境交流。

目前,清華大學(xué)交叉信息研究院的八九位老師近年來(lái)的工作都圍繞具身智能的方方面面展開(kāi)。接下來(lái)我想和大家分享這些團(tuán)隊(duì)的一些進(jìn)展和思考。

第一,身體部分。具身AGI最理想的身體形式,我們認(rèn)為應(yīng)該就是人形機(jī)器人。因?yàn)槿祟惖纳鐣?huì)環(huán)境主要是為人類而定制的,比如說(shuō)樓梯的結(jié)構(gòu)、門把手的高度、被子的形狀等,這些都是依據(jù)人類的形狀而定制,所以如果我們能夠打造一個(gè)有泛應(yīng)用的通用機(jī)器人,人形是最適合的形態(tài),人形機(jī)器人最能夠適應(yīng)人類的各種環(huán)境。

清華大學(xué)交叉信息研究院自主研發(fā)了人形機(jī)器人初步的造型,這個(gè)工作主要由陳建宇團(tuán)隊(duì)所完成。目前我們已經(jīng)有了兩個(gè)形式的機(jī)器人,其中一個(gè)是此前在世界人工智能大會(huì)上亮相的“小星”,它的高度是1.2米,隨后亮相的另一個(gè)機(jī)器人是“小星MAX”,它的身高達(dá)到了1.6米。

技術(shù)方面,這一人形機(jī)器人使用了新一代的本體感知驅(qū)動(dòng)器技術(shù)方案,在算法方面采用了動(dòng)態(tài)的雙足行走。我們是世界上為數(shù)不多的能夠走通整個(gè)軟硬件技術(shù)的團(tuán)隊(duì)之一。

第二,小腦方面。小星機(jī)器人通過(guò)一套機(jī)器人運(yùn)動(dòng)控制的算法來(lái)實(shí)現(xiàn),算法分成兩層:上一層是固態(tài)規(guī)劃層,下一層是基于動(dòng)力學(xué)的實(shí)時(shí)全身運(yùn)動(dòng)控制,它用來(lái)計(jì)算發(fā)給電機(jī)關(guān)節(jié)的精確指令。小星可以在水泥地上很靈活地快速行走,也可以在比較復(fù)雜的樹(shù)林里面行走,它具有一定的抗干擾能力,在草地里、石子路上行走也具有穩(wěn)定性。

在構(gòu)建小腦的算法端,未來(lái)需要給機(jī)器人更好的功能、更好的控制,所以我們也在研究靈活度更高的算法,利用人工智能、強(qiáng)化學(xué)習(xí)的方法去運(yùn)用和強(qiáng)化學(xué)習(xí)框架。這一方法的好處是沒(méi)有對(duì)于模型的限制,能夠?qū)τ趶?fù)雜的環(huán)境或不確定的環(huán)境展現(xiàn)出更強(qiáng)的適應(yīng)能力。另外,還有一個(gè)方法來(lái)學(xué)習(xí),就是利用人體運(yùn)動(dòng)的實(shí)際數(shù)據(jù),我們把它放到這個(gè)框架里,給予強(qiáng)化學(xué)習(xí)更好的引導(dǎo)。

通過(guò)強(qiáng)化學(xué)習(xí),機(jī)器人能夠用一種自然的方式來(lái)模擬人態(tài)的行走,在設(shè)計(jì)上我們可以使它消耗更低的能耗。我們把這個(gè)硬件參數(shù)代入仿真,能夠?qū)崿F(xiàn)更高層次的運(yùn)動(dòng)形態(tài),比如在仿真中能夠?qū)崿F(xiàn)4米/秒的行走速度。

除了這種方法以外,在強(qiáng)化學(xué)習(xí)方面,清華大學(xué)交叉信息研究院的隊(duì)伍也研究了一些基礎(chǔ)的核心技術(shù)。

樣本效率方面,目前一直困擾著強(qiáng)化學(xué)習(xí)應(yīng)用的難題在于它所需要的樣本非常多。我們?cè)谶@方面做了一些工作,比如以Atari游戲作為標(biāo)準(zhǔn)測(cè)試的指標(biāo)。人工智能公司Deepmind于2015年在自然上發(fā)表了DQN算法,需要花一千個(gè)小時(shí)去進(jìn)行學(xué)習(xí),才能夠達(dá)到人類的水平,這在當(dāng)時(shí)已經(jīng)非常了不起,而高陽(yáng)隊(duì)伍提出了一個(gè)新的算法叫作Efficient Zero,它能夠在兩個(gè)小時(shí)的時(shí)間里達(dá)到并超過(guò)人類平均水平,比DQN提高了500倍的樣本效率。

另外一個(gè)困擾著強(qiáng)化學(xué)習(xí)的難題是泛化性,就是能否對(duì)這些任務(wù)及其環(huán)境中間的不確定性和干擾進(jìn)行更好的泛化,許華哲團(tuán)隊(duì)圍繞這個(gè)問(wèn)題提出了一系列解決方案,比如機(jī)器人包餃子的應(yīng)用,這個(gè)物理過(guò)程里面包含非常復(fù)雜的解決方案,使得算法適應(yīng)性更高,即使在有人為干擾的情況下也能完成任務(wù)。

小腦方面,除了走路以外,還有一個(gè)重要任務(wù)是視覺(jué)處理。趙行團(tuán)隊(duì)在這方面有一些最新工作:基于視覺(jué)的機(jī)器人跑酷功能。其研究使得四足機(jī)器人能夠基于視覺(jué)信號(hào)識(shí)別路障,能夠匍匐前進(jìn),能夠跳過(guò)高臺(tái),當(dāng)這些跳躍失敗的時(shí)候,機(jī)器人會(huì)不停嘗試,直到成功為止。未來(lái)我們也會(huì)把這類跑酷功能放到人形機(jī)器人來(lái)實(shí)現(xiàn)。

清華大學(xué)交叉信研究院趙行團(tuán)隊(duì)四足機(jī)器人

還有一個(gè)比較高端的感知,就是觸覺(jué)。人的皮膚吸收了很多觸覺(jué)信號(hào),能夠完成非常精細(xì)的物體抓取動(dòng)作來(lái)規(guī)避危險(xiǎn),所以我們希望機(jī)器人能夠有更好的觸覺(jué)的傳感器,讓它們能夠觸摸、感受這個(gè)世界。

對(duì)此,許華哲隊(duì)伍運(yùn)用一些非常好的材料,設(shè)計(jì)了一個(gè)低成本、易操作的觸覺(jué)傳感器,能夠精確地感覺(jué)、接觸到物體三維,還能夠捕捉到物體很細(xì)小的紋理,它能夠和人工算法結(jié)合,達(dá)到物體的分割和最終的效果。并且,我們也做了一些下游的關(guān)于觸覺(jué)物體操縱的工作,希望機(jī)器人將來(lái)能夠操作更小的物體。

此外比較難的事情,就是如何打造機(jī)器人靈活的雙手,這一功能需要非常高的自由度,接觸和物件非常復(fù)雜,所以機(jī)器人想要實(shí)現(xiàn)這些動(dòng)作是非常困難的。弋力團(tuán)隊(duì)提出新的算法,可以用自動(dòng)的方式來(lái)創(chuàng)建場(chǎng)景和建模仿真,使得機(jī)器人在仿真中學(xué)習(xí)到這些技術(shù)。

第三,大腦方面。谷歌在這一部分做了大量工作,特別是Palm-e多模態(tài)的大語(yǔ)言,能夠?qū)C(jī)器人的任務(wù)進(jìn)行規(guī)劃,大語(yǔ)言模型就把它所做的事情調(diào)用到下沉的控制器,按照順序完成任務(wù),這也是非常重要的一步,尤其對(duì)于谷歌在具身大模型方面主要的技術(shù)路線而言。

不過(guò),這個(gè)框架有一個(gè)主要的問(wèn)題:它的下一層不一定能夠很好執(zhí)行上一層的規(guī)劃,尤其是當(dāng)中間發(fā)生一些意外干擾的時(shí)候。對(duì)此,陳建宇團(tuán)隊(duì)提出一個(gè)新的方案和新的框架,比如在任務(wù)執(zhí)行過(guò)程中自動(dòng)判斷是否發(fā)生異常,以及如果發(fā)生異常的話如何解決,這些都由一個(gè)語(yǔ)言模型和視覺(jué)模型自動(dòng)完成。

我們把這個(gè)方法應(yīng)用在了人形機(jī)器人上。首先我們需要像大語(yǔ)言模型一樣,給這個(gè)機(jī)器人描述一下其所需要的任務(wù),機(jī)器人按照任務(wù)來(lái)執(zhí)行。在場(chǎng)景工作中,如果機(jī)器人做搬箱子的工作,它的視覺(jué)語(yǔ)言模型通過(guò)視角檢測(cè)是否有意外發(fā)生,以及如果有意外的話如何糾正。例如,如果看到箱子掉到地上,機(jī)器人能夠想出一個(gè)方法將它撿起來(lái),最后完成任務(wù)。

除了上面談到的工作,斯坦福大學(xué)的李飛飛團(tuán)隊(duì)通過(guò)大語(yǔ)言模型系統(tǒng)地產(chǎn)生了控制機(jī)器人的代碼,而清華大學(xué)交叉信息研究院的楊植麟團(tuán)隊(duì)也提出了CodeGeeX(多語(yǔ)言代碼生成模型),通過(guò)不同的大語(yǔ)言模型進(jìn)行訓(xùn)練。

最后,對(duì)于具身機(jī)器人,目前還有很多難點(diǎn)需要克服:

第一,我們能否像大語(yǔ)言模型一樣有一個(gè)具身大模型,能夠一步到位地控制最低層的效率。

第二,關(guān)于計(jì)算能力的挑戰(zhàn)。谷歌的Robotic Transformer模型所做的第一個(gè)下沉的統(tǒng)一模型,目前只能達(dá)到3個(gè)赫茲的水平,和我們需要的500個(gè)赫茲差得很遠(yuǎn),所以我們還需要克服很多困難。

第三,如何把多模式的感官融合起來(lái)。

第四,在收集數(shù)據(jù)方面,還需要做很多的事情,其中也涉及很多安全隱私方面的問(wèn)題。

版面編輯:宥朗|責(zé)任編輯:宥朗

視覺(jué):李盼 東子

監(jiān)制李俊虎 潘潘

本文來(lái)源:微信公眾號(hào)“財(cái)經(jīng)ThinkTank”

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港