欧美高清视频视频性播放,日本公和熄2在线播免费观看

姚期智：通用人工智能需要依托“具身”實(shí)體，才能賦予產(chǎn)業(yè)更大價(jià)值

來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2023-10-13 09:04:32 瀏覽：6548次

導(dǎo)讀：ChatGPT主要體現(xiàn)了對(duì)于語(yǔ)言的處理能力，如果真正想要讓通用人工智能（AGI）發(fā)揮出它的力量，未來(lái)的AGI需要有具身（embodied）實(shí)體，使其能夠通過(guò)與真實(shí)的物理世界進(jìn)行交互來(lái)完成各種任務(wù)，這樣才能為產(chǎn)業(yè)發(fā)展帶來(lái)真正的更大價(jià)值。人類本身就是世界上相當(dāng)...

“

ChatGPT主要體現(xiàn)了對(duì)于語(yǔ)言的處理能力，如果真正想要讓通用人工智能（AGI）發(fā)揮出它的力量，未來(lái)的AGI需要有“具身”（embodied）實(shí)體，使其能夠通過(guò)與真實(shí)的物理世界進(jìn)行交互來(lái)完成各種任務(wù)，這樣才能為產(chǎn)業(yè)發(fā)展帶來(lái)真正的更大價(jià)值。

人類本身就是世界上相當(dāng)理想的一個(gè)具身智能體。未來(lái)的AGI具身智能體也需具備三個(gè)關(guān)鍵組成：身體、小腦和大腦。在此方面，還有很多難點(diǎn)需要克服，如樣本效率、計(jì)算能力、感官融合、收集數(shù)據(jù)等問(wèn)題。

姚期智圖靈獎(jiǎng)獲得者、中國(guó)科學(xué)院院士、清華大學(xué)交叉信息研究院院長(zhǎng)

* 本文整理自作者在2023世界機(jī)器人大會(huì)上的講話。文章僅代表作者個(gè)人觀點(diǎn)，不代表CF40及作者所在機(jī)構(gòu)立常

”

ChatGPT的出現(xiàn)，是人工智能在學(xué)術(shù)領(lǐng)域的一個(gè)突破，同時(shí)它也為各行各業(yè)創(chuàng)造了許多新價(jià)值。

人工智能的下一步是什么？ChatGPT主要體現(xiàn)了對(duì)于語(yǔ)言的處理能力，如果真正想要讓通用人工智能（Artificial General Intelligence, AGI）發(fā)揮出它的力量，未來(lái)的AGI需要有“具身”（embodied）的實(shí)體，讓它能夠同真實(shí)的物理世界進(jìn)行交互來(lái)完成各種任務(wù)，這樣才能為產(chǎn)業(yè)發(fā)展帶來(lái)真正的更大價(jià)值。

那么，具身智能體應(yīng)該長(zhǎng)成什么樣子？人類本身就是世界上相當(dāng)理想的一個(gè)具身智能體。它基本上具備三個(gè)方面：第一方面是身體，第二方面是小腦，第三方面是大腦。身體方面，具身智能體必須要有足夠的硬件，具有傳感器和執(zhí)行器；小腦會(huì)主導(dǎo)視覺(jué)、觸覺(jué)等各種感知來(lái)控制身體，完成復(fù)雜的任務(wù)；大腦部分主導(dǎo)上層的邏輯推理、決策、長(zhǎng)時(shí)間的規(guī)劃，使得一個(gè)智能體能夠通過(guò)自然語(yǔ)言與其他智能體、環(huán)境交流。

目前，清華大學(xué)交叉信息研究院的八九位老師近年來(lái)的工作都圍繞具身智能的方方面面展開(kāi)。接下來(lái)我想和大家分享這些團(tuán)隊(duì)的一些進(jìn)展和思考。

第一，身體部分。具身AGI最理想的身體形式，我們認(rèn)為應(yīng)該就是人形機(jī)器人。因?yàn)槿祟惖纳鐣?huì)環(huán)境主要是為人類而定制的，比如說(shuō)樓梯的結(jié)構(gòu)、門把手的高度、被子的形狀等，這些都是依據(jù)人類的形狀而定制，所以如果我們能夠打造一個(gè)有泛應(yīng)用的通用機(jī)器人，人形是最適合的形態(tài)，人形機(jī)器人最能夠適應(yīng)人類的各種環(huán)境。

清華大學(xué)交叉信息研究院自主研發(fā)了人形機(jī)器人初步的造型，這個(gè)工作主要由陳建宇團(tuán)隊(duì)所完成。目前我們已經(jīng)有了兩個(gè)形式的機(jī)器人，其中一個(gè)是此前在世界人工智能大會(huì)上亮相的“小星”，它的高度是1.2米，隨后亮相的另一個(gè)機(jī)器人是“小星MAX”，它的身高達(dá)到了1.6米。

技術(shù)方面，這一人形機(jī)器人使用了新一代的本體感知驅(qū)動(dòng)器技術(shù)方案，在算法方面采用了動(dòng)態(tài)的雙足行走。我們是世界上為數(shù)不多的能夠走通整個(gè)軟硬件技術(shù)的團(tuán)隊(duì)之一。

第二，小腦方面。小星機(jī)器人通過(guò)一套機(jī)器人運(yùn)動(dòng)控制的算法來(lái)實(shí)現(xiàn)，算法分成兩層：上一層是固態(tài)規(guī)劃層，下一層是基于動(dòng)力學(xué)的實(shí)時(shí)全身運(yùn)動(dòng)控制，它用來(lái)計(jì)算發(fā)給電機(jī)關(guān)節(jié)的精確指令。小星可以在水泥地上很靈活地快速行走，也可以在比較復(fù)雜的樹(shù)林里面行走，它具有一定的抗干擾能力，在草地里、石子路上行走也具有穩(wěn)定性。

在構(gòu)建小腦的算法端，未來(lái)需要給機(jī)器人更好的功能、更好的控制，所以我們也在研究靈活度更高的算法，利用人工智能、強(qiáng)化學(xué)習(xí)的方法去運(yùn)用和強(qiáng)化學(xué)習(xí)框架。這一方法的好處是沒(méi)有對(duì)于模型的限制，能夠?qū)τ趶?fù)雜的環(huán)境或不確定的環(huán)境展現(xiàn)出更強(qiáng)的適應(yīng)能力。另外，還有一個(gè)方法來(lái)學(xué)習(xí)，就是利用人體運(yùn)動(dòng)的實(shí)際數(shù)據(jù)，我們把它放到這個(gè)框架里，給予強(qiáng)化學(xué)習(xí)更好的引導(dǎo)。

通過(guò)強(qiáng)化學(xué)習(xí)，機(jī)器人能夠用一種自然的方式來(lái)模擬人態(tài)的行走，在設(shè)計(jì)上我們可以使它消耗更低的能耗。我們把這個(gè)硬件參數(shù)代入仿真，能夠?qū)崿F(xiàn)更高層次的運(yùn)動(dòng)形態(tài)，比如在仿真中能夠?qū)崿F(xiàn)4米/秒的行走速度。

除了這種方法以外，在強(qiáng)化學(xué)習(xí)方面，清華大學(xué)交叉信息研究院的隊(duì)伍也研究了一些基礎(chǔ)的核心技術(shù)。

樣本效率方面，目前一直困擾著強(qiáng)化學(xué)習(xí)應(yīng)用的難題在于它所需要的樣本非常多。我們?cè)谶@方面做了一些工作，比如以Atari游戲作為標(biāo)準(zhǔn)測(cè)試的指標(biāo)。人工智能公司Deepmind于2015年在自然上發(fā)表了DQN算法，需要花一千個(gè)小時(shí)去進(jìn)行學(xué)習(xí)，才能夠達(dá)到人類的水平，這在當(dāng)時(shí)已經(jīng)非常了不起，而高陽(yáng)隊(duì)伍提出了一個(gè)新的算法叫作Efficient Zero，它能夠在兩個(gè)小時(shí)的時(shí)間里達(dá)到并超過(guò)人類平均水平，比DQN提高了500倍的樣本效率。

另外一個(gè)困擾著強(qiáng)化學(xué)習(xí)的難題是泛化性，就是能否對(duì)這些任務(wù)及其環(huán)境中間的不確定性和干擾進(jìn)行更好的泛化，許華哲團(tuán)隊(duì)圍繞這個(gè)問(wèn)題提出了一系列解決方案，比如機(jī)器人包餃子的應(yīng)用，這個(gè)物理過(guò)程里面包含非常復(fù)雜的解決方案，使得算法適應(yīng)性更高，即使在有人為干擾的情況下也能完成任務(wù)。

小腦方面，除了走路以外，還有一個(gè)重要任務(wù)是視覺(jué)處理。趙行團(tuán)隊(duì)在這方面有一些最新工作：基于視覺(jué)的機(jī)器人跑酷功能。其研究使得四足機(jī)器人能夠基于視覺(jué)信號(hào)識(shí)別路障，能夠匍匐前進(jìn)，能夠跳過(guò)高臺(tái)，當(dāng)這些跳躍失敗的時(shí)候，機(jī)器人會(huì)不停嘗試，直到成功為止。未來(lái)我們也會(huì)把這類跑酷功能放到人形機(jī)器人來(lái)實(shí)現(xiàn)。

清華大學(xué)交叉信研究院趙行團(tuán)隊(duì)四足機(jī)器人

還有一個(gè)比較高端的感知，就是觸覺(jué)。人的皮膚吸收了很多觸覺(jué)信號(hào)，能夠完成非常精細(xì)的物體抓取動(dòng)作來(lái)規(guī)避危險(xiǎn)，所以我們希望機(jī)器人能夠有更好的觸覺(jué)的傳感器，讓它們能夠觸摸、感受這個(gè)世界。

對(duì)此，許華哲隊(duì)伍運(yùn)用一些非常好的材料，設(shè)計(jì)了一個(gè)低成本、易操作的觸覺(jué)傳感器，能夠精確地感覺(jué)、接觸到物體三維，還能夠捕捉到物體很細(xì)小的紋理，它能夠和人工算法結(jié)合，達(dá)到物體的分割和最終的效果。并且，我們也做了一些下游的關(guān)于觸覺(jué)物體操縱的工作，希望機(jī)器人將來(lái)能夠操作更小的物體。

此外比較難的事情，就是如何打造機(jī)器人靈活的雙手，這一功能需要非常高的自由度，接觸和物件非常復(fù)雜，所以機(jī)器人想要實(shí)現(xiàn)這些動(dòng)作是非常困難的。弋力團(tuán)隊(duì)提出新的算法，可以用自動(dòng)的方式來(lái)創(chuàng)建場(chǎng)景和建模仿真，使得機(jī)器人在仿真中學(xué)習(xí)到這些技術(shù)。

第三，大腦方面。谷歌在這一部分做了大量工作，特別是Palm-e多模態(tài)的大語(yǔ)言，能夠?qū)C(jī)器人的任務(wù)進(jìn)行規(guī)劃，大語(yǔ)言模型就把它所做的事情調(diào)用到下沉的控制器，按照順序完成任務(wù)，這也是非常重要的一步，尤其對(duì)于谷歌在具身大模型方面主要的技術(shù)路線而言。

不過(guò)，這個(gè)框架有一個(gè)主要的問(wèn)題：它的下一層不一定能夠很好執(zhí)行上一層的規(guī)劃，尤其是當(dāng)中間發(fā)生一些意外干擾的時(shí)候。對(duì)此，陳建宇團(tuán)隊(duì)提出一個(gè)新的方案和新的框架，比如在任務(wù)執(zhí)行過(guò)程中自動(dòng)判斷是否發(fā)生異常，以及如果發(fā)生異常的話如何解決，這些都由一個(gè)語(yǔ)言模型和視覺(jué)模型自動(dòng)完成。

我們把這個(gè)方法應(yīng)用在了人形機(jī)器人上。首先我們需要像大語(yǔ)言模型一樣，給這個(gè)機(jī)器人描述一下其所需要的任務(wù)，機(jī)器人按照任務(wù)來(lái)執(zhí)行。在場(chǎng)景工作中，如果機(jī)器人做搬箱子的工作，它的視覺(jué)語(yǔ)言模型通過(guò)視角檢測(cè)是否有意外發(fā)生，以及如果有意外的話如何糾正。例如，如果看到箱子掉到地上，機(jī)器人能夠想出一個(gè)方法將它撿起來(lái)，最后完成任務(wù)。

除了上面談到的工作，斯坦福大學(xué)的李飛飛團(tuán)隊(duì)通過(guò)大語(yǔ)言模型系統(tǒng)地產(chǎn)生了控制機(jī)器人的代碼，而清華大學(xué)交叉信息研究院的楊植麟團(tuán)隊(duì)也提出了CodeGeeX（多語(yǔ)言代碼生成模型），通過(guò)不同的大語(yǔ)言模型進(jìn)行訓(xùn)練。

最后，對(duì)于具身機(jī)器人，目前還有很多難點(diǎn)需要克服：

第一，我們能否像大語(yǔ)言模型一樣有一個(gè)具身大模型，能夠一步到位地控制最低層的效率。

第二，關(guān)于計(jì)算能力的挑戰(zhàn)。谷歌的Robotic Transformer模型所做的第一個(gè)下沉的統(tǒng)一模型，目前只能達(dá)到3個(gè)赫茲的水平，和我們需要的500個(gè)赫茲差得很遠(yuǎn)，所以我們還需要克服很多困難。

第三，如何把多模式的感官融合起來(lái)。

第四，在收集數(shù)據(jù)方面，還需要做很多的事情，其中也涉及很多安全隱私方面的問(wèn)題。

版面編輯：宥朗｜責(zé)任編輯：宥朗

視覺(jué)：李盼東子

監(jiān)制：李俊虎潘潘

本文來(lái)源：微信公眾號(hào)“財(cái)經(jīng)ThinkTank”

姚期智：通用人工智能需要依托“具身”實(shí)體，才能賦予產(chǎn)業(yè)更大價(jià)值
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2023-10-13 09:04:32 瀏覽：6548次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

姚期智：通用人工智能需要依托“具身”實(shí)體，才能賦予產(chǎn)業(yè)更大價(jià)值 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2023-10-13 09:04:32 瀏覽：6548次