當(dāng)前位置：人工智能實(shí)驗(yàn)室> 機(jī)器人 > 清華團(tuán)隊(duì)重磅發(fā)現(xiàn)：機(jī)器人正邁向“ChatGPT時(shí)刻”！

清華團(tuán)隊(duì)重磅發(fā)現(xiàn)：機(jī)器人正邁向“ChatGPT時(shí)刻”！
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-07 18:30:20 瀏覽：0次

導(dǎo)讀：劃重點(diǎn)01清華大學(xué)交叉信息研究院研究團(tuán)隊(duì)在預(yù)印本網(wǎng)站arXiv發(fā)布的論文顯示，機(jī)器人實(shí)現(xiàn)了真正的零樣本泛化，無需進(jìn)行任何微調(diào)就能泛化到全新的場(chǎng)景和物體。02該團(tuán)隊(duì)通過系統(tǒng)調(diào)整訓(xùn)練數(shù)據(jù)規(guī)模，發(fā)現(xiàn)策略的泛化性能與環(huán)境和訓(xùn)練時(shí)接觸的物體數(shù)量呈現(xiàn)顯著的冪律關(guān)系。03然而，盡管研究取得了顯著成果，目前機(jī)器人仍需在商業(yè)化和家庭使用方面達(dá)到99.9%以上的成功率。04為此，研究團(tuán) ......

劃重點(diǎn)

01清華大學(xué)交叉信息研究院研究團(tuán)隊(duì)在預(yù)印本網(wǎng)站arXiv發(fā)布的論文顯示，機(jī)器人實(shí)現(xiàn)了真正的零樣本泛化，無需進(jìn)行任何微調(diào)就能泛化到全新的場(chǎng)景和物體。

02該團(tuán)隊(duì)通過系統(tǒng)調(diào)整訓(xùn)練數(shù)據(jù)規(guī)模，發(fā)現(xiàn)策略的泛化性能與環(huán)境和訓(xùn)練時(shí)接觸的物體數(shù)量呈現(xiàn)顯著的冪律關(guān)系。

03然而，盡管研究取得了顯著成果，目前機(jī)器人仍需在商業(yè)化和家庭使用方面達(dá)到99.9%以上的成功率。

04為此，研究團(tuán)隊(duì)公布了其代碼、數(shù)據(jù)和模型，希望業(yè)界最終開發(fā)出能夠解決復(fù)雜問題的通用機(jī)器人。

05與此同時(shí)，企業(yè)界也在專注于將通用人工智能引入物理世界，如OpenAI等公司。

以上內(nèi)容由大模型生成，僅供參考

每經(jīng)記者：蔡鼎每經(jīng)編輯：蘭素英

如果將人工智能（AI）比作孩子，那么Scaling Law（以下簡(jiǎn)稱規(guī)模法則）就是其成長(zhǎng)密碼；只要“孩子”被給予足夠的“營養(yǎng)”，即數(shù)據(jù)、模型和算力，他就能茁壯成長(zhǎng)。2020年，OpenAI發(fā)表論文《神經(jīng)語言模型的規(guī)模法則》，為大語言模型的出現(xiàn)奠定了語言基礎(chǔ)。因此規(guī)模法則也被視為人工智能的基石。

清華團(tuán)隊(duì)重磅發(fā)現(xiàn)：機(jī)器人正邁向“ChatGPT時(shí)刻”！

胡英東博士表示：“我們的模型還不是真正通用的，不能處理用戶可能給出的各種各樣的指令�！眻D為2024年11月4日，上海，第七屆中國國際進(jìn)口博覽會(huì)新聞中心內(nèi)，機(jī)器人與媒體記者互動(dòng)打招呼。視覺中國圖

如今，規(guī)模法則正在引領(lǐng)機(jī)器人領(lǐng)域開啟新世界的大門。

清華大學(xué)交叉信息研究院（以下簡(jiǎn)稱IIIS）研究團(tuán)隊(duì)近日在預(yù)印本網(wǎng)站arXiv發(fā)布的論文《機(jī)器人操作模仿學(xué)習(xí)中的數(shù)據(jù)規(guī)模法則》顯示，在數(shù)據(jù)規(guī)模法則下，機(jī)器人實(shí)現(xiàn)了真正的零樣本泛化，無需進(jìn)行任何微調(diào)就能泛化到全新的場(chǎng)景和物體，成功率高達(dá)90%。所謂泛化，指的是一個(gè)模型或算法在處理未曾見過的新數(shù)據(jù)時(shí)的表現(xiàn)能力。

該團(tuán)隊(duì)的發(fā)現(xiàn)表明，只要有足夠的數(shù)據(jù)，機(jī)器人就能像ChatGPT理解語言一樣，自然地理解和適應(yīng)物理世界。一時(shí)間，外界對(duì)人形機(jī)器人可能迎來“ChatGPT時(shí)刻”議論紛紛。連Google DeepMind的機(jī)器人專家Ted Xiao都稱，其對(duì)機(jī)器人大模型時(shí)代具有里程碑意義。

針對(duì)這項(xiàng)最新研究，《每日經(jīng)濟(jì)新聞》記者（以下簡(jiǎn)稱NBD）于11月4日晚間專訪了該論文的作者之一、清華大學(xué)IIIS四年級(jí)博士生胡英東。

胡英東博士重點(diǎn)研究嵌入式AI，這是機(jī)器學(xué)習(xí)、機(jī)器人和計(jì)算機(jī)視覺交叉的前沿領(lǐng)域。他研究了開發(fā)通用機(jī)器人系統(tǒng)的基本挑戰(zhàn)，這些系統(tǒng)可以有效適應(yīng)和概括他們?cè)诓煌摹⒎墙Y(jié)構(gòu)化的現(xiàn)實(shí)世界環(huán)境中的學(xué)習(xí)行為。

機(jī)器人將更好適應(yīng)環(huán)境

火鍋店倒水、公園疊毛巾、電梯內(nèi)拔插頭……在清華大學(xué)IIIS研究團(tuán)隊(duì)最新進(jìn)行的研究中，便攜式手持夾爪UMI在8種從未見過的環(huán)境中展現(xiàn)出了超強(qiáng)的適應(yīng)能力。

ChatGPT的問世驗(yàn)證了規(guī)模法則的“智能涌現(xiàn)”能力規(guī)模越大，效果越優(yōu)。要提升模型效果，就需要不斷擴(kuò)大參數(shù)規(guī)模、訓(xùn)練數(shù)據(jù)量、計(jì)算資源的規(guī)模。但機(jī)器人領(lǐng)域尚未建立全面的規(guī)模法則，因而未能取得深度學(xué)習(xí)領(lǐng)域那么快的發(fā)展。

為了探究數(shù)據(jù)規(guī)模法則，清華大學(xué)IIIS研究團(tuán)隊(duì)設(shè)計(jì)了物體泛化、環(huán)境泛化及環(huán)境-物體組合泛化三大維度，通過系統(tǒng)調(diào)整訓(xùn)練數(shù)據(jù)規(guī)模，全面評(píng)估適當(dāng)?shù)臄?shù)據(jù)規(guī)模能否產(chǎn)生可在任何環(huán)境下對(duì)幾乎任何物體進(jìn)行操作的機(jī)器人策略。

利用真實(shí)環(huán)境下收集的超過4萬條人類演示數(shù)據(jù)，以及嚴(yán)格評(píng)估協(xié)議下進(jìn)行的超15000次實(shí)機(jī)測(cè)試，該團(tuán)隊(duì)發(fā)現(xiàn)，策略的泛化性能與環(huán)境和訓(xùn)練時(shí)接觸的物體數(shù)量呈現(xiàn)顯著的冪律關(guān)系，即其中一個(gè)量的相對(duì)變化會(huì)導(dǎo)致另一個(gè)量的相應(yīng)冪次比例的變化，且與初值無關(guān)。

當(dāng)環(huán)境多樣性足夠豐富時(shí)，在單一環(huán)境中過度采集不同操作物體的數(shù)據(jù)所帶來的效用將變得微乎其微。而且，單個(gè)物體的演示數(shù)據(jù)很容易達(dá)到飽和，總演示數(shù)據(jù)達(dá)到800次時(shí)，性能就開始趨于穩(wěn)定。該團(tuán)隊(duì)認(rèn)為，每個(gè)物體有50次演示效果就基本能達(dá)到期望的泛化水平了。

最終的任務(wù)測(cè)試表明，在8種全新的場(chǎng)景中，機(jī)器人的成功率高達(dá)90%。這意味著機(jī)器人實(shí)現(xiàn)了真正的零樣本泛化，可以無需進(jìn)行任何微調(diào)就能泛化到全新的場(chǎng)景和物體。

也就是說，團(tuán)隊(duì)的發(fā)現(xiàn)表明，只要有足夠的數(shù)據(jù)，機(jī)器人就能像ChatGPT理解語言一樣，自然地理解和適應(yīng)物理世界！而且，這也簡(jiǎn)化了數(shù)據(jù)收集工作，以前可能需要幾個(gè)月才能完成，現(xiàn)在只需要幾天甚至一個(gè)下午。

NBD：您能否分享一下，是什么促使團(tuán)隊(duì)去探索具身智能領(lǐng)域的數(shù)據(jù)規(guī)模法則？是否受到了大語言模型規(guī)模法則的影響？

胡英東：是的，我們對(duì)數(shù)據(jù)規(guī)模法則的探索確實(shí)部分受到大語言模型的啟發(fā)。大模型中規(guī)模法則已經(jīng)成為當(dāng)今最基本的原則之一，它包括三個(gè)維度：數(shù)據(jù)、模型和算力。在探索模型和計(jì)算規(guī)模法則之前，理解數(shù)據(jù)規(guī)模法則是至關(guān)重要的。

NBD：能否用通俗的語言解釋一下數(shù)據(jù)規(guī)模法則？

胡英東：我們發(fā)現(xiàn)，數(shù)據(jù)規(guī)模法則展示了機(jī)器人策略在新環(huán)境中的性能與訓(xùn)練中的環(huán)境和物體數(shù)量之間的冪律關(guān)系。簡(jiǎn)單地說，訓(xùn)練中包含的環(huán)境和物體數(shù)量越多，泛化性能越好。

NBD：論文中提到，提高數(shù)據(jù)質(zhì)量可能比盲目增加數(shù)據(jù)量更重要。那么，您認(rèn)為如何才能有效地提高數(shù)據(jù)質(zhì)量呢？是否有具體的方法或策略？

胡英東：數(shù)據(jù)質(zhì)量有很多方面，但我們主要關(guān)注數(shù)據(jù)的多樣性。我們發(fā)現(xiàn)，在資源有限的情況下，在更廣泛的環(huán)境和物體中收集人類演示比在特定環(huán)境中使用特定物體收集更多演示帶來的效果更好。

尚不足以實(shí)現(xiàn)商業(yè)化

盡管IIIS團(tuán)隊(duì)的研究表明，只需投入相對(duì)較少的時(shí)間和資源，就有可能學(xué)習(xí)到一種可在任何環(huán)境和對(duì)象中零距離部署的單任務(wù)策略，但在現(xiàn)實(shí)中，要完成洗衣服、疊衣服等一些在人類看來非常簡(jiǎn)單的任務(wù)，AI依然面臨不小的難度。

論文也指出，目前的工作還有一些局限性，他們只關(guān)注了單任務(wù)策略的數(shù)據(jù)規(guī)模，并沒有探索多任務(wù)的通用性，因?yàn)檫@需要從數(shù)千個(gè)任務(wù)中收集數(shù)據(jù)。除了數(shù)據(jù)規(guī)模，IIIS團(tuán)隊(duì)還在模型規(guī)模化方面有三個(gè)重要發(fā)現(xiàn)：視覺編碼器必須經(jīng)過預(yù)訓(xùn)練和完整微調(diào)，缺一不可；擴(kuò)大視覺編碼器的規(guī)模能顯著提升性能；擴(kuò)大擴(kuò)散模型的規(guī)模沒能帶來明顯的性能提升，這一現(xiàn)象最讓人意外。

為了激勵(lì)更多的研究人員就此進(jìn)行探索，團(tuán)隊(duì)還公布了其代碼、數(shù)據(jù)和模型，希望業(yè)界最終開發(fā)出能夠解決復(fù)雜問題的通用機(jī)器人。

NBD：你們的研究發(fā)現(xiàn)，通過適當(dāng)?shù)囊?guī)模法則，單任務(wù)策略可以應(yīng)用于任何新環(huán)境和同一類別中的任何新對(duì)象。這是否意味著一旦機(jī)器人掌握了足夠的數(shù)據(jù)，它們就不需要進(jìn)一步學(xué)習(xí)了？

胡英東：這并不意味著機(jī)器人不再需要學(xué)習(xí)。雖然目前有90%的成功率，也讓人印象深刻，但對(duì)于商業(yè)化和家庭使用仍然不夠，我們需要達(dá)到99.9%以上的成功率，畢竟你不會(huì)希望一個(gè)機(jī)器人在倒水的時(shí)候有10%的概率打破你的杯子。

NBD：機(jī)器人在學(xué)習(xí)大量數(shù)據(jù)后，能夠適應(yīng)各種環(huán)境。這是否預(yù)示著未來很可能會(huì)出現(xiàn)通用機(jī)器人？

胡英東：我相信我們將來會(huì)看到通用機(jī)器人，我不能準(zhǔn)確預(yù)測(cè)是什么時(shí)候。我們的研究只探索了數(shù)據(jù)規(guī)模，正如我之前提到的，我們還沒有完全研究模型和計(jì)算規(guī)模，仍有許多重要的研究問題需要解決。

未來值得期待

在學(xué)界的努力之外，企業(yè)界也在專注于將通用人工智能引入物理世界，旨在開發(fā)大規(guī)模人工智能模型和算法，為機(jī)器人提供動(dòng)力。

OpenAI就是其中之一。11月4日，Meta增強(qiáng)現(xiàn)實(shí)眼鏡Orion團(tuán)隊(duì)的負(fù)責(zé)人凱特林卡林諾夫斯基在社交媒體上宣布，其已經(jīng)加盟OpenAI，領(lǐng)導(dǎo)機(jī)器人和消費(fèi)者硬件團(tuán)隊(duì)。他在帖子中表示，這份新工作最初將關(guān)注OpenAI在機(jī)器人領(lǐng)域的工作以及相關(guān)的合作，幫助AI“進(jìn)入物理世界”，解鎖對(duì)人類的好處。

同日，OpenAI被曝還參與了機(jī)器人AI初創(chuàng)公司Physical Intelligence的4億美元融資輪。本輪融資由亞馬遜創(chuàng)始人Jeff Bezos、Thrive Capital和Lux Capital領(lǐng)投。

Physical Intelligence在博客文章中提到，過去八個(gè)月里，他們一直在為機(jī)器人開發(fā)一種“通用”的人工智能模型。Physical Intelligence希望這個(gè)模型能成為他們實(shí)現(xiàn)最終目標(biāo)開發(fā)人工通用智能（AGI）的第一步。AGI是指在各種任務(wù)上達(dá)到或超越人類智能的人工智能技術(shù)。

NBD：一些文章將你們最新的研究發(fā)現(xiàn)稱為“人形機(jī)器人的ChatGPT時(shí)刻”，您對(duì)此有何看法？這個(gè)時(shí)刻是否已經(jīng)到來，還是需要更多的技術(shù)突破？

胡英東：我并不認(rèn)為我們已經(jīng)達(dá)到了“人形機(jī)器人的ChatGPT時(shí)刻”，盡管我們正在朝著這個(gè)目標(biāo)快速前進(jìn)。ChatGPT的一個(gè)關(guān)鍵特征是其非凡的泛化能力，它能夠在幾乎任何用戶定義的任務(wù)中表現(xiàn)良好。雖然我們強(qiáng)調(diào)機(jī)器人對(duì)新環(huán)境和新物體的泛化能力，但主要的區(qū)別在于我們的模型還不是真正通用的，不能處理用戶可能給出的各種各樣的指令。

NBD：研究已經(jīng)在多個(gè)現(xiàn)實(shí)場(chǎng)景中得到了驗(yàn)證，那么您認(rèn)為這些實(shí)驗(yàn)結(jié)果有一天能轉(zhuǎn)化為實(shí)際應(yīng)用嗎？

胡英東：我相信我們研究的這項(xiàng)技術(shù)最終會(huì)進(jìn)入日常實(shí)際應(yīng)用，例如，用于餐館的服務(wù)機(jī)器人。更有意義的是，這樣的機(jī)器人可以應(yīng)用于養(yǎng)老院，以協(xié)助老年人護(hù)理，這將是特別有價(jià)值和影響的。

每日經(jīng)濟(jì)新聞

相關(guān)熱詞： 機(jī)器人 AI大模型 chatgpt 胡英東 openai 清華大學(xué) 清華

上一篇：特朗普政府將如何影響全球人工智能產(chǎn)業(yè)？

下一篇：為自動(dòng)駕駛提供高分辨率衛(wèi)星圖像數(shù)據(jù)，科學(xué)家推出實(shí)例級(jí)標(biāo)注數(shù)據(jù)集OpenSatMap

清華團(tuán)隊(duì)重磅發(fā)現(xiàn)：機(jī)器人正邁向“ChatGPT時(shí)刻”！
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-07 18:30:20 瀏覽：0次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

清華團(tuán)隊(duì)重磅發(fā)現(xiàn)：機(jī)器人正邁向“ChatGPT時(shí)刻”！ 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-07 18:30:20 瀏覽：0次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

清華團(tuán)隊(duì)重磅發(fā)現(xiàn)：機(jī)器人正邁向“ChatGPT時(shí)刻”！
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-07 18:30:20 瀏覽：0次