劃重點(diǎn)
01英偉達(dá)實(shí)驗(yàn)室提出了機(jī)器人訓(xùn)練數(shù)據(jù)缺乏問題的新解決方案DexMimicGen,僅需要五次演示就能生成1000個(gè)新demo。
02DexMimicGen在仿真環(huán)境中的任務(wù)成功率可達(dá)97%,比用真人數(shù)據(jù)效果還要好。
03除此之外,DexMimicGen還展現(xiàn)了跨任務(wù)的泛化能力,使訓(xùn)練出的策略在各種不同任務(wù)上表現(xiàn)良好。
04作者將DexMimicGen生成的演示數(shù)據(jù)訓(xùn)練模仿學(xué)習(xí)策略,并遷移到實(shí)際機(jī)器人系統(tǒng)中。
以上內(nèi)容由大模型生成,僅供參考
克雷西 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI
人類只需要演示五次,就能讓機(jī)器人學(xué)會(huì)一項(xiàng)復(fù)雜技能。
英偉達(dá)實(shí)驗(yàn)室,提出了機(jī)器人訓(xùn)練數(shù)據(jù)缺乏問題的新解決方案DexMimicGen。
五次演示之后,DexMimicGen就可以直接模仿出1000個(gè)新的demo。
而且可用性強(qiáng),用這些新demo訓(xùn)練出的機(jī)器人,在仿真環(huán)境中的任務(wù)成功率可以高達(dá)97%,比用真人數(shù)據(jù)效果還要好。
參與此項(xiàng)目的英偉達(dá)科學(xué)家范麟熙(Jim Fan)認(rèn)為,這種用機(jī)器訓(xùn)練機(jī)器的方式,解決了機(jī)器人領(lǐng)域最大的痛點(diǎn)(指數(shù)據(jù)收集)。
同時(shí),Jim Fan還預(yù)言:
機(jī)器人數(shù)據(jù)的未來是生成式的,整個(gè)機(jī)器人學(xué)習(xí)流程的未來也將是生成式的。
值得一提的是,DexMimicGen三名共同一作都是李飛飛的“徒孫”,具體說是德克薩斯大學(xué)奧斯汀分校(UT奧斯汀)助理教授朱玉可(Yuke Zhu)的學(xué)生。
而且三人均為華人,目前都在英偉達(dá)研究院實(shí)習(xí)。
5次演示,生成1000條數(shù)據(jù)如前所述,DexMimicGen可以僅根據(jù)人類的5次演示,生成1000個(gè)新DEMO。
在整個(gè)實(shí)驗(yàn)中,作者設(shè)置了9個(gè)場(chǎng)景,涵蓋了3種機(jī)器人形態(tài),共進(jìn)行了60次演示,獲得了21000多個(gè)生成DEMO。
在仿真環(huán)境當(dāng)中,用DexMimicGen生成數(shù)據(jù)訓(xùn)練出的策略執(zhí)行整理抽屜這一任務(wù),成功率可達(dá)76%,而單純使用人工數(shù)據(jù)只有0.7%。
對(duì)于積木組裝任務(wù),成功率也從3.3%提升到了80.7%。
成功率最高的任務(wù)是罐子分類,更是高達(dá)97.3%,只用人工數(shù)據(jù)的成功率同樣只有0.7%。
整體來看,在仿真環(huán)境中,生成數(shù)據(jù)讓機(jī)器人在作者設(shè)計(jì)的九類任務(wù)上的成功率均明顯增加。
相比于baseline方法,用DexMimicGen生成的數(shù)據(jù)也更為有效。
遷移到真實(shí)環(huán)境之后,作者測(cè)試了易拉罐分揀的任務(wù),結(jié)果僅用了40個(gè)生成DEMO,成功率就達(dá)到了90%,而不使用生成數(shù)據(jù)時(shí)的成功率為零。
除此之外,DexMimicGen還展現(xiàn)了跨任務(wù)的泛化能力,使訓(xùn)練出的策略在各種不同任務(wù)上表現(xiàn)良好。
針對(duì)初始狀態(tài)分布變化,DexMimicGen也體現(xiàn)出了較強(qiáng)的魯棒性,在更廣泛的初始狀態(tài)分布D1和D2上測(cè)試時(shí),仍然能夠擁有一定的成功率。
將仿真方法遷移到現(xiàn)實(shí)DexMimicGen是由MimicGen改造而成,MimicGen也出自英偉達(dá)和UT奧斯汀的聯(lián)合團(tuán)隊(duì)。
朱玉可和范麟熙都參與過MimicGen的工作,該成果發(fā)表于CoRL 2023。
MimicGen的核心思想,是將人類示范數(shù)據(jù)分割成以目標(biāo)物體為中心的片段,然后通過變換物體相對(duì)位置和姿態(tài),在新環(huán)境中復(fù)現(xiàn)人類示范軌跡,從而實(shí)現(xiàn)自動(dòng)化數(shù)據(jù)生成。
DexMimicGen則在MimicGen系統(tǒng)的基礎(chǔ)上,針對(duì)雙臂機(jī)器人靈巧操作任務(wù)做了改進(jìn)和擴(kuò)展,具體包括幾個(gè)方面:
引入并行、協(xié)調(diào)、順序三種子任務(wù)類型,以適應(yīng)雙臂靈巧操作任務(wù)的需求;
對(duì)應(yīng)三種子任務(wù)類型,設(shè)計(jì)了異步執(zhí)行、同步執(zhí)行和順序約束等機(jī)制,以實(shí)現(xiàn)雙臂的獨(dú)立動(dòng)作、精密協(xié)同和特定順序操作;
實(shí)現(xiàn)了“現(xiàn)實(shí)-模擬-現(xiàn)實(shí)”的框架,通過構(gòu)建數(shù)字孿生,將DexMimicGen拓展到了實(shí)際機(jī)器人系統(tǒng)的應(yīng)用。
工作流程上,DexMimicGen會(huì)首先對(duì)人類示范進(jìn)行采集和分割。
研究人員通過佩戴XR頭顯,遠(yuǎn)程控制機(jī)器人完成目標(biāo)任務(wù),在這一過程中就會(huì)產(chǎn)生一小批示范數(shù)據(jù),作者針對(duì)每個(gè)任務(wù)采集了5~10個(gè)人類示范樣本。
這些人類示范樣本會(huì)按照并行、協(xié)調(diào)、順序三種子任務(wù)定義被切分成片段
并行子任務(wù)允許兩臂獨(dú)立執(zhí)行;
協(xié)調(diào)子任務(wù)要求兩臂在關(guān)鍵時(shí)刻同步動(dòng)作;
順序子任務(wù)則規(guī)定了某些子任務(wù)必須在另一些子任務(wù)完成后才能執(zhí)行。
總之,在示范數(shù)據(jù)被切分后,機(jī)器人的每個(gè)手臂會(huì)得到自己對(duì)應(yīng)的片段集合。
在數(shù)據(jù)生成開始時(shí),DexMimicGen隨機(jī)化模擬環(huán)境中物體的位置、姿態(tài)等數(shù)據(jù),并隨機(jī)選擇一個(gè)人類示范作為參考。
對(duì)于當(dāng)前子任務(wù),DexMimicGen會(huì)計(jì)算示范片段與當(dāng)前環(huán)境中關(guān)鍵物體位置和姿態(tài)的變換。
之后用該變換對(duì)參考片段中的機(jī)器人動(dòng)作軌跡進(jìn)行處理,以使執(zhí)行這一變換后的軌跡能夠與新環(huán)境中物體位置匹配。
生成變換后,DexMimicGen會(huì)維護(hù)每個(gè)手臂的動(dòng)作隊(duì)列,手指關(guān)節(jié)的運(yùn)動(dòng)則直接重放示范數(shù)據(jù)中的動(dòng)作。
在整個(gè)過程中,系統(tǒng)不斷檢查任務(wù)是否成功完成,如果一次執(zhí)行成功完成了任務(wù),則將執(zhí)行過程記錄下來作為有效的演示數(shù)據(jù),失敗則將數(shù)據(jù)丟棄。
之后就是將生成過程不斷迭代,直到獲得足夠量的演示數(shù)據(jù)。
收集好數(shù)據(jù)后,作者用DexMimicGen生成的演示數(shù)據(jù)訓(xùn)練模仿學(xué)習(xí)策略,策略的輸入為RGB相機(jī)圖像,輸出為機(jī)器人動(dòng)作。
最后是模擬到現(xiàn)實(shí)的遷移,同樣地,作者使用DexMimicGen在數(shù)字孿生環(huán)境中生成的大規(guī)模演示數(shù)據(jù),訓(xùn)練模仿學(xué)習(xí)策略。
之后作者對(duì)在數(shù)字孿生環(huán)境中評(píng)估訓(xùn)練得到的策略進(jìn)行調(diào)優(yōu),以提高其泛化性能和魯棒性,并遷移到實(shí)際機(jī)器人系統(tǒng)中。
作者簡(jiǎn)介DexMimicGen的共同一作有三人,都是UT奧斯汀的華人學(xué)生。
并且三人均出自李飛飛的學(xué)生、浙大校友朱玉可(Yuke Zhu)助理教授門下,他們分別是:
博士生Zhenyu Jiang,本科就讀于清華,2020年進(jìn)入U(xiǎn)T奧斯汀,預(yù)計(jì)將于明年畢業(yè);
碩士生Yuqi Xie(謝雨齊),本科是上海交大和美國(guó)密歇根大學(xué)聯(lián)培,預(yù)計(jì)畢業(yè)時(shí)間也是明年;
博士生Kevin Lin,本科和碩士分別就讀于UC伯克利和斯坦福,今年加入朱玉可課題組讀博。
朱玉可的另一重身份是英偉達(dá)的研究科學(xué)家,團(tuán)隊(duì)的另外兩名負(fù)責(zé)人也都在英偉達(dá)。
他們分別是Ajay Mandlekar和范麟熙(Jim Fan),也都是李飛飛的學(xué)生,Mandlekar是整個(gè)DexMimicGen項(xiàng)目組中唯一的非華人。
另外,Zhenjia Xu和Weikang Wan兩名華人學(xué)者對(duì)此項(xiàng)目亦有貢獻(xiàn),整個(gè)團(tuán)隊(duì)的分工如下:
△中文為機(jī)翻,僅供參考
項(xiàng)目主頁:https://dexmimicgen.github.io/論文地址:https://arxiv.org/abs/2410.24185參考鏈接:[1]https://x.com/SteveTod1998/status/1852365700372832707[2]https://x.com/DrJimFan/status/1852383627738239324