曝光无码有码视频专区,天堂av黄色在线观看,日韩欧精品无码五月天

騰訊機(jī)器狗最新進(jìn)展：引入預(yù)訓(xùn)練模型，越來越像真狗

來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-06-15 20:10:33 瀏覽：8284次

導(dǎo)讀：6月14日，騰訊Robotics X機(jī)器人實(shí)驗(yàn)室公布了智能體研究的最新進(jìn)展，通過將前沿的預(yù)訓(xùn)練AI模型和強(qiáng)化學(xué)習(xí)技術(shù)應(yīng)用到機(jī)器人控制領(lǐng)域，讓機(jī)器狗 Max 的靈活性和自主決策能力得到大幅提升。讓機(jī)器狗像人和動(dòng)物一樣靈活且穩(wěn)定的運(yùn)動(dòng)，是機(jī)器人研究領(lǐng)域長期追求的...

6月14日，騰訊Robotics X機(jī)器人實(shí)驗(yàn)室公布了智能體研究的最新進(jìn)展，通過將前沿的預(yù)訓(xùn)練AI模型和強(qiáng)化學(xué)習(xí)技術(shù)應(yīng)用到機(jī)器人控制領(lǐng)域，讓機(jī)器狗 Max 的靈活性和自主決策能力得到大幅提升。

讓機(jī)器狗像人和動(dòng)物一樣靈活且穩(wěn)定的運(yùn)動(dòng)，是機(jī)器人研究領(lǐng)域長期追求的目標(biāo)，深度學(xué)習(xí)技術(shù)的不斷進(jìn)步，使得讓機(jī)器通過“學(xué)習(xí)”來掌握相關(guān)能力，學(xué)會應(yīng)對復(fù)雜多變的環(huán)境變得可行。

引入預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)：讓機(jī)器狗更加靈動(dòng)

騰訊Robotics X機(jī)器人實(shí)驗(yàn)室通過引入預(yù)訓(xùn)練模型和強(qiáng)化學(xué)習(xí)技術(shù)，可以讓機(jī)器狗分階段進(jìn)行學(xué)習(xí)，有效的將不同階段的技能、知識積累并存儲下來，讓機(jī)器人在解決新的復(fù)雜任務(wù)時(shí)，不必重新學(xué)習(xí)，而是可以復(fù)用已經(jīng)學(xué)會的姿態(tài)、環(huán)境感知、策略規(guī)劃多個(gè)層面的知識，進(jìn)行“舉一反三”，靈活應(yīng)對復(fù)雜環(huán)境。

這一系列的學(xué)習(xí)分為三個(gè)階段：

第一階段通過游戲技術(shù)中常使用動(dòng)作捕捉系統(tǒng)，研究員收集真狗的運(yùn)動(dòng)姿態(tài)數(shù)據(jù)，包括走、跑、跳、站立等動(dòng)作，并利用這些數(shù)據(jù)，在仿真器中構(gòu)建了一個(gè)模仿學(xué)習(xí)任務(wù)，再將這些數(shù)據(jù)中的信息抽象并壓縮到深度神經(jīng)網(wǎng)絡(luò)模型中。這些模型能夠非常準(zhǔn)確地涵蓋收集的動(dòng)物運(yùn)動(dòng)姿態(tài)信息，且具有一定的可解釋性。

騰訊Robotics X機(jī)器人實(shí)驗(yàn)室和騰訊游戲合作，用游戲技術(shù)提升了仿真引擎的準(zhǔn)確和高效，同時(shí)游戲制作和研發(fā)過程中積累了多元的動(dòng)捕素材。這些技術(shù)以及數(shù)據(jù)對基于物理仿真的智能體訓(xùn)練以及真實(shí)世界機(jī)器人策略部署起到了一定的輔助作用。

在模仿學(xué)習(xí)的過程中，神經(jīng)網(wǎng)絡(luò)模型僅接收機(jī)器狗本體感知信息作為輸入，例如機(jī)器狗身上電機(jī)狀態(tài)等。再下一步，模型引入周邊環(huán)境的感知數(shù)據(jù)，例如可以通過其他傳感器“看到“腳下的障礙物。

第二階段，通過額外的網(wǎng)絡(luò)參數(shù)來將第一階段掌握的機(jī)器狗靈動(dòng)姿態(tài)與外界感知聯(lián)系在一起，使得機(jī)器狗能夠通過已經(jīng)學(xué)會的靈動(dòng)姿態(tài)來應(yīng)對外界環(huán)境。當(dāng)機(jī)器狗適應(yīng)了多種復(fù)雜的環(huán)境后，這些將靈動(dòng)姿態(tài)與外界感知聯(lián)系在一起的知識也會被固化下來，存在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中。

第三階段，利用上述兩個(gè)預(yù)訓(xùn)練階段獲取的神經(jīng)網(wǎng)絡(luò)，機(jī)器狗才有前提和機(jī)會來聚焦解決最上層的策略學(xué)習(xí)問題，最終具備端到端解決復(fù)雜的任務(wù)的能力。第三階段附加的網(wǎng)絡(luò)會獲取與復(fù)雜任務(wù)有關(guān)的信息，例如在游戲中，獲取對手的信息、旗子的信息。此外，通過綜合分析所有信息，負(fù)責(zé)策略學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)會學(xué)習(xí)出針對任務(wù)的高階策略，例如往哪個(gè)方向跑動(dòng)，預(yù)判對手的行為來決定是否繼續(xù)追逐等等。

上述每一階段學(xué)習(xí)到的知識都可以擴(kuò)充和調(diào)整，不需要重新學(xué)習(xí)，因此可以不斷積累，持續(xù)學(xué)習(xí)。

機(jī)器狗障礙追逐比賽：擁有自主決策和控制能力

為了測試Max所掌握的這些新技能，研究員受到障礙追逐比賽“World Chase Tag“的啟發(fā)，設(shè)計(jì)了一個(gè)雙狗障礙追逐的游戲。World Chase Tag是一個(gè)競技性障礙追逐賽組織，2014年創(chuàng)立于英國，由民間兒童追逐游戲標(biāo)準(zhǔn)化而來。一般來說，障礙追逐比賽每輪次由兩名互為對手的運(yùn)動(dòng)員參加，一名是追擊者（稱為攻方），一名是躲避者（稱為守方），當(dāng)一名運(yùn)動(dòng)員在整個(gè)追逐回合中（即20秒）成功躲避對手（即未發(fā)生觸碰）時(shí)，團(tuán)隊(duì)將獲得一分。在預(yù)定的追逐回合數(shù)中得分最多的戰(zhàn)隊(duì)贏得比賽。

在機(jī)器狗障礙追逐比賽中，游戲場地大小為4.5米 x 4.5米，其中散落著一些障礙物。游戲起始，兩個(gè)MAX機(jī)器狗會被放置在場地中的隨機(jī)位置，且隨機(jī)一個(gè)機(jī)器狗被賦予追擊者的角色，另一個(gè)為躲避者，同時(shí)，場地中會在隨機(jī)位置擺放一個(gè)旗子。

追擊者的任務(wù)是抓住躲避者，躲避者的目的則是在保證不被抓到的前提下去接近旗子。如果躲避者在被抓到之前成功觸碰到旗子，則兩個(gè)機(jī)器狗的角色會瞬間發(fā)生互換，同時(shí)旗子會重新出現(xiàn)在另一個(gè)隨機(jī)的位置。游戲最終的結(jié)束條件為當(dāng)前的追擊者抓住了躲避者，且當(dāng)前為追擊者角色的機(jī)器狗獲勝。所有游戲過程中，兩個(gè)機(jī)器狗的平均前向速度被約束在0.5m/s。

從這個(gè)游戲看來，在基于預(yù)訓(xùn)練好的模型下，機(jī)器狗通過深度強(qiáng)化學(xué)習(xí)，已經(jīng)具備一定的推理和決策能力：

比如，當(dāng)追擊者意識到自己在躲避者碰到旗子之前已經(jīng)無法追上它的時(shí)候，追擊者就會放棄追擊，而是在遠(yuǎn)離躲避者的位置徘徊，目的是為了等待下一個(gè)重置的旗子出現(xiàn)。

另外，當(dāng)追擊者即將抓到躲避者的最后時(shí)刻，它喜歡跳起來向著躲避者做出一個(gè)"撲"的動(dòng)作，非常類似動(dòng)物捕捉獵物時(shí)候的行為，或者躲避者在快要接觸旗子的時(shí)候也會表現(xiàn)出同樣的行為。這些都是機(jī)器狗為了確保自己的勝利采取的主動(dòng)加速措施。

據(jù)介紹，游戲中機(jī)器狗的所有控制策略都是神經(jīng)網(wǎng)絡(luò)策略，在仿真中進(jìn)行學(xué)習(xí)并通過zero-shot transfer(零調(diào)整遷移），讓神經(jīng)網(wǎng)絡(luò)模擬人類的推理方式，來識別從未見過的新事物，并把這些知識部署到真實(shí)機(jī)器狗上。例如下圖所示，機(jī)器狗在預(yù)訓(xùn)練模型中學(xué)會的躲避障礙物的知識，被用在游戲中，即使帶有障礙物的場景并未在Chase Tag Game的虛擬世界進(jìn)行訓(xùn)練（虛擬世界中僅訓(xùn)練了平地下的游戲場景），機(jī)器狗也能順利完成任務(wù)。

騰訊Robotics X機(jī)器人實(shí)驗(yàn)室長期致力于機(jī)器人前沿技術(shù)的研究，以此前在機(jī)器人本體、運(yùn)動(dòng)、控制領(lǐng)域等領(lǐng)先技術(shù)和積累為基礎(chǔ)，研究員們也在嘗試將前沿的預(yù)訓(xùn)練模型和深度強(qiáng)化學(xué)習(xí)技術(shù)引入到機(jī)器人領(lǐng)域，提升機(jī)器人的控制能力，讓其更具靈活性，這也為機(jī)器人走入現(xiàn)實(shí)生活，服務(wù)人類打下了堅(jiān)實(shí)的基矗

騰訊機(jī)器狗最新進(jìn)展：引入預(yù)訓(xùn)練模型，越來越像真狗
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-06-15 20:10:33 瀏覽：8284次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

騰訊機(jī)器狗最新進(jìn)展：引入預(yù)訓(xùn)練模型，越來越像真狗 來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-06-15 20:10:33 瀏覽：8284次