展會(huì)信息港展會(huì)大全

DeepMind機(jī)器人打乒乓球,正手、反手溜到飛起,全勝人類初學(xué)者
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-08-12 15:59:57   瀏覽:5952次  

導(dǎo)讀:機(jī)器之心報(bào)道 編輯:小舟、陳陳 但可能打不過公園里的老大爺? 巴黎奧運(yùn)會(huì)正在如火如荼地進(jìn)行中,乒乓球項(xiàng)目備受關(guān)注。與此同時(shí),機(jī)器人打乒乓球也取得了新突破。 剛剛,DeepMind 提出了第一個(gè)在競(jìng)技乒乓球比賽中達(dá)到人類業(yè)余選手水平的學(xué)習(xí)型機(jī)器人智能體。...

機(jī)器之心報(bào)道

編輯:小舟、陳陳

但可能打不過公園里的老大爺?

巴黎奧運(yùn)會(huì)正在如火如荼地進(jìn)行中,乒乓球項(xiàng)目備受關(guān)注。與此同時(shí),機(jī)器人打乒乓球也取得了新突破。

剛剛,DeepMind 提出了第一個(gè)在競(jìng)技乒乓球比賽中達(dá)到人類業(yè)余選手水平的學(xué)習(xí)型機(jī)器人智能體。

論文地址:https://arxiv.org/pdf/2408.03906

DeepMind 這個(gè)機(jī)器人打乒乓球什么水平呢?大概和人類業(yè)余選手不相上下:

正手反手都會(huì):

對(duì)手采用多種打法,該機(jī)器人也能招架得。

接不同旋轉(zhuǎn)的發(fā)球:

不過,比賽激烈程度似乎不如公園老大爺對(duì)戰(zhàn)。

對(duì)機(jī)器人來說,乒乓球運(yùn)動(dòng)需要掌握復(fù)雜的低水平技能和策略性玩法,需要長期訓(xùn)練。DeepMind 認(rèn)為戰(zhàn)略上次優(yōu)但可以熟練地執(zhí)行低水平技能可能是更好的選擇。這使乒乓球與國際象棋、圍棋等純粹的戰(zhàn)略游戲區(qū)分開來。

因此,乒乓球是提升機(jī)器人能力的一個(gè)有價(jià)值的基準(zhǔn),包括高速運(yùn)動(dòng)、實(shí)時(shí)精確和戰(zhàn)略決策、系統(tǒng)設(shè)計(jì)以及與人類對(duì)手直接競(jìng)爭(zhēng)。

對(duì)于這一點(diǎn),Google DeepMind 首席科學(xué)家稱贊道:「乒乓球機(jī)器人將有助于我們解決高速控制和感知問題!

該研究進(jìn)行了 29 場(chǎng)機(jī)器人與人類的乒乓球比賽,其中機(jī)器人獲勝 45% (13/29)。所有人類選手都是機(jī)器人未見過的玩家,從初學(xué)者到錦標(biāo)賽選手能力不等。

雖然該機(jī)器人輸?shù)袅怂信c最高級(jí)別玩家的比賽,但它贏得了 100% 的與初學(xué)者的比賽,在與中級(jí)選手的對(duì)戰(zhàn)中贏得了 55% 的比賽,展現(xiàn)出人類業(yè)余選手的水平。

總的來說,該研究的貢獻(xiàn)包括:

提出一個(gè)分層和模塊化的策略架構(gòu),其中包括:

低級(jí)控制器及其詳細(xì)的技能描述器,這些描述器對(duì)智能體的能力進(jìn)行建模并有助于彌合模擬與真實(shí)的差距;

選擇低級(jí)技能的高級(jí)控制器。

實(shí)現(xiàn)零樣本模擬到真實(shí)的技術(shù),包括定義基于現(xiàn)實(shí)世界的任務(wù)分布的迭代方法,并定義自動(dòng)課程(automatic curriculum)。

實(shí)時(shí)適應(yīng)未見過的對(duì)手。

方法介紹

該智能體由一個(gè)低級(jí)技能庫和一個(gè)高級(jí)控制器組成。低級(jí)技能庫專注于乒乓球的某個(gè)特定方面,例如正手上旋球、反手瞄準(zhǔn)或正手發(fā)球。除了包含訓(xùn)練策略,該研究還在線下和線上收集和存儲(chǔ)有關(guān)每個(gè)低級(jí)技能的優(yōu)勢(shì)、劣勢(shì)和局限性的信息。而負(fù)責(zé)協(xié)調(diào)低級(jí)技能的高級(jí)控制器會(huì)根據(jù)當(dāng)前游戲統(tǒng)計(jì)數(shù)據(jù)、技能描述選擇最佳技能。

此外,該研究還收集了少量的人類和人類對(duì)打的比賽數(shù)據(jù),作為初始任務(wù)條件的種子,數(shù)據(jù)集包括位置、速度和旋轉(zhuǎn)的信息。然后使用強(qiáng)化學(xué)習(xí)在模擬環(huán)境中訓(xùn)練智能體, 并采用一些現(xiàn)有技術(shù),將策略無縫部署到真實(shí)硬件中。

該智能體與人類一起對(duì)打以生成更多訓(xùn)練數(shù)據(jù),隨著機(jī)器人的持續(xù)學(xué)習(xí),游戲標(biāo)準(zhǔn)變得越來越復(fù)雜,以此讓智能體學(xué)習(xí)越來越復(fù)雜的動(dòng)作。這種混合的「模擬 - 現(xiàn)實(shí)」循環(huán)創(chuàng)建了一個(gè)自動(dòng)教學(xué),使機(jī)器人的技能隨著時(shí)間的推移不斷提高。

分層控制

分層控制主要包含以下部分:

乒乓球打法:高級(jí)控制器(HLC,high-level controller)首先決定使用哪種打法(正手還是反手);

調(diào)整:根據(jù)與對(duì)手比賽中的統(tǒng)計(jì)數(shù)據(jù),在線維護(hù)每個(gè) HLC 的偏好(H 值);

選擇最有效的技能:HLC 根據(jù)調(diào)整后的 H 值對(duì)入圍的 LLC 進(jìn)行抽樣;

更新:H 值和對(duì)手統(tǒng)計(jì)數(shù)據(jù)會(huì)持續(xù)更新,直至比賽結(jié)束。

結(jié)果

研究者將該智能體與 29 名不同水平的乒乓選手進(jìn)行了對(duì)比,選手包括初學(xué)者、中級(jí)、高級(jí)和高級(jí) + 技能。人類選手按照標(biāo)準(zhǔn)乒乓球規(guī)則與機(jī)器人進(jìn)行了三場(chǎng)比賽,但由于機(jī)器人無法發(fā)球,因此規(guī)則稍作修改。

面對(duì)所有對(duì)手,機(jī)器人贏得了 45% 的比賽(match)和 46% 的單局勝利(game)。按照技能水平細(xì)分,機(jī)器人贏得了與初學(xué)者的所有比賽,輸?shù)袅伺c高級(jí)和高級(jí) + 選手的所有比賽,贏得了 55% 與中級(jí)選手的比賽。這表明該智能體在乒乓球回合中達(dá)到了中級(jí)人類選手的水平。

機(jī)器人打不過高級(jí)玩家的原因在于物理和技術(shù)的限制,包括反應(yīng)速度,相機(jī)感應(yīng)能力,旋轉(zhuǎn)處理等,這是很難在模擬環(huán)境中準(zhǔn)確建模的。

與機(jī)器人對(duì)打,也很吸引人

研究參與者表示,他們非常享受與機(jī)器人一起對(duì)打,并在「有趣」和「吸引人」方面給予了機(jī)器人很高的評(píng)價(jià)。他們也一致表示「非常愿意」再次與機(jī)器人對(duì)打。在自由時(shí)間里,他們平均在 5 分鐘的時(shí)間里與機(jī)器人玩了 4 分 06 秒。

機(jī)器人不擅長下旋球

技能最好的參與者提到,機(jī)器人不擅長處理下旋。為了測(cè)試這一觀察結(jié)果,研究人員根據(jù)球的旋轉(zhuǎn)繪制了機(jī)器人的著陸率,根據(jù)結(jié)果可以看到,機(jī)器人在面對(duì)更多的下旋球時(shí),著陸率大幅下降。這一缺陷部分是由于機(jī)器人在處理低球時(shí),為了避免與桌子碰撞導(dǎo)致的,其次是實(shí)時(shí)確定球的旋轉(zhuǎn)確實(shí)很難。

參考鏈接:

https://sites.google.com/view/competitive-robot-table-tennis/home?utm_source&utm_medium&utm_campaign&utm_content&pli=1

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港