黄色中文字木视频,久久精品免费首页,欧美亚洲另类专区

DeepMind機(jī)器人打乒乓球，正手、反手溜到飛起，全勝人類初學(xué)者

來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-08-12 15:59:57 瀏覽：5952次

導(dǎo)讀：機(jī)器之心報(bào)道編輯：小舟、陳陳但可能打不過公園里的老大爺？巴黎奧運(yùn)會(huì)正在如火如荼地進(jìn)行中，乒乓球項(xiàng)目備受關(guān)注。與此同時(shí)，機(jī)器人打乒乓球也取得了新突破。剛剛，DeepMind 提出了第一個(gè)在競(jìng)技乒乓球比賽中達(dá)到人類業(yè)余選手水平的學(xué)習(xí)型機(jī)器人智能體。...

機(jī)器之心報(bào)道

編輯：小舟、陳陳

但可能打不過公園里的老大爺？

巴黎奧運(yùn)會(huì)正在如火如荼地進(jìn)行中，乒乓球項(xiàng)目備受關(guān)注。與此同時(shí)，機(jī)器人打乒乓球也取得了新突破。

剛剛，DeepMind 提出了第一個(gè)在競(jìng)技乒乓球比賽中達(dá)到人類業(yè)余選手水平的學(xué)習(xí)型機(jī)器人智能體。

論文地址：https://arxiv.org/pdf/2408.03906

DeepMind 這個(gè)機(jī)器人打乒乓球什么水平呢？大概和人類業(yè)余選手不相上下：

正手反手都會(huì)：

對(duì)手采用多種打法，該機(jī)器人也能招架得�。�

接不同旋轉(zhuǎn)的發(fā)球：

不過，比賽激烈程度似乎不如公園老大爺對(duì)戰(zhàn)。

對(duì)機(jī)器人來說，乒乓球運(yùn)動(dòng)需要掌握復(fù)雜的低水平技能和策略性玩法，需要長期訓(xùn)練。DeepMind 認(rèn)為戰(zhàn)略上次優(yōu)但可以熟練地執(zhí)行低水平技能可能是更好的選擇。這使乒乓球與國際象棋、圍棋等純粹的戰(zhàn)略游戲區(qū)分開來。

因此，乒乓球是提升機(jī)器人能力的一個(gè)有價(jià)值的基準(zhǔn)，包括高速運(yùn)動(dòng)、實(shí)時(shí)精確和戰(zhàn)略決策、系統(tǒng)設(shè)計(jì)以及與人類對(duì)手直接競(jìng)爭(zhēng)。

對(duì)于這一點(diǎn)，Google DeepMind 首席科學(xué)家稱贊道：「乒乓球機(jī)器人將有助于我們解決高速控制和感知問題�！�

該研究進(jìn)行了 29 場(chǎng)機(jī)器人與人類的乒乓球比賽，其中機(jī)器人獲勝 45% (13/29)。所有人類選手都是機(jī)器人未見過的玩家，從初學(xué)者到錦標(biāo)賽選手能力不等。

雖然該機(jī)器人輸?shù)袅怂信c最高級(jí)別玩家的比賽，但它贏得了 100% 的與初學(xué)者的比賽，在與中級(jí)選手的對(duì)戰(zhàn)中贏得了 55% 的比賽，展現(xiàn)出人類業(yè)余選手的水平。

總的來說，該研究的貢獻(xiàn)包括：

提出一個(gè)分層和模塊化的策略架構(gòu)，其中包括：

低級(jí)控制器及其詳細(xì)的技能描述器，這些描述器對(duì)智能體的能力進(jìn)行建模并有助于彌合模擬與真實(shí)的差距；

選擇低級(jí)技能的高級(jí)控制器。

實(shí)現(xiàn)零樣本模擬到真實(shí)的技術(shù)，包括定義基于現(xiàn)實(shí)世界的任務(wù)分布的迭代方法，并定義自動(dòng)課程（automatic curriculum）。

實(shí)時(shí)適應(yīng)未見過的對(duì)手。

方法介紹

該智能體由一個(gè)低級(jí)技能庫和一個(gè)高級(jí)控制器組成。低級(jí)技能庫專注于乒乓球的某個(gè)特定方面，例如正手上旋球、反手瞄準(zhǔn)或正手發(fā)球。除了包含訓(xùn)練策略，該研究還在線下和線上收集和存儲(chǔ)有關(guān)每個(gè)低級(jí)技能的優(yōu)勢(shì)、劣勢(shì)和局限性的信息。而負(fù)責(zé)協(xié)調(diào)低級(jí)技能的高級(jí)控制器會(huì)根據(jù)當(dāng)前游戲統(tǒng)計(jì)數(shù)據(jù)、技能描述選擇最佳技能。

此外，該研究還收集了少量的人類和人類對(duì)打的比賽數(shù)據(jù)，作為初始任務(wù)條件的種子，數(shù)據(jù)集包括位置、速度和旋轉(zhuǎn)的信息。然后使用強(qiáng)化學(xué)習(xí)在模擬環(huán)境中訓(xùn)練智能體，并采用一些現(xiàn)有技術(shù)，將策略無縫部署到真實(shí)硬件中。

該智能體與人類一起對(duì)打以生成更多訓(xùn)練數(shù)據(jù)，隨著機(jī)器人的持續(xù)學(xué)習(xí)，游戲標(biāo)準(zhǔn)變得越來越復(fù)雜，以此讓智能體學(xué)習(xí)越來越復(fù)雜的動(dòng)作。這種混合的「模擬 - 現(xiàn)實(shí)」循環(huán)創(chuàng)建了一個(gè)自動(dòng)教學(xué)，使機(jī)器人的技能隨著時(shí)間的推移不斷提高。

分層控制

分層控制主要包含以下部分：

乒乓球打法：高級(jí)控制器（HLC，high-level controller）首先決定使用哪種打法（正手還是反手）；

調(diào)整：根據(jù)與對(duì)手比賽中的統(tǒng)計(jì)數(shù)據(jù)，在線維護(hù)每個(gè) HLC 的偏好（H 值）；

選擇最有效的技能：HLC 根據(jù)調(diào)整后的 H 值對(duì)入圍的 LLC 進(jìn)行抽樣；

更新：H 值和對(duì)手統(tǒng)計(jì)數(shù)據(jù)會(huì)持續(xù)更新，直至比賽結(jié)束。

結(jié)果

研究者將該智能體與 29 名不同水平的乒乓選手進(jìn)行了對(duì)比，選手包括初學(xué)者、中級(jí)、高級(jí)和高級(jí) + 技能。人類選手按照標(biāo)準(zhǔn)乒乓球規(guī)則與機(jī)器人進(jìn)行了三場(chǎng)比賽，但由于機(jī)器人無法發(fā)球，因此規(guī)則稍作修改。

面對(duì)所有對(duì)手，機(jī)器人贏得了 45% 的比賽（match）和 46% 的單局勝利（game）。按照技能水平細(xì)分，機(jī)器人贏得了與初學(xué)者的所有比賽，輸?shù)袅伺c高級(jí)和高級(jí) + 選手的所有比賽，贏得了 55% 與中級(jí)選手的比賽。這表明該智能體在乒乓球回合中達(dá)到了中級(jí)人類選手的水平。

機(jī)器人打不過高級(jí)玩家的原因在于物理和技術(shù)的限制，包括反應(yīng)速度，相機(jī)感應(yīng)能力，旋轉(zhuǎn)處理等，這是很難在模擬環(huán)境中準(zhǔn)確建模的。

與機(jī)器人對(duì)打，也很吸引人

研究參與者表示，他們非常享受與機(jī)器人一起對(duì)打，并在「有趣」和「吸引人」方面給予了機(jī)器人很高的評(píng)價(jià)。他們也一致表示「非常愿意」再次與機(jī)器人對(duì)打。在自由時(shí)間里，他們平均在 5 分鐘的時(shí)間里與機(jī)器人玩了 4 分 06 秒。

機(jī)器人不擅長下旋球

技能最好的參與者提到，機(jī)器人不擅長處理下旋。為了測(cè)試這一觀察結(jié)果，研究人員根據(jù)球的旋轉(zhuǎn)繪制了機(jī)器人的著陸率，根據(jù)結(jié)果可以看到，機(jī)器人在面對(duì)更多的下旋球時(shí)，著陸率大幅下降。這一缺陷部分是由于機(jī)器人在處理低球時(shí)，為了避免與桌子碰撞導(dǎo)致的，其次是實(shí)時(shí)確定球的旋轉(zhuǎn)確實(shí)很難。