展會信息港展會大全

英偉達(dá)用ChatGPT-4訓(xùn)練機(jī)器人,代碼水平超過人類專家
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-10-24 18:14:24   瀏覽:7591次  

導(dǎo)讀:多知網(wǎng)10月23日消息,英偉達(dá)(NVIDIA)基于OpenAI的GPT-4打造Eureka,可自動訓(xùn)練實(shí)體機(jī)器人的動作指令,例如,轉(zhuǎn)筆、開抽屜、使用剪刀等超復(fù)雜動作。具備零樣本生成、編寫代碼和語境改進(jìn)等能力,可對強(qiáng)化學(xué)習(xí)的獎勵設(shè)計流程、代碼進(jìn)行大幅度優(yōu)化,達(dá)到人類專家...

多知網(wǎng)10月23日消息,英偉達(dá)(NVIDIA)基于OpenAI的GPT-4打造Eureka,可自動訓(xùn)練實(shí)體機(jī)器人的動作指令,例如,轉(zhuǎn)筆、開抽屜、使用剪刀等超復(fù)雜動作。具備零樣本生成、編寫代碼和語境改進(jìn)等能力,可對強(qiáng)化學(xué)習(xí)的獎勵設(shè)計流程、代碼進(jìn)行大幅度優(yōu)化,達(dá)到人類專家級水平。

英偉達(dá)AI高級研究總監(jiān)兼該論文作者Anima Anandkumar表示,在過去十年,強(qiáng)化學(xué)習(xí)取得了空前成功,但仍面臨許多困難,例如,獎勵設(shè)計需要不斷試錯才能完成。Eureka的出現(xiàn)開創(chuàng)了一種全新的算法,將生成式AI與強(qiáng)化學(xué)習(xí)相結(jié)合以實(shí)現(xiàn)更高的執(zhí)行效率。

強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種類型,其目標(biāo)是讓一個智能體在與環(huán)境的交互中學(xué)習(xí)如何實(shí)現(xiàn)最優(yōu)行為,以獲取最大累積獎勵。

在強(qiáng)化學(xué)習(xí)中,需智能體不斷地從環(huán)境中獲取狀態(tài),并在此基礎(chǔ)上選擇一個行動。環(huán)境對智能體的行動給出反饋,這個反饋稱為“獎勵”。強(qiáng)化學(xué)習(xí)的目標(biāo)是找到一個最優(yōu)的策略,關(guān)鍵元素包括智能體、環(huán)境、狀態(tài)、行動和獎勵。

研究人員對Eureka在多樣化的實(shí)體機(jī)器人和任務(wù)中進(jìn)行了全面評估,測試了其生成獎勵函數(shù)、解決新任務(wù)等能力。

測試環(huán)境由由10個不同的機(jī)器人和29個使用IsaacGym模擬器實(shí)現(xiàn)的任務(wù)組成。首先,包括了來自IsaacGym(Isaac)的9個原始環(huán)境,涵蓋了從四足動物、雙足動物、四旋翼、協(xié)作機(jī)器人臂到靈巧手的多樣化機(jī)器人形態(tài)。除了對機(jī)器人形態(tài)因素的覆蓋,還通過包含雙手操作基準(zhǔn)中的所有20個任務(wù),確保了評估的深度。

結(jié)果顯示,Eureka可以生成超過人類水平的獎勵函數(shù)。在29個任務(wù)中,Eureka的獎勵在83%的任務(wù)中,超過了人類專家編寫的獎勵函數(shù),平均規(guī)范化改進(jìn)為52%。尤其是在高維靈活性環(huán)境中,Eureka實(shí)現(xiàn)了更大的收益。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港