日本888xxxx,无码中文2020字幕二区,在线观看黄色视频

英偉達(dá)用ChatGPT-4訓(xùn)練機(jī)器人，代碼水平超過人類專家

來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-10-24 18:14:24 瀏覽：7591次

導(dǎo)讀：多知網(wǎng)10月23日消息，英偉達(dá)(NVIDIA)基于OpenAI的GPT-4打造Eureka，可自動訓(xùn)練實(shí)體機(jī)器人的動作指令，例如，轉(zhuǎn)筆、開抽屜、使用剪刀等超復(fù)雜動作。具備零樣本生成、編寫代碼和語境改進(jìn)等能力，可對強(qiáng)化學(xué)習(xí)的獎勵設(shè)計流程、代碼進(jìn)行大幅度優(yōu)化，達(dá)到人類專家...

多知網(wǎng)10月23日消息，英偉達(dá)(NVIDIA)基于OpenAI的GPT-4打造Eureka，可自動訓(xùn)練實(shí)體機(jī)器人的動作指令，例如，轉(zhuǎn)筆、開抽屜、使用剪刀等超復(fù)雜動作。具備零樣本生成、編寫代碼和語境改進(jìn)等能力，可對強(qiáng)化學(xué)習(xí)的獎勵設(shè)計流程、代碼進(jìn)行大幅度優(yōu)化，達(dá)到人類專家級水平。

英偉達(dá)AI高級研究總監(jiān)兼該論文作者Anima Anandkumar表示，在過去十年，強(qiáng)化學(xué)習(xí)取得了空前成功，但仍面臨許多困難，例如，獎勵設(shè)計需要不斷試錯才能完成。Eureka的出現(xiàn)開創(chuàng)了一種全新的算法，將生成式AI與強(qiáng)化學(xué)習(xí)相結(jié)合以實(shí)現(xiàn)更高的執(zhí)行效率。

強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種類型，其目標(biāo)是讓一個智能體在與環(huán)境的交互中學(xué)習(xí)如何實(shí)現(xiàn)最優(yōu)行為，以獲取最大累積獎勵。

在強(qiáng)化學(xué)習(xí)中，需智能體不斷地從環(huán)境中獲取狀態(tài)，并在此基礎(chǔ)上選擇一個行動。環(huán)境對智能體的行動給出反饋，這個反饋稱為“獎勵”。強(qiáng)化學(xué)習(xí)的目標(biāo)是找到一個最優(yōu)的策略，關(guān)鍵元素包括智能體、環(huán)境、狀態(tài)、行動和獎勵。

研究人員對Eureka在多樣化的實(shí)體機(jī)器人和任務(wù)中進(jìn)行了全面評估，測試了其生成獎勵函數(shù)、解決新任務(wù)等能力。

測試環(huán)境由由10個不同的機(jī)器人和29個使用IsaacGym模擬器實(shí)現(xiàn)的任務(wù)組成。首先，包括了來自IsaacGym(Isaac)的9個原始環(huán)境，涵蓋了從四足動物、雙足動物、四旋翼、協(xié)作機(jī)器人臂到靈巧手的多樣化機(jī)器人形態(tài)。除了對機(jī)器人形態(tài)因素的覆蓋，還通過包含雙手操作基準(zhǔn)中的所有20個任務(wù)，確保了評估的深度。

結(jié)果顯示，Eureka可以生成超過人類水平的獎勵函數(shù)。在29個任務(wù)中，Eureka的獎勵在83%的任務(wù)中，超過了人類專家編寫的獎勵函數(shù)，平均規(guī)范化改進(jìn)為52%。尤其是在高維靈活性環(huán)境中，Eureka實(shí)現(xiàn)了更大的收益。

相關(guān)熱詞： 英偉達(dá)用 ChatGPT-4 訓(xùn)練機(jī)器人代碼水平超

英偉達(dá)用ChatGPT-4訓(xùn)練機(jī)器人，代碼水平超過人類專家
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-10-24 18:14:24 瀏覽：7591次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

英偉達(dá)用ChatGPT-4訓(xùn)練機(jī)器人，代碼水平超過人類專家 來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-10-24 18:14:24 瀏覽：7591次