展會(huì)信息港展會(huì)大全

斯坦福團(tuán)隊(duì)建立AI音頻數(shù)據(jù)收集系統(tǒng),能讓機(jī)器人判斷杯中是否有骰子
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-07-08 14:36:07   瀏覽:3034次  

導(dǎo)讀:如今,大多數(shù)人工智能驅(qū)動(dòng)的機(jī)器人都使用攝像頭來(lái)了解周圍環(huán)境并學(xué)習(xí)新任務(wù),但用聲音訓(xùn)練機(jī)器人正變得越來(lái)越容易,可以幫助它們更好地適應(yīng)能見度有限的任務(wù)和環(huán)境。 雖然視覺很重要,但在日常任務(wù)中,聲音實(shí)際上更有用,比如通過(guò)洋蔥在爐子上嘶嘶作響的聲音...

如今,大多數(shù)人工智能驅(qū)動(dòng)的機(jī)器人都使用攝像頭來(lái)了解周圍環(huán)境并學(xué)習(xí)新任務(wù),但用聲音訓(xùn)練機(jī)器人正變得越來(lái)越容易,可以幫助它們更好地適應(yīng)能見度有限的任務(wù)和環(huán)境。

雖然視覺很重要,但在日常任務(wù)中,聲音實(shí)際上更有用,比如通過(guò)洋蔥在爐子上嘶嘶作響的聲音,來(lái)判斷鍋的溫度是否合適。

然而,用聲音訓(xùn)練機(jī)器人只在高度受控的實(shí)驗(yàn)室環(huán)境中進(jìn)行,而且這些技術(shù)落后于其他快速機(jī)器人訓(xùn)練方法。

美國(guó)斯坦福大學(xué)機(jī)器人與人工智能實(shí)驗(yàn)室的研究人員正著手改變這一現(xiàn)狀。他們首先建立了一個(gè)收集音頻數(shù)據(jù)的系統(tǒng),包括一個(gè) GoPro 相機(jī)和一個(gè)帶麥克風(fēng)的夾持器。該麥克風(fēng)可以過(guò)濾環(huán)境噪聲。

人類演示者會(huì)帶著設(shè)備完成各種家庭任務(wù),然后使用這些數(shù)據(jù)教機(jī)械臂如何獨(dú)自執(zhí)行任務(wù)。

該團(tuán)隊(duì)的新訓(xùn)練算法幫助機(jī)器人從音頻信號(hào)中收集線索,以更有效地執(zhí)行任務(wù)。

“到目前為止,機(jī)器人一直在無(wú)聲的視頻上訓(xùn)練。”斯坦福大學(xué)博士生、該研究的主要作者 Zeyi Liu 說(shuō),“但音頻中有很多有用的數(shù)據(jù)。”

為了測(cè)試如果機(jī)器人能夠“聽見”,以及它能取得更好的成績(jī),研究人員選擇了四項(xiàng)任務(wù):在平底鍋里翻轉(zhuǎn)百吉餅、擦白板、把兩條尼龍條粘在一起、以及從杯子里倒出骰子。

在每項(xiàng)任務(wù)中,聲音都會(huì)提供攝像頭或觸覺傳感器難以處理的線索,比如知道橡皮擦是否正確接觸到白板,或者杯子里是否有骰子。

在對(duì)每項(xiàng)任務(wù)進(jìn)行幾百次演示后,研究小組比較了使用音頻訓(xùn)練和僅使用視覺訓(xùn)練的成功率。相關(guān)論文發(fā)表在一個(gè)未經(jīng)同行評(píng)審的預(yù)印本網(wǎng)站上。

當(dāng)在骰子測(cè)試中單獨(dú)使用視覺時(shí),機(jī)器人可以在 27% 的時(shí)間里準(zhǔn)確判斷杯子里是否有骰子,但當(dāng)包括聲音時(shí),這一數(shù)字上升到了 94%。

(來(lái)源:ZEYI LIU ET AL)

這項(xiàng)研究的實(shí)驗(yàn)室負(fù)責(zé)人 Shuran Song 表示,這不是第一次將音頻用于訓(xùn)練機(jī)器人,但這是朝著大規(guī)模訓(xùn)練邁出的一大步:“我們正在讓從‘真實(shí)世界’收集的音頻更容易使用,而不是局限于在實(shí)驗(yàn)室收集,因?yàn)檫@更耗時(shí)。”

這項(xiàng)研究表明,在用人工智能訓(xùn)練機(jī)器人的競(jìng)賽中,音頻可能會(huì)成為更受歡迎的數(shù)據(jù)源。

通過(guò)使用模仿學(xué)習(xí)的方法,研究人員訓(xùn)練機(jī)器人的速度比以往任何時(shí)候都快。

他們向機(jī)器人展示了數(shù)百個(gè)正在進(jìn)行中的任務(wù)的示例,而不是人工編碼每個(gè)任務(wù)。

如果可以使用研究中的設(shè)備大規(guī)模收集音頻,這將給機(jī)器人一種全新的“感覺”,幫助它們更快地適應(yīng)能見度有限或看不見的環(huán)境。

美國(guó)密歇根大學(xué)機(jī)器人學(xué)副教授德米特里貝倫森(Dmitry Berenson)沒有參與這項(xiàng)研究,他說(shuō):“可以肯定地說(shuō),音頻是(機(jī)器人)感知研究中最缺失的地方。”

這是因?yàn)橛?xùn)練機(jī)器人操縱物體的大部分研究都是針對(duì)工業(yè)分揀和放置任務(wù),比如將物體分類到垃圾箱中。

這些任務(wù)并不會(huì)從聲音中獲得太多價(jià)值,而是更依賴于觸覺或視覺傳感器。

但貝倫森說(shuō),隨著機(jī)器人的應(yīng)用范圍擴(kuò)展到家庭、廚房和其他環(huán)境中,音頻將變得越來(lái)越有用。

假設(shè)一個(gè)機(jī)器人試圖找到哪個(gè)包或口袋里有一串鑰匙,但可見性有限。貝倫森說(shuō):“在你摸到鑰匙之前,你就能聽到它們碰撞的聲音。這表明鑰匙就在那個(gè)口袋里,而不是其他的。”

盡管如此,音頻仍然具有局限性。該團(tuán)隊(duì)指出,聲音對(duì)衣服等質(zhì)地柔軟或靈活的物體沒有那么有用,因?yàn)樗鼈儾粫?huì)發(fā)出那么多可用的(有意義的)聲音。

機(jī)器人在執(zhí)行任務(wù)時(shí)也很難過(guò)濾掉自己發(fā)出的噪音,因?yàn)槿祟惍a(chǎn)生的訓(xùn)練數(shù)據(jù)中不存在這種噪音。

為了解決這個(gè)問題,研究人員需要將機(jī)器人的“聲音”和致動(dòng)器噪音添加到訓(xùn)練集中,這樣機(jī)器人就可以學(xué)會(huì)將它們過(guò)濾掉。

Liu 說(shuō),下一步是看看這些模型是否能用更多的數(shù)據(jù)得到多好的結(jié)果。這可能意味著增加更多的麥克風(fēng)來(lái)收集空間音頻,并將麥克風(fēng)集成到其他類型的數(shù)據(jù)收集設(shè)備中。

支持:Ren

運(yùn)營(yíng)/排版:何晨龍

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港