展會(huì)信息港展會(huì)大全

“有溫度”的交互,人形機(jī)器人如何避免恐怖谷效應(yīng)?
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-09-11 09:04:09   瀏覽:1817次  

導(dǎo)讀:機(jī)器人如何更像人? 作者/IT時(shí)報(bào)記者 沈毅斌 編輯/ 孫妍 兩個(gè)月前在上海舉辦的世界人工智能大會(huì)上,來自多家企業(yè)的人形機(jī)器人十八金剛集體出道,不僅成為鎮(zhèn)館之寶,還向觀眾展現(xiàn)出一張未來科技藍(lán)圖。作為改革開放排頭兵,深圳也加入由AI卷起的科技浪潮中。...

機(jī)器人如何更像人?

作者/IT時(shí)報(bào)記者沈毅斌

編輯/ 孫妍

兩個(gè)月前在上海舉辦的世界人工智能大會(huì)上,來自多家企業(yè)的人形機(jī)器人“十八金剛”集體出道,不僅成為鎮(zhèn)館之寶,還向觀眾展現(xiàn)出一張未來科技藍(lán)圖。作為改革開放“排頭兵”,深圳也加入由AI卷起的科技浪潮中。

9月8日至10日,以“智創(chuàng)未來價(jià)值鏈接”為主題的第五屆深圳國(guó)際人工智能展(GAIE)在深圳會(huì)展中心拉開帷幕。展會(huì)現(xiàn)場(chǎng),迎賓巡更機(jī)器人在入口處迎接遠(yuǎn)道而來的觀眾,并發(fā)放論壇議程;休息區(qū)可以品嘗咖啡機(jī)器人和炒面機(jī)器人的“手藝”;智能訪客機(jī)器人回答著觀展問題......具身智能憑借強(qiáng)大的交互能力,成為全場(chǎng)焦點(diǎn)。

目前,具身智能在語言對(duì)話交互方面已經(jīng)取得一定進(jìn)步,不過在行動(dòng)、情感等方面的交互還較為簡(jiǎn)單,恐怖谷效應(yīng)依然存在。“人形機(jī)器人在交互領(lǐng)域達(dá)到‘手眼心腦’協(xié)同,實(shí)現(xiàn)人機(jī)共融,才是未來發(fā)展的方向。”數(shù)字華夏解決方案總經(jīng)理戴鵬表示。

行動(dòng)交互

輸入感知信息,輸出運(yùn)動(dòng)執(zhí)行

“各位參會(huì)的先生們女士們,以及現(xiàn)場(chǎng)的機(jī)器人朋友們,大家好。”在智能機(jī)器人創(chuàng)新發(fā)展論壇上,北京大學(xué)人工智能研究院、具身智能與機(jī)器人研究中心主任劉宏用一句開玩笑式的打招呼方式吸引了觀眾的注意。之所以這樣打招呼,劉宏說,因?yàn)橐呀?jīng)將機(jī)器人看作是一個(gè)有思想的獨(dú)立個(gè)體,未來將是人機(jī)共存的時(shí)代。

如今,大模型的出現(xiàn)賦予具身智能一顆“智慧大腦”,也推動(dòng)具身智能走向更深的應(yīng)用場(chǎng)景。但想要成為獨(dú)立個(gè)體,還要求具身智能將思考變?yōu)樾袆?dòng),具備一套強(qiáng)大的執(zhí)行交互能力。在劉宏眼中,將輸入的感知信息轉(zhuǎn)化為輸出的運(yùn)動(dòng)執(zhí)行,才能被定義為具身智能。同時(shí)需要具備安全性、靈活性、流暢度、自主性,即行為越來越像人,才能實(shí)現(xiàn)人機(jī)自然交互。

行為認(rèn)知學(xué)習(xí)和未來運(yùn)動(dòng)預(yù)測(cè)是行動(dòng)交互的關(guān)鍵。在行為認(rèn)知方面,多位業(yè)內(nèi)人士都表示需要以人腦為參考。憶海原識(shí)總裁助理陳詩薇在論壇上表示,需要為具身智能打造一個(gè)類腦智能,即利用豐富的基礎(chǔ)模型,結(jié)合生物神經(jīng)系統(tǒng)工作原理的技術(shù)體系。相比深度學(xué)習(xí)體系,類腦計(jì)算體系結(jié)構(gòu)由擴(kuò)展機(jī)制、變量體系、抽象模塊、基礎(chǔ)模型等多種核心組成,結(jié)構(gòu)更加復(fù)雜,卻具有較強(qiáng)的可塑性機(jī)制,可快速刻畫出行為的因果聯(lián)系,數(shù)據(jù)量小也能進(jìn)行訓(xùn)練。

中國(guó)科學(xué)院院士、北京科學(xué)智能研究院理事長(zhǎng)鄂維南在論壇上也表示,下一代大模型實(shí)現(xiàn)進(jìn)一步智能化,需要借鑒人腦的“記憶分層”,將技術(shù)框架進(jìn)行分層處理。

在未來運(yùn)動(dòng)預(yù)測(cè)方面,目前基于RNN方法(循環(huán)神經(jīng)網(wǎng)絡(luò)),可以學(xué)習(xí)時(shí)序數(shù)據(jù)中的動(dòng)態(tài)依賴性。簡(jiǎn)單理解是通過反饋連接,將此前識(shí)別信息用于當(dāng)前決策中。但人體運(yùn)動(dòng)是一種相互組合的復(fù)合運(yùn)動(dòng),例如走路動(dòng)作由邁步和擺手兩個(gè)原子動(dòng)作組成,而訓(xùn)練數(shù)據(jù)不足會(huì)使得人體運(yùn)動(dòng)預(yù)測(cè)任務(wù)面臨挑戰(zhàn),學(xué)習(xí)中的誤差也會(huì)積累。

對(duì)此,劉宏提出一個(gè)復(fù)合動(dòng)作生成模塊,該模塊基于VAE模型(變分自編碼器,學(xué)習(xí)潛在變量,生成新的數(shù)據(jù)樣本),將復(fù)合動(dòng)作拆分提煉成若干個(gè)原子動(dòng)作,再組合成動(dòng)作序列進(jìn)行行為交互訓(xùn)練。這就意味著使用原子動(dòng)作訓(xùn)練就可以生成合成復(fù)合運(yùn)動(dòng),解決復(fù)合運(yùn)動(dòng)訓(xùn)練數(shù)據(jù)收集費(fèi)時(shí)費(fèi)力的痛點(diǎn)。

盡管已經(jīng)有解決方案提出,但是浙江大學(xué)智能系統(tǒng)與控制研究所機(jī)器人實(shí)驗(yàn)室主任熊蓉認(rèn)為,技術(shù)層面還需要進(jìn)一步打磨,包括從提升整個(gè)運(yùn)動(dòng)的可靠性,長(zhǎng)時(shí)間長(zhǎng)距離擬人化的各種動(dòng)態(tài)運(yùn)動(dòng);操作層面,需要提升適應(yīng)各種場(chǎng)景的智能性;從產(chǎn)品上來說,需要去定義適合市場(chǎng)需求的產(chǎn)品,并且要去打造供應(yīng)鏈,降低成本,以及面向應(yīng)用去做各種開發(fā)。

情感交互

手眼心腦協(xié)同,避免恐怖谷效應(yīng)

在某個(gè)展會(huì)上,幾位擁有長(zhǎng)發(fā)、人臉的人形機(jī)器人舞動(dòng)雙手,跳起網(wǎng)紅舞蹈“科目三”。盡管動(dòng)作十分標(biāo)準(zhǔn),但面對(duì)越來越像人的人形機(jī)器人,難免會(huì)產(chǎn)生恐怖谷效應(yīng)。僅做到行動(dòng)交互并不能讓人類打心底接受人形機(jī)器人,因此需要提升情感交互能力。

“我們需要一款‘有溫度’的人形交互機(jī)器人。”戴鵬在論壇上表示,傳統(tǒng)人形協(xié)作機(jī)器人具備自動(dòng)控制和編程能力,可以與人類在同一工作空間協(xié)同作業(yè);而有溫度的人形交互機(jī)器人,是實(shí)現(xiàn)和人類一樣“手眼心腦”協(xié)同。“眼”為眼神交流與表情互動(dòng);“心”則能讀懂人的喜怒哀樂,感知人類細(xì)微且豐富的情感和認(rèn)知狀態(tài);“腦”是具備豐富的通用知識(shí),能進(jìn)行有深度的情感溝通,其中最直觀的感受便是表情的呈現(xiàn)。

以數(shù)字華夏打造的交互型人形機(jī)器人“夏瀾”為例,臉部多達(dá)26個(gè)執(zhí)行器,19個(gè)電機(jī)模擬面部肌肉進(jìn)行控制。表情交互技術(shù)以多模態(tài)大模型為基礎(chǔ),通過視頻數(shù)據(jù),機(jī)器人自我模型就會(huì)通過觀察學(xué)習(xí)視頻中人類的交流方式、情感表達(dá)等實(shí)現(xiàn)泛化交互。在現(xiàn)實(shí)交流時(shí),表情預(yù)測(cè)和眼動(dòng)追蹤可以讓機(jī)器人預(yù)測(cè)面部活動(dòng),從而快速做出表情回應(yīng)。

無獨(dú)有偶,多家機(jī)器人研究院也在強(qiáng)化情感互動(dòng)能力。今年5月,中國(guó)科學(xué)技術(shù)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院機(jī)器人實(shí)驗(yàn)室內(nèi),“90后”博士曹榮昀自主研發(fā)了一款人形情感交互機(jī)器人。該款機(jī)器人的亮點(diǎn)在于其高度仿真的面部表情和觸感。通過部署30個(gè)電機(jī)驅(qū)動(dòng)器,實(shí)現(xiàn)機(jī)器人面部肌肉的協(xié)同工作,讓機(jī)器人呈現(xiàn)出真實(shí)自然的表情。

為了讓人形機(jī)器人提升情感交互能力,戴鵬在論壇上公布了人形機(jī)器人交互技術(shù)框架,可以分為laaS(基礎(chǔ)設(shè)施即服務(wù))、核心能力、RaaS(機(jī)器人即服務(wù))三層,其中核心能力包括感知理解引擎、綜合決策引擎、任務(wù)編排引擎,以及情感分析和表情控制兩種模型。

排版/孫妍

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港