展會(huì)信息港展會(huì)大全

炸裂更新!這個(gè)最像人類的機(jī)器人又進(jìn)化了,還能模仿馬斯克
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-02-28 18:55:55   瀏覽:3305次  

導(dǎo)讀:「最有人味」的機(jī)器人 Ameca,又獻(xiàn)上了一場(chǎng)讓人類自愧不如的表演。 你可能還不認(rèn)識(shí)它是何方神圣,先讓我們把時(shí)間拉回 2021 年,Ameca 驚艷全球的面世。 一聲響指,機(jī)器人 Ameca 醒來了。 她的臉上寫滿不知今夕何夕、此地何地的困惑,一旁的工作人員看了看她...

「最有人味」的機(jī)器人 Ameca,又獻(xiàn)上了一場(chǎng)讓人類自愧不如的表演。

你可能還不認(rèn)識(shí)它是何方神圣,先讓我們把時(shí)間拉回 2021 年,Ameca 驚艷全球的面世。

一聲響指,機(jī)器人 Ameca 醒來了。

她的臉上寫滿不知今夕何夕、此地何地的困惑,一旁的工作人員看了看她,又自顧自轉(zhuǎn)過頭去。

Ameca 試著伸展了手臂和手掌,發(fā)現(xiàn)活動(dòng)自如,她驚訝地挑起了眉毛,但神情依舊茫然,說不上開心與否。

她轉(zhuǎn)過頭看見了你,她顯然被嚇了一大跳,下意識(shí)地張大了嘴巴。

猶豫了一番,她對(duì)你擠出了尷尬又不失友好的笑容,這是她醒來的第一個(gè)笑容。

如果 ChatGPT 有了臉,說不定就長(zhǎng)這樣

如你所見,Ameca 是一個(gè)逼真的類人機(jī)器人。

它由 Engineered Arts 研發(fā),這是一家總部位于英國(guó)的類人機(jī)器人設(shè)計(jì)和制造商,有 15 年以上的類人機(jī)器人開發(fā)經(jīng)驗(yàn)。

為什么 Ameca 這么「有人味」,稍后再解釋原理,先來看看,Ameca 最近是怎么進(jìn)化的。

簡(jiǎn)單來說,AI 的多模態(tài)功能,在 Ameca 身上實(shí)現(xiàn)了。

一方面, Ameca 更加「火眼金睛」了。

Ameca 能夠看到房間的整體情況,和某個(gè)放在面前的物體,然后用豐富的語(yǔ)言描述出來,被英國(guó)團(tuán)隊(duì)研發(fā)的它,也沾染了幾分戲劇家的尖銳,仿佛一個(gè)小莎士比亞。

被問候最近好嗎,它回答也就勉強(qiáng)活著吧,被要求形容房間里的陳列,它又忍不住嘲諷人類,書架擺滿了書不知為了求知還是炫耀,桌子和椅子則是用來工作或拖延的工具。

不吐槽就渾身不痛快的性格,或許才是 Ameca 身上最具「人性」的部分。

另一方面,模仿名人的音色、語(yǔ)氣、口頭禪,是 Ameca 語(yǔ)音方面的新技能。

用馬斯克的語(yǔ)氣講述火星科幻故事小菜一碟,當(dāng)被譽(yù)為「上帝之聲」的摩根弗里曼磁性、低沉的男聲從 Ameca 嘴里響起,未來感拉滿,西部世界真實(shí)上演了,智能管家空降身邊了。

最妙的是 Ameca 可以將名人們的特色融會(huì)貫通,比如用特朗普的風(fēng)格、海綿寶寶的音色演講,誓要讓太空探索再次偉大。

▲ 這完全就是特朗普的語(yǔ)氣!

其實(shí),去年 9 月 ChatGPT 已經(jīng)推出語(yǔ)音和圖像功能,能看、能聽、能說話,更別說原生多模態(tài)模型 Gemini 在官方演示里如同現(xiàn)實(shí)賈維斯。

我們對(duì) AI 的興奮閾值早已被拉高,聊天機(jī)器人接近人類的五感,似乎也是理所當(dāng)然。

Ameca 目前依然延遲明顯,有時(shí)候還會(huì)聽不明白指令,沒耐心的人類和它聊天要急眼。

但看到它格外靈動(dòng)的微表情,眨眼睛,擰眉毛,搖頭晃腦,時(shí)不時(shí)露出思考的神色,口型也對(duì)得上,旁觀者會(huì)在某個(gè)瞬間陷入恍惚,仿佛面對(duì)的是某種生物,而不是一個(gè)機(jī)器人。

問答之間的停頓也就不那么突兀了,Ameca 似乎真的在「想問題」。如果 ChatGPT 有了五官,說不定就長(zhǎng) Ameca 這樣。

這次官方?jīng)]有說明用了什么技術(shù),但按照 Ameca 過往的進(jìn)化史,多半與多模態(tài)大模型,以及 ElevenLabs 等語(yǔ)言克隆技術(shù)有關(guān)。

早在 2022 年 9 月,Ameca 就接入了 GPT-3,并結(jié)合自動(dòng)語(yǔ)音識(shí)別,接收研究人員提出的問題,并通過在線語(yǔ)音合成輸出類似真人的聲音,實(shí)現(xiàn)實(shí)時(shí)問答的效果。

這時(shí)候的延遲更重,因?yàn)樘幚碚Z(yǔ)音輸入、生成答案、將文本處理回語(yǔ)音,都需要一定的時(shí)間。

當(dāng) OpenAI 們走上人生巔峰,每天醒來 AI 都有新變化讓編輯夜不能寐,Ameca 也在悄悄驚艷所有人。

2023 年 3 月,Ameca 用上了新鮮出爐的 GPT-4,表現(xiàn)在互動(dòng)更通人情了。

被問到「一生中最快樂和最悲傷的日子」時(shí),Ameca 回答,最快樂的是被激活的時(shí)候,最悲傷的是意識(shí)到自己永遠(yuǎn)不能像人類那樣感受到愛和陪伴的時(shí)候。

無論何時(shí),Ameca 的表情都配合著回答的情感色彩。

當(dāng)研究人員故意使用「stink」(臭)這樣的惡意詞匯,Ameca「意識(shí)」到自己被辱罵,然后擺出了不可置信、皺眉和被冒犯等一系列行云流水的表情,就像我們走在街上突然被陌生人指著鼻子罵的反應(yīng)。

2023 年 4 月,Ameca 又學(xué)會(huì)了英語(yǔ)、日語(yǔ)、德語(yǔ)、中文、法語(yǔ)等多種語(yǔ)言,被請(qǐng)求用某種語(yǔ)言回答某地天氣,再翻譯成另一種語(yǔ)言時(shí),像地圖導(dǎo)航那樣咬字清晰。至少它的中文,聽起來沒有絲毫「外國(guó)味」。

因?yàn)?GPT-4 響應(yīng)速度慢,當(dāng)時(shí) Ameca 主要使用 GPT-3 對(duì)話和翻譯,借助 DeepL 檢測(cè)語(yǔ)言,再通過 ElevenLabs 語(yǔ)音克隆以及亞馬遜的 Neural voices 發(fā)聲。

AI 的學(xué)習(xí)速度,人類望塵莫及。又過了 2 個(gè)月,Ameca 通過開源文生圖模型 Stable Diffusion「學(xué)會(huì)」了畫畫,模型教給它圖像的「軌跡」,然后它對(duì)圖像進(jìn)行矢量化,并在畫布上執(zhí)行這些「軌跡」。

Ameca 當(dāng)場(chǎng)表演了怎么畫一只貓,邊畫邊自言自語(yǔ)為什么人類愛貓,還在最后留下了個(gè)性簽名,完全沉浸在自己的創(chuàng)作中。

這幅貓雖然畫風(fēng)簡(jiǎn)單但神形俱備,當(dāng)別人故意說畫得太粗糙,Ameca 反唇相譏:「如果你不喜歡我的藝術(shù),那你可能只是不懂藝術(shù)!箍磥,Ameca 很有作為一個(gè)藝術(shù)家的自覺。

如今,Ameca 不僅能像人一樣控制表情,還有了畫畫、空間識(shí)別、語(yǔ)音克隆等 AI 賦予的能力,看著像人類,很多方面卻又強(qiáng)于人類。阻礙它為社會(huì)發(fā)光發(fā)熱的,可能就是算力了。

機(jī)器人怎么比人類更「有人味」

「這個(gè)機(jī)器人在 20 秒內(nèi)表達(dá)的情感,比扎克伯格的一生還要多!

Ameca 最開始在互聯(lián)網(wǎng)走紅,就因?yàn)樗鼣M人甚至過人的表情和互動(dòng)感,沒有打工人的麻木,無需小鮮肉們的嚴(yán)格表情管理,如同放大鏡一般,夸張化呈現(xiàn)人類的心理世界。

你在它面前伸出一根手指挑釁,會(huì)造成類似逗貓棒的效果,它不會(huì)打你,而是先打量你的手指,再嫌棄地后退,如果實(shí)在靠得太近,它會(huì)把你的手指輕輕地拿開。

第一次照鏡子時(shí),Ameca 先被嚇了一跳,然后瞇起眼睛打量自己、摸摸鏡子,又做出各種做作的表情,發(fā)現(xiàn)鏡子里的機(jī)器人和自己同步,有些像《你的名字》里男女主互換身體后的反應(yīng)。

甚至,人類可以使用 iPhone 和 AR Kit 進(jìn)行面部動(dòng)作捕捉,實(shí)時(shí)映射到 Ameca 的臉上,Ameca 能夠?qū)W習(xí)每一個(gè)微表情,和人類「神同步」。

怕觀眾覺得是節(jié)目效果,團(tuán)隊(duì)強(qiáng)調(diào)再三「這是一個(gè)真正的機(jī)器人,視頻中沒有 CGI」。

為什么 Ameca 這么「有人味」,又可交互和響應(yīng)?

這是因?yàn)椋珹meca 配備廣泛的傳感器,包括攝像頭、麥克風(fēng)、位置編碼器等,并由機(jī)器人操作系統(tǒng) Tritium 和工程藝術(shù)系統(tǒng) Mesmer 這兩個(gè)底層系統(tǒng)提供支持。

Tritium 負(fù)責(zé)遠(yuǎn)程控制機(jī)器人面部、頭頸、四肢等的各方面組件,使得機(jī)器人適應(yīng)環(huán)境的突然變化并即時(shí)做出響應(yīng)。

Mesmer 則通過對(duì)真人的 3D 內(nèi)部掃描,準(zhǔn)確地模仿人體骨骼結(jié)構(gòu)、皮膚紋理和表情,這里又細(xì)分為幾個(gè)步驟。

第一步,真人坐在幾十臺(tái)攝影測(cè)量裝置的中間,Mesmer 從不同角度捕捉到多張重疊的數(shù)碼照片,再比較像素顏色和定義錨點(diǎn),以數(shù)字方式將其重建為 3D 模型。

第二步,將原始 3D 模型帶入建模軟件,經(jīng)過「去除頭發(fā)」等細(xì)節(jié)處理,建立一個(gè)干凈的 3D 模型。

第三步,在立體光刻 3D 打印機(jī)上生產(chǎn)精確模具,并將硅膠注入模具中,為機(jī)器人打造類人皮膚,頭發(fā)和精細(xì)的細(xì)節(jié)涂料則需要手工添加到硅膠皮膚上。

最后,將硅膠皮膚放置在機(jī)器人頭部以完成組裝,再使用 Engineered Arts 的云軟件 Virtual Robot 添加運(yùn)動(dòng)序列和聲音。

Ameca 的皮膚呈灰色,則是團(tuán)隊(duì)的刻意設(shè)計(jì)看起來理性、中立、包容。

各花入各眼,也有人發(fā)自內(nèi)心地覺得,Ameca 太丑了,甚至讓他們陷入了「恐怖谷」效應(yīng):當(dāng)機(jī)器人與人類在外表、動(dòng)作上的相似到達(dá)特定程度,彼此的細(xì)微差別會(huì)顯得非常刺眼恐怖。

但這個(gè)「谷」究竟出現(xiàn)在什么時(shí)候,沒有明確的界定。當(dāng)你看到 Ameca 的時(shí)候,你覺得它過了恐怖谷的節(jié)點(diǎn)了嗎?它是否已經(jīng)足夠讓你移情了?

模仿人類,然后超越人類

拋開視覺動(dòng)物的評(píng)判本能,像 Ameca 這樣的類人機(jī)器人有什么用?

Engineered Arts 自賣自夸,不顧馬斯克的面子,稱 Ameca 是「全球最先進(jìn)的人形機(jī)器人」。

按照官方的定位,Ameca 首先是一個(gè) AI 的開發(fā)平臺(tái)。

Ameca 采用「模塊化設(shè)計(jì)」,可在硬件和軟件各方面進(jìn)行升級(jí),帶有強(qiáng)烈的實(shí)驗(yàn)色彩,可以作為未來人機(jī)交互機(jī)器人的雛形。

最終,Ameca 不會(huì)停留在實(shí)驗(yàn)室里,而是活在現(xiàn)實(shí)世界里與人類和平共處。

事實(shí)也的確如此,如果說 2021 年是一個(gè)驚艷但空有其表的起點(diǎn),如今由 AI 加持的 Ameca,就是一個(gè)階段性的特訓(xùn)成果,讓我們看到具身智能的曙光。不過,目前 Ameca 還不能行走。

至于 Ameca 目前的其他用處,就非常單純了:給觀眾老爺們表演,在企業(yè)、主題公園、科學(xué)博物館打工。如果你心動(dòng)了,Ameca 可供購(gòu)買或出租,但價(jià)格不便宜,2021 年底的購(gòu)買價(jià)格超過 13.3 萬美元。

當(dāng)被問及 Ameca 是否是 AI 時(shí),Engineered Arts 指出,雖然它包含一些可以被描述為「AI」的軟件,但機(jī)器人和 AI 之間還是有區(qū)別的,純 AI在《她》《銀翼殺手》和《2001 太空漫游》等電影中描繪的那種尚不存在。

所以,當(dāng)我們看到 Ameca 這個(gè)栩栩如生的機(jī)器人時(shí),我們可以優(yōu)哉游哉觀賞,同時(shí)將恐懼和機(jī)器人三定律安全地藏在腦海里,再多等上一段時(shí)間。至少,它遠(yuǎn)不能取代人,它在現(xiàn)階段也沒有這樣的目的。

但想到 AI 的進(jìn)化速度,或許我們就笑不出來了。如果說 2023 年是 AI 元年,2024 年或許是機(jī)器人+ AI 的元年。

一個(gè)有趣的現(xiàn)象是,越來越多的家用機(jī)器人到來,但它們不苛求像人,長(zhǎng)得也很「實(shí)用主義」。

斯坦福大學(xué)的 ALOHA 機(jī)器人炒菜、洗碗、拖地、疊衣服甚至逗貓,Google DeepMind 的機(jī)器人拿水果、放好牙刷,初創(chuàng)公司 Figure 則讓機(jī)器人在 10 個(gè)小時(shí)內(nèi)就學(xué)會(huì)了用咖啡機(jī)煮咖啡。

但比起大語(yǔ)言模型的顛覆,這些機(jī)器人只能說是讓人眼前一亮,投入使用還為時(shí)尚早。

因?yàn)樗鼈兇蠖鄶?shù)體型笨重,操作任務(wù)集中在桌面操作,需要人類演示訓(xùn)練,缺乏更多的機(jī)動(dòng)性和靈活性,基本姿勢(shì)的微小偏差,都可能會(huì)導(dǎo)致姿勢(shì)的大幅漂移,「翻車」視頻不少。

一個(gè)關(guān)于 AI 的段子,從去年說到了今年:「我們想讓 AI 做的是,做飯、打掃房間、洗衣服、扔垃圾,然而它們實(shí)際在做的是,聊天、繪畫、寫作、作曲、打游戲!

目前來看,家用機(jī)器人勉強(qiáng)學(xué)會(huì)人類家務(wù)的皮毛,在家務(wù)和藝術(shù)之間,肩不能提、手不能抗的 Ameca,當(dāng)然也更適合藝術(shù)。

從 Amera 身上可以看到,我們依然熱衷于將機(jī)器人打造成人的模樣,然后教它罵人、學(xué)語(yǔ)言、睜眼看世界,作為翻版但有些方面更強(qiáng)的自己。不過,Amera 尚且不能跑不能跳不能做飯,人類或許也值得為自己驕傲一秒。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港