展會(huì)信息港展會(huì)大全

手腦并用,AI大模型“補(bǔ)全”機(jī)器人
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2023-12-17 10:38:57   瀏覽:4943次  

導(dǎo)讀:作者|雨林下 頭圖|特斯拉擎天柱二代截圖 抓雞蛋、做深蹲 更輕、更穩(wěn)、更快。 這是特斯拉剛剛發(fā)布的人形機(jī)器人Optimus擎天柱二代,不論從運(yùn)動(dòng)能力還是智能能力,都比去年的一代有明顯提升,也讓人們對(duì)AI的終極形態(tài),再度心潮澎湃。 具身智能,一種基于物理...

作者|雨林下

頭圖|特斯拉擎天柱二代截圖

抓雞蛋、做深蹲… …更輕、更穩(wěn)、更快。

這是特斯拉剛剛發(fā)布的人形機(jī)器人Optimus擎天柱二代,不論從運(yùn)動(dòng)能力還是智能能力,都比去年的一代有明顯提升,也讓人們對(duì)AI的終極形態(tài),再度心潮澎湃。

具身智能,一種基于物理身體進(jìn)行感知和行動(dòng)的智能系統(tǒng),人形機(jī)器人就正是根據(jù)這一概念打造而來(lái)。

12月13日,虎嗅智庫(kù)舉辦了502線上同行主題研討活動(dòng),來(lái)自達(dá)闥機(jī)器人高級(jí)副總裁Karl趙博士、上海開(kāi)普勒探索機(jī)器人聯(lián)合創(chuàng)始人/副總裁胡德波、樂(lè)聚機(jī)器人副總裁吳雨璁、深圳開(kāi)鴻數(shù)字產(chǎn)業(yè)發(fā)展有限公司OS產(chǎn)品部部長(zhǎng)柴瑩、祥峰投資副總監(jiān)陳雅琢,就具身智能和人形機(jī)器人進(jìn)行了前沿觀點(diǎn)分享。

以下為嘉賓的部分觀點(diǎn)摘要:

“肢解”具身智能機(jī)器人:大腦、小腦是核心

●具身智能(Embodied Intelligence)不是一個(gè)新的知識(shí),更多是把目前現(xiàn)有的人工智能領(lǐng)域的新發(fā)展統(tǒng)一放到一起。它從上到下的功能可劃分為:大腦、小腦、主控系統(tǒng)、主干結(jié)構(gòu)以及零部件。

大腦,負(fù)責(zé)規(guī)劃決策、分解任務(wù),主要就是指現(xiàn)在新興的AI大模型;小腦,負(fù)責(zé)全身的運(yùn)動(dòng)分層控制;主控系統(tǒng),包括實(shí)施系統(tǒng)調(diào)度、通信協(xié)議站、CPU、GPU、FPG硬件加速進(jìn)程和算力的優(yōu)化;主干結(jié)構(gòu)及零部件有雙臂、足式、輪式等,類(lèi)似于人的一系列關(guān)節(jié)和肌肉。

●在產(chǎn)業(yè)界,小腦的研究比大腦的研究時(shí)間更長(zhǎng),積淀更深。大腦對(duì)語(yǔ)義信息理解過(guò)后需要轉(zhuǎn)化為動(dòng)作,小腦就是運(yùn)動(dòng)控制的核心,它主要是控制算法的進(jìn)化。機(jī)器人要實(shí)現(xiàn)越高難度的任務(wù),就需要小腦越能夠做到精細(xì)的底層控制,優(yōu)化整個(gè)運(yùn)動(dòng)效果,這涉及到步態(tài)平衡、動(dòng)力學(xué)模型以及控制框架等等。目前這一塊的最新研究是通過(guò)強(qiáng)化學(xué)習(xí)加模擬的解決方案,讓具身智能從環(huán)境中獲取它更優(yōu)的狀態(tài),然后由智能體做出決策,且對(duì)環(huán)境做出一個(gè)合理的行為反應(yīng),最終逐步實(shí)現(xiàn)具身智能機(jī)器人的遠(yuǎn)景。

●隨著AI大模型的進(jìn)化和爆火,具身智能機(jī)器人能否走進(jìn)現(xiàn)實(shí)?國(guó)內(nèi)外的學(xué)者專(zhuān)家對(duì)此觀點(diǎn)不一。有的認(rèn)為可以將這種在很大數(shù)據(jù)語(yǔ)料庫(kù)上訓(xùn)練大模型的方法通用到機(jī)器人身上。也有人認(rèn)為,在目前這個(gè)時(shí)間節(jié)點(diǎn),無(wú)法真正解決機(jī)器人學(xué)習(xí)的商業(yè)化大規(guī)模落地。

第一個(gè)難點(diǎn)是數(shù)據(jù)獲得的難度。在現(xiàn)實(shí)生活中收集其他的數(shù)據(jù)相對(duì)簡(jiǎn)單,但大規(guī)模的機(jī)器人數(shù)據(jù)目前并沒(méi)有明確的獲得途徑,且機(jī)器人形態(tài)大小不一,實(shí)體的多樣性意味著需要針對(duì)機(jī)器人類(lèi)型來(lái)分門(mén)別類(lèi)的收集數(shù)據(jù),這會(huì)使本來(lái)就有難度的數(shù)據(jù)收集變得更加困難。

第二是性能預(yù)知的問(wèn)題。比如GPT的回答會(huì)和實(shí)際出現(xiàn)一定偏差,但真正運(yùn)用到現(xiàn)實(shí)世界的工業(yè)、商業(yè)和家庭場(chǎng)景中時(shí),容錯(cuò)率是很低的,目前的機(jī)器人學(xué)習(xí)算法達(dá)不到很高的可靠性和準(zhǔn)確度,而且硬件系統(tǒng)的單次失效成本也遠(yuǎn)遠(yuǎn)高于軟件系統(tǒng),所以成本也非常高。

第三是機(jī)器人任務(wù)的long horizon長(zhǎng)視野問(wèn)題。不同于使用大語(yǔ)言模型獲得單一問(wèn)題的解答,機(jī)器人需要非常多的一系列的正確指令和動(dòng)作才能完成我們提出的一個(gè)簡(jiǎn)單任務(wù)。所以,隨著時(shí)間推移和任務(wù)難度的疊加,誤差也會(huì)逐漸累積變大,所以大家會(huì)覺(jué)得這個(gè)時(shí)間點(diǎn)用大模型做端到端的機(jī)器人具身智能并不成熟。

●對(duì)于這方面的創(chuàng)業(yè)公司來(lái)說(shuō),產(chǎn)業(yè)在技術(shù)上算是有所準(zhǔn)備了,但對(duì)待落地產(chǎn)品更應(yīng)該要有終端交付的思維,而不是單純的通過(guò)高成本進(jìn)行單次訓(xùn)練來(lái)獲得一個(gè)相對(duì)好看的研究成果。

國(guó)外“大腦”開(kāi)發(fā)超前,國(guó)內(nèi)“降本”優(yōu)勢(shì)明顯

●對(duì)比硬件能力,國(guó)內(nèi)公司和國(guó)外基本可以齊平,甚至在核心零部件方面,國(guó)內(nèi)還略有優(yōu)勢(shì)。但在“大腦”方面,AI大模型特別是多模態(tài)的探索上,國(guó)外企業(yè)優(yōu)勢(shì)更明顯,也導(dǎo)致了他們的機(jī)器人本體性能更強(qiáng)大。

●從最早的美國(guó)波士頓動(dòng)力,日本本田阿西莫,人形機(jī)器人的發(fā)展時(shí)間并不短,但這些早期產(chǎn)品遲遲沒(méi)能夠商業(yè)化的很大原因還是在于成本,直到現(xiàn)在人形機(jī)器人都沒(méi)能大規(guī)模鋪開(kāi)。但未來(lái)國(guó)內(nèi)企業(yè)最大的優(yōu)勢(shì)也會(huì)從這里體現(xiàn),那就是軟硬件的國(guó)產(chǎn)自研迭代能力和供應(yīng)鏈規(guī);蟮某杀窘档,現(xiàn)在工業(yè)協(xié)作機(jī)器人的發(fā)展趨勢(shì)已經(jīng)證明了這點(diǎn)。

●只有人形機(jī)器人在一個(gè)合適的售價(jià),更具體說(shuō),至少要降到十幾萬(wàn)元,頂多二十萬(wàn)元出頭,才能兩三年內(nèi)在一些垂直場(chǎng)景中真正投入示范應(yīng)用,而不是像現(xiàn)在僅僅作為科研載體。然后等售價(jià)再低到十萬(wàn)元左右甚至更低時(shí),可能才會(huì)走進(jìn)千家萬(wàn)戶。當(dāng)然,這個(gè)前提是大腦技術(shù)要足夠成熟。

●機(jī)器人成本高昂,除了關(guān)鍵技術(shù)還在研發(fā)以外,還有一個(gè)比較大的因素,就是傳感器的結(jié)構(gòu)布局過(guò)于分散,裝的東西越多,裝配復(fù)雜度就越高,這會(huì)給成本帶來(lái)直接壓力。因此,將所有設(shè)備都用同一個(gè)軟件操作系統(tǒng)進(jìn)行互聯(lián)互通,對(duì)于未來(lái)機(jī)器人的能力開(kāi)放性和成本降低都有好處。

和“人”競(jìng)爭(zhēng)性?xún)r(jià)比,主流應(yīng)用從B端開(kāi)始

●目前對(duì)具身機(jī)器人的研究更多是在科研中,預(yù)計(jì)未來(lái)三年到五年,會(huì)逐步先出現(xiàn)在B端場(chǎng)景,比如汽車(chē)、物流、倉(cāng)儲(chǔ)、中央廚房、搬運(yùn)制造業(yè),包括還有一些高校教育,以及便利店的上下貨、清潔、最后一公里物流等等。未來(lái)更長(zhǎng)期看,一定是會(huì)做到C端場(chǎng)景中。因?yàn)镃端任務(wù)更復(fù)雜和具體,所以對(duì)技術(shù)要求更高,對(duì)單臺(tái)機(jī)器的造價(jià)成本也會(huì)壓低。再往后,終局會(huì)落到家庭安防、老人的看護(hù)陪伴,端茶送水等。這些難度就更高,需要極為泛化的物體交互能力。

●除了實(shí)體機(jī)器人之外,云網(wǎng)端架構(gòu)還可以支撐虛擬機(jī)器人,或者又叫數(shù)字人,它雖然不是百分之百的具身智能,但也具備了具身智能的特點(diǎn)。雖然不能直接走動(dòng),但它也可以通過(guò)攝像頭看到聽(tīng)到,具備思維能力后可以和人進(jìn)行互動(dòng),這在文旅行業(yè),包括圖書(shū)館之類(lèi)已經(jīng)在用起來(lái)了。

●在B端應(yīng)用上,一定會(huì)面臨算賬的邏輯。根據(jù)我們測(cè)算,一個(gè)人形機(jī)器人的價(jià)格,只有在跟一個(gè)員工大概一年到一年半左右的工資,也就是十幾萬(wàn)元到二十萬(wàn)元這個(gè)范圍內(nèi),才能和“人”產(chǎn)生一些競(jìng)爭(zhēng)力。而在歐美,2-3萬(wàn)美金的價(jià)格區(qū)間是批量落地應(yīng)用的門(mén)檻,現(xiàn)在大部份人形機(jī)器人廠家都遠(yuǎn)高于這個(gè)價(jià)格,只有少數(shù)中國(guó)廠家已經(jīng)率先沖擊這個(gè)價(jià)位。

●像碰到的有真實(shí)需求的客戶會(huì)提很多要求,這很有利于我們快速的在實(shí)際場(chǎng)景中打磨應(yīng)用,功能性上有良好反饋,也讓我們對(duì)一線理解更深,這里面會(huì)有一個(gè)交叉反駁螺旋上升的過(guò)程。

●以前傳統(tǒng)機(jī)器人是要工程師去做配置、做編程的,所以人形機(jī)器人的大批量落地,除了攻破技術(shù)門(mén)檻,還需要非常高水準(zhǔn)的部署便捷性,包括作業(yè)系統(tǒng)的集成、任務(wù)的管理、數(shù)據(jù)的安全等等一系列問(wèn)題,都要一步步來(lái)解決。

我們提供的核心價(jià)值:

及時(shí)與優(yōu)質(zhì)的洞察,了解技術(shù)、了解行業(yè)、了解同行與對(duì)手;

為決策者技術(shù)與產(chǎn)品戰(zhàn)略決策、產(chǎn)業(yè)規(guī)劃、解決方案選型提供重要參考;

幫助市場(chǎng)全面了解前沿科技及所影響產(chǎn)業(yè)的發(fā)展?fàn)顩r,還有未來(lái)趨勢(shì)。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港