智東西(公眾號(hào):zhidxcom)
作者| 香草
編輯| 心緣
智東西8月7日?qǐng)?bào)道,昨晚,由微軟OpenAI英偉達(dá)英特爾聯(lián)手投資的明星機(jī)器人創(chuàng)企Figure,發(fā)布了新一代機(jī)器人Figure 02,再次顛覆我們對(duì)人形機(jī)器人的想象。
升級(jí)后的Figure 02不僅外形更像人,還在OpenAI多模態(tài)大模型的加持下,實(shí)現(xiàn)了與人類語音對(duì)話;擁有16個(gè)自由度的第四代手部靈活度大幅提升,可以實(shí)現(xiàn)更精細(xì)的操作,而特斯拉的擎天柱二代手部自由度為11個(gè)。
與第一代相比,F(xiàn)igure 02從外觀設(shè)計(jì)、軟硬件性能,到內(nèi)置AI模型都進(jìn)行了徹底的升級(jí),主要體現(xiàn)在以下方面:6個(gè)板載相機(jī)、電池容量增加50%以上、3倍推理速度、第四代手部、語音到語音交互、內(nèi)置VLM(視覺語言模型)。
▲Figure 02
Figure成立于2022年,截至目前共完成5輪融資,總額8.54億美元(約合人民幣61.08億元),估值達(dá)到26億美元(約合人民幣185.88億元)。其投資方包括微軟、OpenAI、英偉達(dá)、英特爾、貝索斯等,涵蓋了時(shí)下生成式AI熱潮中的大模型、算力、投資公司等明星玩家,陣容十分亮眼。
今年2月,F(xiàn)igure宣布與OpenAI達(dá)成合作,將在OpenAI大模型的支持下開發(fā)下一代人形機(jī)器人模型,將其多模態(tài)模型擴(kuò)展到機(jī)器人的感知、推理和交互中。Figure 02的語音到語音交互功能,便是其基于OpenAI為其定制大模型的最新嘗試。
▲Figure 02在工廠中行走
Figure創(chuàng)始人兼CEO Brett Adcock稱,F(xiàn)igure 02的續(xù)航可支持每天完成約20小時(shí)的有效工作,這有助于其進(jìn)入勞動(dòng)力市場(chǎng)和家庭。值得一提的是,F(xiàn)igure的初代機(jī)器人Figure 01已經(jīng)在寶馬工廠落地,在汽車制造過程中“自動(dòng)執(zhí)行困難、不安全且乏味的任務(wù)”。
從概念設(shè)計(jì)到落地,F(xiàn)igure 02僅用時(shí)18個(gè)月。Adcock還提到,團(tuán)隊(duì)將推動(dòng)低成本、高效率地制造,預(yù)計(jì)明年開始批量生產(chǎn)。
一、推理能力提升3倍,每天可工作20小時(shí)
從外形上看,F(xiàn)igure 02比第一代酷炫了許多,布線不再裸露在外,看起來更加完整,外骨骼為其增添了現(xiàn)代感和科技感。不得不說,F(xiàn)igure 02現(xiàn)在看起來更像特斯拉的擎天柱了。
▲Figure 01(左)、Figure 02(中)和擎天柱二代(右)外形對(duì)比
在Figure 01的基礎(chǔ)上,F(xiàn)igure對(duì)機(jī)器人的軟硬件進(jìn)行了徹底的重新設(shè)計(jì),覆蓋AI、計(jì)算機(jī)視覺、電池、電子設(shè)備、傳感器和執(zhí)行器等關(guān)鍵技術(shù)。
▲Figure 02
Figure 02在6個(gè)方面取得突破,包括語音交互、攝像頭、手部、VLM(視覺語言模型)、電池、CPU/GPU。
具體來看,F(xiàn)igure 02通過定制AI模型驅(qū)動(dòng)的板載麥克風(fēng)和揚(yáng)聲器,以語音到語音的方式直接與人類對(duì)話。
它的頭部、前軀干和后軀干共有6個(gè)板載RGB攝像頭,通過AI驅(qū)動(dòng)的視覺系統(tǒng)感知和理解物理世界,并在內(nèi)置VLM的支持下進(jìn)行快速常識(shí)性視覺推理。
▲Figure 02的6個(gè)攝像頭
Figure 02采用Figure自研的第四代手,其具備16個(gè)自由度,且力量與人類等同。
▲Figure 02手部
Figure 02內(nèi)置的電池容量為2.25 KWh,相比上一代增加了50%以上,據(jù)稱每天能夠完成約20小時(shí)的有效工作,這為人形機(jī)器人進(jìn)入勞動(dòng)力市場(chǎng)和家庭鋪平了道路。
▲Figure 02在寶馬工廠
模型推理方面,F(xiàn)igure 02板載的CPU/GPU提供比上一代高3倍的計(jì)算和推理能力,具備自我修正的學(xué)習(xí)能力。
▲Figure 02在寶馬工廠
在外骨骼的加持下,F(xiàn)igure 02的重量相比上一代有所減輕,但由于增加了電池、攝像頭、CPU/GPU等,凈重量增加到約70kg。
▲Figure 02的外骨骼細(xì)節(jié)
二、歷時(shí)18個(gè)月落地,預(yù)計(jì)明年開始量產(chǎn)
Figure創(chuàng)始人兼CEO Brett Adcock稱,F(xiàn)igure 02在2023年2月完成概念設(shè)計(jì),從概念到成品歷時(shí)18個(gè)月。
Adcock解讀了Figure 02在語音交互、布線等方面的技術(shù)原理。Figure 02的語音交互能力是基于OpenAI為其定制的大模型實(shí)現(xiàn)的。
▲語音到語音推理
在接收到語音后,模型首先將其轉(zhuǎn)換為文字,同時(shí),板載的VLM(視覺語言模型)基于攝像頭捕捉到的圖像和語音理解進(jìn)行常識(shí)推理,然后基于推理控制機(jī)器人的行為,同時(shí)將輸出文本轉(zhuǎn)換為語音輸出。
在布線方面,F(xiàn)igure 02采用集成電源和計(jì)算布線,并設(shè)計(jì)了定制的電線端子和連接器,從而隱藏電線,并實(shí)現(xiàn)更高的可靠性、更緊密的包裝。
基于板載CPU和GPU,F(xiàn)igure 02能夠運(yùn)行最新的AI模型,其推理能力達(dá)到Figure 01的3倍,能夠完全自主執(zhí)行現(xiàn)實(shí)世界中的任務(wù)。
▲Figure 02的CPU和GPU
對(duì)于Figure 02的進(jìn)步,不少行業(yè)大佬和網(wǎng)友紛紛發(fā)來賀電。
英偉達(dá)高級(jí)研究經(jīng)理兼具身智能實(shí)驗(yàn)室負(fù)責(zé)人Jim Fan稱:“恭喜Brett!制作高自由度靈巧手的決定絕對(duì)是正確的。”
▲Jim Fan評(píng)論
有的網(wǎng)友已經(jīng)迫不及待地想看Figure 02和馬斯克的擎天柱大戰(zhàn)2024了。
▲網(wǎng)友評(píng)論
有的網(wǎng)友則迫切地想購(gòu)買一臺(tái)幫自己洗碗。
▲網(wǎng)友評(píng)論
同時(shí),也不乏有一些質(zhì)疑的聲音出現(xiàn)。有網(wǎng)友問道:“他是否具備超級(jí)工廠的制造能力?他真的能在垂直整合方面做到精細(xì)到原子成本的程度嗎?”
Adcock很堅(jiān)定地回答:“是的。我將推動(dòng)低成本、高效率制造,明年開始批量生產(chǎn)。”
▲Adcock回應(yīng)成本問題
也有網(wǎng)友對(duì)Figure 02所謂的“世界上最先進(jìn)的AI硬件”產(chǎn)生質(zhì)疑,稱擎天柱在7個(gè)月以前就已經(jīng)做到這些了。
▲網(wǎng)友評(píng)論
有網(wǎng)友認(rèn)為Figure 02的營(yíng)銷大于其真實(shí)進(jìn)步:“這很酷,但靈活性顯然不足。你浪費(fèi)了很多時(shí)間展示平移,而本可以給我展示更多手部操作這才是真正的訣竅,不是嗎?它把零件沖壓到位了?這是進(jìn)步,但不值得你所營(yíng)造的那種大肆宣傳。”
▲網(wǎng)友評(píng)論
三、成立2年估值185億,初代機(jī)器人已進(jìn)寶馬打工
Figure成立于2022年,其創(chuàng)始人Brett Adcock是一位連續(xù)創(chuàng)業(yè)者,其此前創(chuàng)立的兩家公司分別實(shí)現(xiàn)IPO和以1億美元被收購(gòu)。
Figure致力于開發(fā)能夠在倉(cāng)儲(chǔ)、零售、看護(hù)等不同環(huán)境中工作,并處理各種任務(wù)的通用人形機(jī)器人。
截至目前,F(xiàn)igure共完成5輪融資,融資總額達(dá)到8.54億美元(約合人民幣61.08億元),估值26億美元(約合人民幣185.88億元)。
▲Figure融資歷程
去年10月,F(xiàn)igure發(fā)布第一款通用人形機(jī)器人Figure 01行走的視頻,此時(shí)團(tuán)隊(duì)剛剛成立一年多,擁有60名工程師。
▲Figure 01行走
今年1月7日,F(xiàn)igure發(fā)布了一則Figure 01煮咖啡的視頻,并強(qiáng)調(diào)其使用端到端的AI系統(tǒng),僅通過觀察人類煮咖啡,即可在10小時(shí)內(nèi)完成訓(xùn)練。
▲Figure 01煮咖啡
1月18日,F(xiàn)igure宣布與寶馬簽署商業(yè)協(xié)議,機(jī)器人Figure 01將進(jìn)入寶馬工廠,在汽車制造過程中“自動(dòng)執(zhí)行困難、不安全且乏味的任務(wù)”。
2月,F(xiàn)igure獲得6.75億美元高額融資,一舉躍升獨(dú)角獸,投資方包括微軟、OpenAI、英偉達(dá)、英特爾、貝索斯等,涵蓋了時(shí)下生成式AI熱潮中的大模型、算力、投資公司等明星玩家,陣容十分亮眼。
▲Figure官宣融資
同時(shí),F(xiàn)igure宣布與OpenAI、微軟達(dá)成合作,將與OpenAI合作開發(fā)下一代人形機(jī)器人模型,將其多模態(tài)模型擴(kuò)展到機(jī)器人的感知、推理和交互中,并利用微軟云進(jìn)行AI基礎(chǔ)設(shè)施構(gòu)建、訓(xùn)練。
半個(gè)月后,F(xiàn)igure于3月13日發(fā)布了Figure 01在OpenAI大模型加持后的進(jìn)展。
在2分半的視頻中,F(xiàn)igure 01展示了如何描述自己眼前看到了什么,判斷自己眼前看到的東西相互之間有什么關(guān)聯(lián),給饑餓的測(cè)試員找到桌子上唯一能吃的蘋果并精準(zhǔn)遞過去,進(jìn)行“回憶”并對(duì)自己做過的事情給出評(píng)價(jià),用簡(jiǎn)單易懂的話語口頭解釋自己做事的緣由等高難度動(dòng)作。
7月,F(xiàn)igure發(fā)布了一段視頻,展示其機(jī)器人在寶馬工廠訓(xùn)練的最新成果,其已經(jīng)可以在生產(chǎn)車間上從事簡(jiǎn)單的抓取工作。
不得不說,僅看Figure 02此次發(fā)布的演示視頻,我們并不能十分明確地感知到它相對(duì)于上一代實(shí)現(xiàn)的突破,也難怪不少網(wǎng)友感到失望。
結(jié)語:人形機(jī)器人賽道再添一把火
今年年初,人形機(jī)器人一度迎來爆發(fā)式開局。從斯坦福機(jī)器人大秀廚藝做大餐,到特斯拉擎天柱化身保姆疊衣服,再到兩家創(chuàng)企的機(jī)器人比賽煮咖啡。除了Figure之外,另一家機(jī)器人企業(yè)1X也獲得OpenAI等知名投資者的巨額投資支持。
半年多過去,人形機(jī)器人的熱度有所退卻,不過Figure 02的發(fā)布又為這個(gè)賽道添了一把火。Figure 02在軟硬件諸多方面展現(xiàn)出了顯著的升級(jí)與突破,但由于演示視頻的局限性,也面臨著網(wǎng)友的質(zhì)疑與期待。
科技的進(jìn)步從來不是一蹴而就,每一次的創(chuàng)新都伴隨著挑戰(zhàn)與爭(zhēng)議。后續(xù)Figure能否不斷優(yōu)化Figure 02,交出更亮眼的答卷,特斯拉擎天柱等同類產(chǎn)品又能否實(shí)現(xiàn)新的突破,我們將持續(xù)關(guān)注。