想象一下,如果擁有一款人形機(jī)器人,你會(huì)讓它來做什么?
隨著具身智能時(shí)代的到來,各大科技公司紛紛加大了對(duì)人形機(jī)器人的研發(fā)投入,讓很多人想象中的場(chǎng)景逐漸成為現(xiàn)實(shí)。然而,市場(chǎng)上產(chǎn)品雖多,但真正能夠從科研成果轉(zhuǎn)化為實(shí)際應(yīng)用的機(jī)器人卻寥寥無幾。
就在 11 月 13 日,成立僅有 300 多天的靈寶 CASBOT 正式發(fā)布了其首款人形機(jī)器人“CASBOT 01”,成為人形機(jī)器人賽道的重要參與者。不同于行業(yè)中已有的人形機(jī)器人產(chǎn)品,CASBOT 01 在功能和設(shè)計(jì)上做了多項(xiàng)創(chuàng)新和突破。它不僅能夠顛勺做飯:
還能擰螺絲、換燈泡:
幫忙收拾家務(wù)、整理衣柜:
閑暇之余,也能彈彈鋼琴,陶冶情操:
出場(chǎng)即帶來操作如此絲滑的機(jī)器人,其背后必然離不開核心團(tuán)隊(duì)的大力支持。深入挖掘這支核心團(tuán)隊(duì),我們發(fā)現(xiàn)其成員不乏有來自中國(guó)科學(xué)院自動(dòng)化研究所、清華大學(xué)、北京理工大學(xué)等知名高校和研究機(jī)構(gòu)。
時(shí)下,在行業(yè)中已有特斯拉“擎天柱”、波士頓 Atlas等人形機(jī)器人的激烈競(jìng)爭(zhēng)下,面對(duì)外界“現(xiàn)在做機(jī)器人是否太遲了”的質(zhì)疑聲,靈寶 CASBOT 聯(lián)合創(chuàng)始人兼首席運(yùn)營(yíng)官張淼在發(fā)布會(huì)上坦言,「要做出一個(gè)應(yīng)用級(jí)的人形機(jī)器人產(chǎn)品其實(shí)非常的不容易,我們認(rèn)為一個(gè)產(chǎn)品必須建立在真實(shí)的需求基礎(chǔ)上,才有規(guī)模化商用的可能。這也是靈寶團(tuán)隊(duì)在成立之初就已經(jīng)考慮清楚的事情。我們希望我們的機(jī)器人能夠在那些高重復(fù)、低成本、無意義的作業(yè)流水線中全力以赴,協(xié)助人們更高效地生產(chǎn),創(chuàng)造更多價(jià)值。我們希望打造一個(gè)智創(chuàng)新物種,從而塑造一個(gè)智慧共生的新世界!
那么,為什么 CASBOT 01 能夠勝任這些工作?在這場(chǎng)“生而為(wéi & wèi)人”的發(fā)布會(huì)上,靈寶團(tuán)隊(duì)從機(jī)械設(shè)計(jì)、具身類腦、操作能力等多個(gè)軟硬件技術(shù)維度進(jìn)行了全面的解析與分享。
身高179cm、體重 60kg 的人形機(jī)器人CASBOT 01
相較而言,CASBOT 01 要比其他機(jī)器人更像“人”,身高達(dá) 179cm,體重 60kg,如同一個(gè)正常成年人的身形。
在本體設(shè)計(jì)上,CASBOT 01 擁有的:
頭部具有兩個(gè)自由度,配備了先進(jìn)的雷達(dá)、相機(jī)及顯示屏,能夠?qū)崿F(xiàn)視覺和聽覺的雙重交互。
上身集成了高能量密度電池和核心控制器單元,確保整機(jī)續(xù)航能力超過 4 小時(shí)和高效的運(yùn)算能力。標(biāo)配雙電池,快拆背包式的結(jié)構(gòu),單電池能夠?qū)崿F(xiàn) 30 分鐘的有效快充。
CASBOT 01 的單腿有 6 個(gè)自由度,現(xiàn)有構(gòu)型能實(shí)現(xiàn)類似人類的運(yùn)動(dòng)范圍,部分關(guān)節(jié)位置可以滿足 360 度及更大的運(yùn)動(dòng)空間,可以像人一樣在不同地形實(shí)現(xiàn)平衡行走。
在人形機(jī)器人的關(guān)節(jié)設(shè)計(jì)上,靈寶 CASBOT 自主研發(fā)了包括行星、諧波以及直線三大系列一體化關(guān)節(jié),峰值扭矩密度最高可達(dá) 207Nm/kg,關(guān)節(jié)效率超80%。該團(tuán)隊(duì)表示,CASBOT 01 的關(guān)節(jié)使用基于電流或傳感器的力控優(yōu)化策略,輔以模型跟蹤控制,采用振動(dòng)抑制、慣量辨識(shí)、摩擦補(bǔ)償及增益自整定等技術(shù),實(shí)現(xiàn)高精度的力矩環(huán)控制效果。
此外,其內(nèi)部還搭載了高達(dá) 550T 的 AI 算力單元,結(jié)合以上的 RGBD 相機(jī)、激光雷達(dá)和 IMU 等傳感器,機(jī)器人本體能夠完成實(shí)時(shí)視覺感知計(jì)算。
不過,一款人形機(jī)器人的構(gòu)建遠(yuǎn)非想象中那么簡(jiǎn)單。這一點(diǎn),靈寶 CASBOT 團(tuán)隊(duì)深有感受。其在發(fā)布會(huì)上表示,僅在機(jī)械結(jié)構(gòu)設(shè)計(jì)部分,他們起步便遇到了不少的挑戰(zhàn),譬如,該如何平衡機(jī)器人超大的運(yùn)動(dòng)范圍和造型美觀度之間的矛盾;又該怎樣控制帶寬對(duì)結(jié)構(gòu)剛度的要求,因?yàn)殡p足機(jī)器人的應(yīng)用場(chǎng)景對(duì)輕量化和質(zhì)心位置都有較高的要求。
經(jīng)過多次優(yōu)化,靈寶 CASBOT 一方面找到了運(yùn)動(dòng)范圍與機(jī)器人美觀度之間的平衡點(diǎn),其也在機(jī)器人 ID 設(shè)計(jì)上,根據(jù)人體肌肉的比例構(gòu)成進(jìn)行了視覺化分解,并進(jìn)行了抽象化的概括提煉,將其應(yīng)用在人形機(jī)器人整體結(jié)構(gòu)設(shè)計(jì)上,使得機(jī)器人看起來更加美觀。
另一方面為了保證結(jié)構(gòu)剛度,在整機(jī)極致減重的情況下,該團(tuán)隊(duì)采用了高強(qiáng)度金屬材料加工復(fù)雜曲面,形成了中間加固的超薄空心腔體,保證了結(jié)構(gòu)的穩(wěn)定性和抗沖擊性。
分層端到端模型的具身類腦一款優(yōu)秀的人形機(jī)器人,不僅需要漂亮的外觀,更重要的是需要有一個(gè)聰明的大腦。
在“大腦”層面,靈寶 CASBOT 聯(lián)合創(chuàng)始人兼 CTO 馬世奎表示,具身智能領(lǐng)域不乏有多種技術(shù)路線的選擇,這些技術(shù)各有千秋,但是也都存在一定的不足,例如:
RT-2 這樣大一統(tǒng)的端到端具身大模型,雖然在特定場(chǎng)景下表現(xiàn)出色,但在泛化性和角色頻率上存在局限;
以視覺大模型為主的分段決策模型 VoxPoser,雖然在通用物品抓取方面表現(xiàn)良好,但在工具操作和技能學(xué)習(xí)方面則顯得力不從心。
此外,類似 Mobile Aloha 少樣本示教,模仿訓(xùn)練出的技能模型。雖然能夠?qū)崿F(xiàn)高效的技能學(xué)習(xí),但泛化性和數(shù)據(jù)獲取成本仍然是問題。
在此背景下,靈寶 CASBOT選擇了一種分層端到端模型技術(shù)路線,將算力要求高、決策頻率需求低的高級(jí)感知和復(fù)雜認(rèn)知決策部分放在云端,將決策頻率需求高的技能運(yùn)動(dòng)規(guī)劃和閉環(huán)控制放在機(jī)器人本體,以此能夠結(jié)合各種路線的優(yōu)勢(shì)同時(shí)規(guī)避它們的不足。
詳細(xì)來看,靈寶CASBOT的具身智能系統(tǒng)分為三個(gè)層次:
頂層是多模態(tài)大模型,實(shí)現(xiàn)多模態(tài)人機(jī)交互、意圖理解和任務(wù)拆解規(guī)劃;
中間是多模態(tài)靈巧操作大模型,以大語言模型為基座,采用多元混合數(shù)據(jù)訓(xùn)練而成,實(shí)現(xiàn)技能層面的機(jī)器人全身運(yùn)動(dòng)軌跡規(guī)劃。大模型之間則通過 AI Agent 以自然語言為接口,進(jìn)行無縫深度協(xié)同;
底層是通用運(yùn)動(dòng)先驗(yàn)控制模型,確保機(jī)器人在跟蹤技能動(dòng)作軌跡的時(shí)候,動(dòng)態(tài)平衡、碰撞避免和高精度相對(duì)控制。
在模型訓(xùn)練方面,靈寶 CASBOT 團(tuán)隊(duì)首先通過深度學(xué)習(xí)重建高逼真度的數(shù)字孿生環(huán)境,然后由人類專家進(jìn)行小樣本示教,生成海量的高質(zhì)量機(jī)器人視角的操作數(shù)據(jù)。這些數(shù)據(jù)結(jié)合大語言模型進(jìn)行語義化組織,訓(xùn)練出語言條件的端到端多模態(tài)靈巧操作大模型。
在模型獲得到物理事件后,人類專家針對(duì)特殊情況進(jìn)行實(shí)時(shí)數(shù)字孿生示教,將人類專家數(shù)據(jù)、仿真合成數(shù)據(jù)、機(jī)器人真實(shí)的運(yùn)行數(shù)據(jù)進(jìn)行混合訓(xùn)練,以此來提升靈巧操作大模型的泛化能力。同時(shí),該團(tuán)隊(duì)還利用互聯(lián)網(wǎng)上的海量人類操作視頻,通過 real2Sim 的遷移,數(shù)據(jù)增廣和混合訓(xùn)練,進(jìn)一步提升大模型的性能。
基于以上,讓機(jī)器人更加智能、靈活和自主。
CASBOT 01 是如何動(dòng)起來的?
有了“身體”和“大腦”,人形機(jī)器人也是時(shí)候該動(dòng)起來了,那么,它究竟是怎么動(dòng)的?
CASBOT 01 采用了一種結(jié)合了對(duì)抗運(yùn)動(dòng)先驗(yàn)和全身控制(WBC)的運(yùn)動(dòng)控制框架,實(shí)現(xiàn)了運(yùn)動(dòng)的一體化控制。這意味著機(jī)器人可以在復(fù)雜的環(huán)境中穩(wěn)健地完成全身任務(wù)。
具體來說,團(tuán)隊(duì)首先在仿真環(huán)境中生成與機(jī)器人匹配的數(shù)字孿生,并賦予其所有物理特性。通過動(dòng)捕設(shè)備采集大量人體運(yùn)動(dòng)數(shù)據(jù),經(jīng)過過濾、插值和平滑處理,篩選出最優(yōu)數(shù)據(jù),生成運(yùn)動(dòng)先驗(yàn)數(shù)據(jù)集。這些數(shù)據(jù)集用于強(qiáng)化學(xué)習(xí)訓(xùn)練,使機(jī)器人能夠生成高度擬人的運(yùn)動(dòng)控制策略。
再細(xì)分到手部,CASBOT 01 的靈巧手是關(guān)鍵。這款 5 指仿生靈巧手,單手重量 800 克,額定負(fù)載 5 公斤。該團(tuán)隊(duì)分別在結(jié)構(gòu)、感知、控制和算法等方面進(jìn)行了創(chuàng)新:
結(jié)構(gòu)設(shè)計(jì):靈巧手采用高緊湊度的整機(jī)構(gòu)型,以及驅(qū)-傳-感-控系統(tǒng)一體化的仿生設(shè)計(jì),能夠適應(yīng)不同負(fù)載和尺寸的需求。此外,復(fù)合連桿與帶傳動(dòng)相結(jié)合的模塊化傳動(dòng)設(shè)計(jì),可實(shí)現(xiàn)復(fù)雜動(dòng)作的運(yùn)動(dòng)解耦。
感知系統(tǒng):此款靈巧手采用觸覺、力覺、視覺的多元感知系統(tǒng),覆蓋指尖、指腹、掌心等區(qū)域,實(shí)現(xiàn)接近覺、力覺、壓覺、滑覺的融合感知。多維傳感器的融合確保了靈巧手與物體、環(huán)境的準(zhǔn)確交互。
智能控制:通過多元信息融合反饋,構(gòu)建靈巧手與物體的交互狀態(tài)評(píng)估模型,實(shí)現(xiàn)不同形狀和材質(zhì)物體的穩(wěn)定抓取。進(jìn)而優(yōu)化控制算法和動(dòng)作規(guī)劃,模仿人手的靈活性,完成挑、捻、搓、鉤等多種操作。
在算法層面:通過物體點(diǎn)云輸入,預(yù)測(cè)抓取配置,構(gòu)建不同類別物體和抓取標(biāo)簽的數(shù)據(jù)集。使用視覺語言模型的通用抓取學(xué)習(xí)算法,實(shí)現(xiàn)機(jī)器人手部對(duì)環(huán)境、對(duì)象、任務(wù)的泛化和適應(yīng)能力。
基于這種軟硬件協(xié)同的方式,CASBOT 01 實(shí)現(xiàn)了可快速學(xué)習(xí)、可泛化的長(zhǎng)時(shí)序靈巧操作。
One More Thing
據(jù)官方介紹,目前靈寶CASBOT 已經(jīng)在航天航海應(yīng)急救援井下作業(yè)、工業(yè)制造和商業(yè)服務(wù)等多個(gè)領(lǐng)域有了深度應(yīng)用。
值得一提的是,CASBOT 01 在發(fā)布會(huì)的最后,不僅現(xiàn)身為自己取了一個(gè)更為接地氣的名字“星期三”(發(fā)布日期),還客串了主持人帶來了 One More Thing,其宣布,將在 2025 年發(fā)布全新的下一代人形機(jī)器人“CASBOT NEXT GEN”,搭載 Embodied Brain 2.0、視覺基礎(chǔ)大模型 2.0 等先進(jìn)技術(shù),實(shí)現(xiàn)更輕、更強(qiáng)、更高效的目標(biāo)。
最后,靈寶希望通過 5 到 10 年的時(shí)間,成為全球人形機(jī)器人品牌的主力軍,從 ToB 市場(chǎng)逐步拓展到 ToC 市場(chǎng),最終讓每個(gè)人都能擁有自己的人形機(jī)器人,實(shí)現(xiàn)人形機(jī)器人走進(jìn)千家萬戶的愿景,你期待住了嗎?