劃重點(diǎn)
01由清華大學(xué)和江淮前沿技術(shù)協(xié)同創(chuàng)新中心孵化的零次方科技,完成了兩款人形機(jī)器人研發(fā)。
02該公司基于人類視頻數(shù)據(jù)學(xué)習(xí),通過提取關(guān)鍵關(guān)節(jié)運(yùn)動(dòng)數(shù)據(jù)并映射到機(jī)器人身上,降低算法學(xué)習(xí)成本。
03除此之外,零次方科技利用4D高斯濺射技術(shù)重建觀測(cè)信息,獲得基于擴(kuò)散模型的機(jī)器人動(dòng)作生成策略。
04測(cè)試結(jié)果顯示,機(jī)器人在仿真訓(xùn)練中強(qiáng)化學(xué)習(xí),實(shí)現(xiàn)更加靈活泛化的操作,趕超人類專家的工作效率。
05目前,零次方科技正嘗試讓機(jī)器人學(xué)習(xí)電影《鋼甲鐵拳》中的畫面,以實(shí)現(xiàn)對(duì)人類雙臂動(dòng)作的準(zhǔn)確復(fù)刻。
以上內(nèi)容由騰訊混元大模型生成,僅供參考
作者|黃楠
編輯|袁斯來
數(shù)據(jù)之于技術(shù)發(fā)展的重要性長(zhǎng)期存在。但由于它的采集難度大,訓(xùn)練數(shù)據(jù)成了橫亙?cè)跈C(jī)器人規(guī);涞孛媲暗囊蛔笊健
目前,機(jī)器人的訓(xùn)練數(shù)據(jù)大體上可分為三類:第一類是真實(shí)的遙操數(shù)據(jù),第二類是高質(zhì)量的仿真合成數(shù)據(jù),第三類是人類的行為數(shù)據(jù)、其主要源于互聯(lián)網(wǎng)視頻。
機(jī)器人訓(xùn)練數(shù)據(jù)(圖源:零次方科技)
隨著Scaling Law在人工智能領(lǐng)域被驗(yàn)證,大語(yǔ)言模型和以特斯拉FSD(Full-Self Driving)推理為代表的端到端高速大模型,給具身智能領(lǐng)域帶來了新的啟發(fā)。
要實(shí)現(xiàn)具身智能,無(wú)論是遵循多模態(tài)大模型、采取構(gòu)建高維世界模型、亦或是組合專有領(lǐng)域小模型的多種路徑,其核心就在于能否解決對(duì)多樣性、高質(zhì)量數(shù)據(jù)的需求。通過對(duì)這一核心問題的思考,硬氪近日接觸到的具身智能創(chuàng)業(yè)公司「零次方科技」提出了他們的解法基于人類視頻數(shù)據(jù)學(xué)習(xí)(Learn from hunman video)。
「零次方科技」成立于今年5月,由清華大學(xué)和江淮前沿技術(shù)協(xié)同創(chuàng)新中心共同孵化,核心成員來自清華大學(xué)AI&Robot智能機(jī)器人實(shí)驗(yàn)室,團(tuán)隊(duì)中還有多位主創(chuàng)曾就職于字節(jié)跳動(dòng)、百度等互聯(lián)網(wǎng)大廠、節(jié)卡等協(xié)作機(jī)器人公司。
數(shù)據(jù)量是實(shí)現(xiàn)通用具身操作的必需因素,單位數(shù)據(jù)成本是產(chǎn)品落地的基礎(chǔ)條件。一個(gè)現(xiàn)實(shí)情況是,真實(shí)遙感數(shù)據(jù)和仿真數(shù)據(jù)都存在單位成本高的問題,而人類數(shù)據(jù)雖然數(shù)據(jù)量最龐大、但其數(shù)據(jù)質(zhì)量是最低的。如何利用好海量的人類視頻數(shù)據(jù)成為「零次方科技」探索的主要技術(shù)路徑。
數(shù)據(jù)量與應(yīng)用場(chǎng)景(圖源:零次方科技)
區(qū)別于當(dāng)前主流的遙操作技術(shù),「零次方科技」借助三維人體運(yùn)動(dòng)姿態(tài)感知模型,通過提取人類關(guān)鍵關(guān)節(jié)的運(yùn)動(dòng)數(shù)據(jù)、并重映射到機(jī)器人身上,可在一定程度上降低算法的學(xué)習(xí)成本;同時(shí),基于4D高斯濺射技術(shù)對(duì)機(jī)器人所觀測(cè)信息進(jìn)行重建,獲得一個(gè)基于擴(kuò)散模型的機(jī)器人動(dòng)作生成策略,驅(qū)動(dòng)機(jī)器人自主完成任務(wù),使其具備直接向人類學(xué)習(xí)的能力(LFWH)。
測(cè)試結(jié)果顯示,在LFWH基礎(chǔ)上,機(jī)器人能夠在仿真訓(xùn)練中進(jìn)行強(qiáng)化學(xué)習(xí),實(shí)現(xiàn)更加靈活泛化的操作,以彌補(bǔ)機(jī)器人與人之間的先天性結(jié)構(gòu)差異,進(jìn)而趕超人類專家的工作效率,并實(shí)現(xiàn)快速部署。
根據(jù)專項(xiàng)場(chǎng)景的數(shù)據(jù)及互聯(lián)網(wǎng)數(shù)據(jù)訓(xùn)練想象生成模型(Imaginator),隨著imaginator能力提升,模型訓(xùn)練中所需的真實(shí)數(shù)據(jù)逐漸減少,生成數(shù)據(jù)的比例越來越高,算法的泛化性也隨之增強(qiáng),進(jìn)而實(shí)現(xiàn)Imaginator的生成能力愈發(fā)接近真實(shí)世界,逼近現(xiàn)實(shí)物理規(guī)律的世界模型,最終實(shí)現(xiàn)真正的通用人工智能。
想象生成模型(圖源:零次方科技)
以「零次方科技」9月發(fā)布的雙臂機(jī)器人F1為例。F1當(dāng)前正嘗試將其引入專業(yè)工廠的專項(xiàng)操作中落地使用,通過逐步拓展場(chǎng)景、推動(dòng)數(shù)據(jù)飛輪滾動(dòng),可以有效提高模型和機(jī)器人的泛化能力。
比如中小企業(yè)工廠改造難、手動(dòng)編程等問題,「零次方科技」提出,用機(jī)器人自主學(xué)習(xí)實(shí)現(xiàn)原位替代,不需要改變工廠布局、也不需要編程,只需把機(jī)器人引入人類崗位中,通過其持續(xù)學(xué)習(xí)的能力、不斷填入數(shù)據(jù),以增強(qiáng)機(jī)器人在場(chǎng)景方面的泛化能力。
用機(jī)器人模擬人類行為進(jìn)行數(shù)據(jù)訓(xùn)練(圖源:零次方科技)
在機(jī)器人整機(jī)方面,「零次方科技」四個(gè)月共完成了兩款人形機(jī)器人的研發(fā)工作。除上述提到的F1雙臂機(jī)器人外,10月23日,公司正式發(fā)布首款人形機(jī)器人Z1,該機(jī)器人可以在多種不規(guī)則路面、復(fù)雜地形中長(zhǎng)時(shí)間穩(wěn)定行走,且具備優(yōu)秀的抗干擾性能,即使受到各方向的強(qiáng)沖擊也能保持穩(wěn)定站立。
Z1配備有150Nm關(guān)節(jié)電機(jī),全身具備27個(gè)自由度,載重測(cè)試極限高達(dá)20公斤,負(fù)載/自重比超70%。其搭載了自研的EtherCAT通訊模組,整體系統(tǒng)可實(shí)現(xiàn)低延時(shí)、高帶寬;同時(shí),團(tuán)隊(duì)還采用了AI技術(shù)輔助進(jìn)行機(jī)器人的結(jié)構(gòu)參數(shù)設(shè)計(jì),能耗更低、其動(dòng)態(tài)運(yùn)動(dòng)性能更高。
目前,「零次方科技」正在嘗試讓機(jī)器人學(xué)習(xí)電影《鋼甲鐵拳》中的畫面,已實(shí)現(xiàn)對(duì)人類雙臂動(dòng)作的準(zhǔn)確復(fù)刻。根據(jù)官方公布的視頻畫面,通過觀察人類的行為動(dòng)作,Z1可以模仿人學(xué)習(xí)攻擊招式,以靈活的全身協(xié)同控制能力為基礎(chǔ),進(jìn)行動(dòng)態(tài)防御。
創(chuàng)始人閔宇恒表示,計(jì)劃于今年年底,其機(jī)器人將在無(wú)操作設(shè)備的情況下展開人形機(jī)器人拳擊比賽,實(shí)現(xiàn)每個(gè)人的機(jī)甲夢(mèng)。