強(qiáng)化學(xué)習(xí)開啟具身智能初紀(jì)元。
本文為IPO早知道原創(chuàng)
作者|Stone Jin
據(jù)IPO早知道消息,靈初智能日前完成天使輪融資,本輪融資由高瓴創(chuàng)投(GL Ventures)和藍(lán)馳創(chuàng)投(Lanchi Ventures)領(lǐng)投。
本輪融資完成后,靈初智能將繼續(xù)推進(jìn)基于強(qiáng)化學(xué)習(xí)算法的機(jī)器人技能集訓(xùn)練、場(chǎng)景化的數(shù)據(jù)生成及采集、端到端解決方案的研發(fā)及落地,打造業(yè)界領(lǐng)先的通用靈巧操作智能體。
靈初智能創(chuàng)始人王啟斌博士在手機(jī)、智能音箱、機(jī)器人領(lǐng)域有近20年的成功操盤經(jīng)驗(yàn),多次實(shí)現(xiàn)產(chǎn)品從定義、開發(fā)、到上市、再到全球化0-1-N的產(chǎn)業(yè)閉環(huán),是一名深諳機(jī)器人商業(yè)化落地的“老兵”。聯(lián)合創(chuàng)始人柴曉杰博士,在機(jī)器人及無(wú)人駕駛領(lǐng)域從業(yè)15年,擅長(zhǎng)算法、仿真、工程、全棧技術(shù),有L4產(chǎn)品落地的數(shù)據(jù)閉環(huán)經(jīng)驗(yàn),是量產(chǎn)經(jīng)驗(yàn)豐富的研發(fā)專家。
此外,靈初智能還被稱為“科學(xué)家密度最高”的具身智能公司。靈初與北京大學(xué)成立北大-靈初智能具身靈巧操作聯(lián)合實(shí)驗(yàn)室,由人工智能研究院楊耀東博士擔(dān)任首席科學(xué)家開展橫向課題合作。楊耀東博士是強(qiáng)化學(xué)習(xí)領(lǐng)域的知名青年學(xué)者,他博士畢業(yè)于UCL, 是現(xiàn)代深度強(qiáng)化學(xué)習(xí)的發(fā)源地。楊耀東課題組在強(qiáng)化學(xué)習(xí)領(lǐng)域有系列重要成果,其中包括帶領(lǐng)華人團(tuán)隊(duì)研發(fā)多體強(qiáng)化學(xué)習(xí)算法首登Nature機(jī)器智能子刊,帶領(lǐng)華人團(tuán)隊(duì)獲得NeurIPS 2022具身靈巧操作冠軍等。同時(shí),北大-靈初聯(lián)合實(shí)驗(yàn)室將和梁一韜博士就具身智能體長(zhǎng)程任務(wù)規(guī)劃開展課題合作,梁博士長(zhǎng)期致力于如何將知識(shí)注入機(jī)器學(xué)習(xí)中以提高其性能和泛化性,在開放環(huán)境MineCraft中取得系列重要成果。他利用LLM實(shí)現(xiàn)復(fù)雜任務(wù)的拆解和規(guī)劃,讓大模型“缸中之腦“長(zhǎng)出手腳,在具身場(chǎng)景中自主行動(dòng)。在靈初北大聯(lián)合實(shí)驗(yàn)室之外,公司聯(lián)合創(chuàng)始人陳源培是一名癡迷機(jī)器人的00后天才少年,作為Stanford訪問(wèn)學(xué)者,他師從Karen Liu和李飛飛教授,曾在全球首次實(shí)現(xiàn)利用強(qiáng)化學(xué)習(xí)在真實(shí)世界同時(shí)控制雙臂、雙手多技能操作。此外,來(lái)自上海交大人工智能學(xué)院的溫穎副教授也是技術(shù)團(tuán)隊(duì)關(guān)鍵成員,溫教授課題組曾推出多模態(tài)決策大模型DB1,實(shí)現(xiàn)了對(duì)DeepMind通才決策Gato模型的超越,并引入了與現(xiàn)實(shí)世界相關(guān)的百余個(gè)場(chǎng)景任務(wù),為實(shí)際業(yè)務(wù)需求提供了有力工具。
整體而言,由產(chǎn)品老兵帶隊(duì),攜手密度最高的科學(xué)家團(tuán)隊(duì),靈初智能組成了7890六邊形戰(zhàn)隊(duì),團(tuán)隊(duì)跨越了70、80、90、00的年齡梯度,是一支有技術(shù)、懂產(chǎn)品、能落地的全能團(tuán)隊(duì),就像他們擅長(zhǎng)基于強(qiáng)化學(xué)習(xí)(RL)的具身智能類人操作一樣,具有更領(lǐng)先的技術(shù),更大的商業(yè)潛力,和更強(qiáng)的戰(zhàn)斗力。
在早期,靈初智能一直深耕基于強(qiáng)化學(xué)習(xí)的全棧能力,從靈巧操作入手在具身智能領(lǐng)域積累技術(shù)壁壘,后將擴(kuò)展至通用泛化操作。其開發(fā)的分層端到端模型領(lǐng)先業(yè)界,包含Psi - P0 規(guī)劃模型和Psi - C0 控制模型。Psi - P0 借助大模型交互推理理解行為對(duì)環(huán)境影響,拆解復(fù)雜任務(wù)以實(shí)現(xiàn)任務(wù)泛化;Psi - C0模型為陳源培提出的雙層架構(gòu),結(jié)合人類運(yùn)動(dòng)數(shù)據(jù)和深度強(qiáng)化學(xué)習(xí),上層用人類數(shù)據(jù)訓(xùn)練參考軌跡生成器,下層用其生成軌跡指導(dǎo)強(qiáng)化學(xué)習(xí)訓(xùn)練,解決泛化性和靈巧性難題,這也是世界首次利用強(qiáng)化學(xué)習(xí)在現(xiàn)實(shí)中控制雙臂雙手多技能操作。
Psi-C0控制模型支持多個(gè)技能串聯(lián)作業(yè)的訓(xùn)練難題。陳源培與斯坦福大學(xué)共同提出的Sequential Dexterity通過(guò)串聯(lián)多個(gè)靈巧操作策略來(lái)完成長(zhǎng)程的任務(wù)。在真實(shí)世界的搭積木任務(wù)中,能將翻找、重定向、抓取和插入積木4個(gè)skill串聯(lián)起來(lái)提高整體的成功率。這也是世界上第一個(gè)基于強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)了靈巧操作的長(zhǎng)程任務(wù),顯示了多技能組合的泛化性。
而梁一韜博士開發(fā)的Psi-P0實(shí)現(xiàn)開放環(huán)境中復(fù)雜任務(wù)的任務(wù)拆解和規(guī)劃,其所支持的任務(wù)復(fù)雜度和準(zhǔn)確度都超越同期OpenAI(VPT)和Nvidia的工作(Minedojo)。
在產(chǎn)品規(guī)劃上,靈初智能將從2B服務(wù)業(yè)切入,以頭部客戶的高價(jià)值場(chǎng)景需求為指引,開發(fā)整合技能集,實(shí)現(xiàn)商業(yè)落地,并快速迭代硬件,算法,數(shù)據(jù)系統(tǒng),不斷提升具身智能整體解決方案的泛化性,靈巧性和成功率,給出具身領(lǐng)域“不可達(dá)三角”的最優(yōu)解。
靈初智能創(chuàng)始人兼CEO王啟斌表示:“非常感謝投資人的鼎力支持。我們這支集合工業(yè)界老兵和高密度科學(xué)家的戰(zhàn)隊(duì),擁有完整的技術(shù)棧,將在具身智能的前沿打造軟硬一體的綜合解決方案,拓展在先進(jìn)制造,商超物流及2B服務(wù)業(yè)等場(chǎng)景中的應(yīng)用場(chǎng)景,快速實(shí)現(xiàn)數(shù)據(jù)閉環(huán),商業(yè)化落地。在具身智能賽道的初紀(jì)元,期待和我們的合作伙伴靈性成長(zhǎng),共同開創(chuàng)智能未來(lái)!
高瓴創(chuàng)投(GL Ventures)項(xiàng)目負(fù)責(zé)人表示:“作為人工智能與現(xiàn)實(shí)世界的深度結(jié)合,具身智能行業(yè)前景廣闊,且擁有引發(fā)各行各業(yè)深刻變革的巨大潛力。靈初智能憑借在強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)方面的技術(shù)深耕和積累,在實(shí)現(xiàn)機(jī)器人靈巧性、泛化性和高成功率的‘不可達(dá)三角’挑戰(zhàn)上已取得顯著進(jìn)展;創(chuàng)始團(tuán)隊(duì)匯聚多領(lǐng)域頂尖人才,不僅有卓越的技術(shù)背景,還兼?zhèn)鋸?qiáng)大的工程化能力以及深厚的商業(yè)化實(shí)戰(zhàn)經(jīng)驗(yàn)。我們相信,在創(chuàng)始人王啟斌博士帶領(lǐng)下,靈初智能能夠?yàn)樾袠I(yè)帶來(lái)革命性的應(yīng)用與高效率的解決方案,實(shí)現(xiàn)技術(shù)突破與商業(yè)價(jià)值的共贏。”
藍(lán)馳創(chuàng)投(Lanchi Ventures)項(xiàng)目負(fù)責(zé)人表示:“具身智能機(jī)器人市場(chǎng)潛力巨大,我們認(rèn)為通用操作能力執(zhí)行復(fù)雜任務(wù)是具身智能落地的重要技術(shù)卡點(diǎn)。靈初團(tuán)隊(duì)是全球范圍內(nèi)在強(qiáng)化學(xué)習(xí)和具身模型方面頂尖的技術(shù)團(tuán)隊(duì)。此外,團(tuán)隊(duì)懂產(chǎn)業(yè)懂場(chǎng)景,有備底層技術(shù)架構(gòu)能力和充分的產(chǎn)品落地經(jīng)驗(yàn)和供應(yīng)鏈優(yōu)勢(shì)。我們相信隨著具身智能的技術(shù)逐步成熟、產(chǎn)業(yè)鏈與生態(tài)更加完善,具身智能機(jī)器人市場(chǎng)將迎來(lái)高速發(fā)展期。我們非?春镁呱頇C(jī)器人在全球市場(chǎng)的發(fā)展?jié)摿Α!?br/>