劃重點(diǎn)
012024具身智能大會于9月26-27日在上海召開,探討具身智能技術(shù)對千行百業(yè)的重塑和商業(yè)領(lǐng)域應(yīng)用潛力。
02擎朗智能CTO唐旋來發(fā)表演講,認(rèn)為移動服務(wù)機(jī)器人在商用服務(wù)場景面臨非結(jié)構(gòu)化復(fù)雜環(huán)境、完全開放環(huán)境和全流程閉環(huán)等挑戰(zhàn)。
03他提出,應(yīng)用大模型和具身智能技術(shù)可提升服務(wù)機(jī)器人的環(huán)境適應(yīng)性、執(zhí)行任務(wù)效率和與人的交互能力。
04擎朗智能的業(yè)務(wù)覆蓋全球600多個(gè)城市及地區(qū),海外營收占比超過50%,已在酒店和快餐行業(yè)實(shí)現(xiàn)具身智能服務(wù)機(jī)器人的落地。
05未來,擎朗智能致力于讓服務(wù)機(jī)器人更好地陪伴人、服務(wù)人,讓人們的生活變更好。
以上內(nèi)容由騰訊混元大模型生成,僅供參考
具身智能作為AI技術(shù)的重要分支,正逐步從抽象理論邁向物理現(xiàn)實(shí),實(shí)現(xiàn)了物理世界與數(shù)字世界彼此的感知與鏈接,讓AI在物理世界中有所作為。36氪長期專注探討AI領(lǐng)域的產(chǎn)業(yè)革命和創(chuàng)新趨勢,針對具身智能領(lǐng)域的突破性變革,以“讓AI通向物理世界”為主題,邀請了重磅研究學(xué)者和企業(yè)嘉賓,共同見證人工智能技術(shù)從數(shù)字世界走向物理世界。
2024年9月26日-27日,為期兩日的「2024具身智能大會」在上海盛大召開。大會以具身智能為核心,構(gòu)建了從認(rèn)知-發(fā)展-應(yīng)用-未來為內(nèi)容的議題體系,來自工程院、人工智能研究院等專家學(xué)者及業(yè)內(nèi)從業(yè)者,以及來自知名科技巨頭公司的行業(yè)大咖嘉賓,共同深入探究了具身智能技術(shù)對千行百業(yè)的重塑,并研判具身智能在商業(yè)領(lǐng)域應(yīng)用潛力。同時(shí),大會首日隆重發(fā)布36 氪「2024 具身智能創(chuàng)新應(yīng)用案例」,為更多企業(yè)在該領(lǐng)域的發(fā)展應(yīng)用提供寶貴參考,助推具身智能產(chǎn)業(yè)蓬勃發(fā)展。本次大會還特設(shè)「具身智能案例路演show」環(huán)節(jié),諸多行業(yè)優(yōu)質(zhì)企業(yè)集體亮相,立體展示了具身智能行業(yè)的蓬勃新生力量。
在大會“具身智能在千行百業(yè)的應(yīng)用場景落地”環(huán)節(jié),擎朗智能CTO唐旋來發(fā)表了以“具身智能服務(wù)機(jī)器人的產(chǎn)業(yè)化探索與實(shí)踐“為主題的演講。他認(rèn)為移動服務(wù)機(jī)器人在商用服務(wù)場景運(yùn)行下的挑戰(zhàn)有三點(diǎn),一是非結(jié)構(gòu)化復(fù)雜環(huán)境。在商用服務(wù)環(huán)境中,機(jī)器人所處的運(yùn)行環(huán)境是持續(xù)變化的。環(huán)境布局和里面的人流量都是動態(tài)變化的,這就要求服務(wù)機(jī)器人提升自身的智能性,去適應(yīng)環(huán)境的變化。二是完全開放的環(huán)境。商用服務(wù)行業(yè)是完全開放的,機(jī)器人與人是處在一個(gè)共同環(huán)境中的,需要跟人形成高度自由博弈, 來安全高效完成任務(wù)。三是機(jī)器人執(zhí)行任務(wù)時(shí)需要完成整個(gè)流程的閉環(huán),需要像人一樣完成很多復(fù)雜的任務(wù)。
唐旋來還認(rèn)為,在具身智能服用機(jī)器人的產(chǎn)業(yè)化落地及普及過程中,應(yīng)用大模型和具身智能技術(shù)可以帶來兩點(diǎn)基礎(chǔ)能力的提升。第一,大模型帶來了更加泛化的推理能力,讓機(jī)器人具備更強(qiáng)大的大腦和學(xué)習(xí)能力;第二,隨著VLA、機(jī)械臂、運(yùn)動控制技術(shù)等的快速發(fā)展,機(jī)器人可以具備更強(qiáng)的身體、運(yùn)動和操作能力。擎朗智能的判斷是在商用服務(wù)場景,移動底盤+機(jī)械臂的技術(shù)方案是具身智能商用服務(wù)機(jī)器人目前最有可能率先產(chǎn)品化的形態(tài)架構(gòu)。
目前,擎朗智能的業(yè)務(wù)覆蓋全球600多個(gè)城市及地區(qū),海外營收占比超過50%。在海外特殊環(huán)境場景下,擎朗智能為酒店機(jī)器人增加雙臂,通過模型訓(xùn)練讓它學(xué)習(xí)抓娶按電梯等等,來完成服務(wù)流程閉環(huán)?蛻舨恍枰獙频戥h(huán)境做任何改造,擎朗服務(wù)機(jī)器人均可以快速提供服務(wù)。此外,在快餐行業(yè)的應(yīng)用場景中,擎朗智能通過具身智能訓(xùn)練,讓擎朗服務(wù)機(jī)器人可以自主學(xué)習(xí)如何收集和回收餐具,減輕服務(wù)員的工作負(fù)擔(dān)。
總的來說,擎朗智能是希望做到讓服務(wù)機(jī)器人更好地陪伴人、服務(wù)人,讓人們的生活變更好。
以下為演講實(shí)錄,經(jīng)36氪編輯整理:
大家好,我來自擎朗智能的產(chǎn)研負(fù)責(zé)人,今天將結(jié)合大模型、人形機(jī)器人、具身智能,從技術(shù)發(fā)展和產(chǎn)業(yè)落地的角度來分享我們在具身智能服務(wù)業(yè)怎樣落地,怎樣做商業(yè)化。
擎朗智能十多年來一直在致力于推動商用服務(wù)機(jī)器人的普及。我們的愿景是致力于在2050年構(gòu)建一個(gè)擁有“100億零1臺”機(jī)器人的世界。根據(jù)聯(lián)合國預(yù)測,2050年全球人口將達(dá)到100億,而我們希望做到比這個(gè)人口數(shù)量再多1臺。
首先,我們來談一談做商用服務(wù)場景。商用服務(wù)場景就是我們?nèi)粘I畹膱鼍,比如餐廳,酒店,商場,醫(yī)院等。這樣的場景具備什么樣的特點(diǎn),對機(jī)器人有什么樣的挑戰(zhàn)呢?我們認(rèn)為,在商用服務(wù)場景運(yùn)行的移動服務(wù)機(jī)器人需要面臨以下三個(gè)挑戰(zhàn):
1.非結(jié)構(gòu)化復(fù)雜環(huán)境
在商用服務(wù)環(huán)境中,機(jī)器人所處的運(yùn)行環(huán)境是持續(xù)變化的。這個(gè)變化體現(xiàn)在空間和時(shí)間兩個(gè)維度,從空間上來說,不同的商用服務(wù)場所,環(huán)境的差異很大,比如不同類型的餐廳、不同地區(qū)的餐廳,它們的布局和環(huán)境差異很大;從時(shí)間上來說,商用環(huán)境的內(nèi)部布局是不斷在動態(tài)變化的,不同時(shí)間的人流情況會變,這往往是無法預(yù)測的一些變化。這就要求服務(wù)機(jī)器人提升自身的智能性,去適應(yīng)和應(yīng)對環(huán)境的不斷變化,因?yàn)槟悴豢赡苋ジ淖兺獠凯h(huán)境。
2.完全開放的環(huán)境
商用服務(wù)行業(yè)是完全開放的,機(jī)器人與人是處在一個(gè)共同環(huán)境中的。目前機(jī)器人與人之間并沒有明確的交互規(guī)則,這就會極其考驗(yàn)機(jī)器人的智能水平。我們來做個(gè)對比:自動駕駛汽車在高速上可以依賴車道線、紅綠燈、斑馬線等規(guī)則來導(dǎo)航;可服務(wù)機(jī)器人卻在完全自由的狀態(tài)下與人互動,沒有任何規(guī)則,是跟人之間的高度自由博弈。比如,當(dāng)一個(gè)人在側(cè)面挨著機(jī)器人運(yùn)行時(shí),機(jī)器人就需要去預(yù)判這個(gè)人的意圖,他也許下一步橫穿到你面前,也許一直跟著你走,也許下一步就走開了,這個(gè)時(shí)候怎么解決問題?保險(xiǎn)起見,跑慢一點(diǎn)比較安全,但比如,餐廳用餐高峰期,一方面用餐需求增高,希望機(jī)器人的配送速度要快一些,但也由于人流量增多,也需要機(jī)器人保證安全。又要跑得快又要跑得安全,這就處于機(jī)器人不斷需要跟人群博弈的過程。
3.全流程閉環(huán)
機(jī)器人執(zhí)行任務(wù)時(shí)需要完成整個(gè)流程的閉環(huán)。比如在餐廳中,配送不僅僅是從廚房到桌邊的簡單過程,而是包括了從廚房到送餐桌的全流程。對于酒店服務(wù)機(jī)器人來說,它需要能夠自主搭乘電梯、通知顧客,并完成配送任務(wù)。這個(gè)閉環(huán)需要持續(xù)的信息交互和決策,才能形成完整的服務(wù)閉環(huán)流程。
擎朗智能CTO唐旋來
如今,擎朗已經(jīng)構(gòu)建了完整的技術(shù)鏈路,自研從感知、決策到執(zhí)行的具身智能全鏈路技術(shù)。
我們在這里面看到的具身智能機(jī)器人的技術(shù)框架,它跟人是非常類似的,包含感知,執(zhí)行,決策三個(gè)部分。首先它必須要有感知,相當(dāng)于我們的五官,怎樣從各個(gè)維度識別環(huán)境的信息,這是多模態(tài)的,你的模態(tài)越多,拿到的信息越完備。第二是我們需要思考決策,拿到信息以后怎樣處理、過濾,然后形成思考框架,做出決策;最終是執(zhí)行,執(zhí)行就是機(jī)器人軀體的控制與運(yùn)動體系決策。
值得一提的是,與目前大模型和自動駕駛技術(shù)相比,因?yàn)榫W(wǎng)絡(luò)等基礎(chǔ)設(shè)施的原因,商用服務(wù)機(jī)器人在很多場景中無法依賴強(qiáng)大的后臺算力,特別是在海外市場,在脫離網(wǎng)絡(luò)和后臺的情況下,如何在復(fù)雜環(huán)境中繼續(xù)做智能決策,這往往需要機(jī)器人依賴自身的決策來進(jìn)行判斷。
擎朗智能在服務(wù)機(jī)器人行業(yè)做了14年,也一直在思考,在大模型、人形機(jī)器人技術(shù)興起的過程中,我們該如何應(yīng)用大模型和具身智能技術(shù),助力推進(jìn)具身智能服用機(jī)器人的產(chǎn)業(yè)化落地及普及。目前我們總結(jié)下來在商用服務(wù)場景,服務(wù)機(jī)器人需要以下幾個(gè)方面的提升:
1.環(huán)境的適應(yīng)性需提高。因?yàn)槿虻纳逃梅⻊?wù)場景太多,差異性也太大,而且商用服務(wù)環(huán)境變化太頻繁,機(jī)器人需要更多模態(tài)的感知和數(shù)據(jù),才能夠快速去適應(yīng)這個(gè)不斷變化的復(fù)雜環(huán)境。
2.機(jī)器人如何在復(fù)雜環(huán)境中提高執(zhí)行任務(wù)的效率,比如配送機(jī)器人在用餐高峰期時(shí),環(huán)境更擁擠,但需要它配送得更快。
3.機(jī)器人與人的交互能力提升,比如語音、動作等一系列的多模態(tài)交互。舉個(gè)例子,我們在海外的時(shí)候,有一個(gè)問題是機(jī)器人與人語音交互時(shí),怎樣自由切換語種。比如說第一個(gè)客人說的英語,下一個(gè)客人說的卻是德語。
4.關(guān)于物理操作方面,輪式機(jī)器人往往缺乏手或臂的操作能力,在端到端的服務(wù)閉環(huán)上還有所欠缺,我們需要作出相應(yīng)的改善和迭代。
所以大模型和具身智能的發(fā)展帶來兩點(diǎn)基礎(chǔ)能力的提升:
第一,具身智能大腦:大模型帶來了更加泛化的推理能力,讓機(jī)器人具備更強(qiáng)大的大腦和學(xué)習(xí)能力。通過大量的學(xué)習(xí)和訓(xùn)練,會讓機(jī)器人對環(huán)境感知,任務(wù)理解,任務(wù)拆解等層面有更強(qiáng)的理解和推理能力;
第二,具身智能小腦:隨著VLA技術(shù),機(jī)械臂技術(shù),運(yùn)動控制技術(shù)的快速發(fā)展,讓機(jī)器人具備更強(qiáng)的身體,有更強(qiáng)的運(yùn)動和操作能力,這樣就可以像人一樣去完成很多復(fù)雜的任務(wù)。
結(jié)合在商用服務(wù)場景的大量移動機(jī)器人產(chǎn)品落地經(jīng)驗(yàn),我們認(rèn)為在商用服務(wù)場景,移動底盤+機(jī)械臂的技術(shù)方案是具身智能商用服務(wù)機(jī)器人目前最有可能率先產(chǎn)品化的形態(tài)架構(gòu)。擎朗已經(jīng)落地了數(shù)萬臺的移動服務(wù)機(jī)器人,解決了輪式底盤在室內(nèi)穩(wěn)定運(yùn)行的問題,當(dāng)我們賦予機(jī)器人上肢后,通過大模型和具身智能的訓(xùn)練,我們可以讓機(jī)器人做更多復(fù)雜的任務(wù),創(chuàng)造更多價(jià)值。
擎朗智能的業(yè)務(wù)覆蓋全球600多個(gè)城市及地區(qū),并在阿聯(lián)酋迪拜、德國、韓國、荷蘭、加拿大、美國、日本、中國香港等地設(shè)有子公司/辦公室,目前海外營收占比超過50%,但在海外市場的擴(kuò)展過程中,挑戰(zhàn)必不可少,比如,海外電梯改造的法規(guī)難題,比如我們在酒店的貨柜搭配機(jī)器人,機(jī)器人怎樣做到像人一樣將貨品取出來?
結(jié)合這些場景,我們?yōu)榫频隀C(jī)器人賦予雙臂,通過模型訓(xùn)練讓它學(xué)習(xí)抓娶按電梯等等,來完成服務(wù)流程閉環(huán)。這樣,當(dāng)這款機(jī)器人到達(dá)酒店的時(shí)候,客戶不需要對酒店環(huán)境做任何改造,開箱即用,無論是國內(nèi)還是海外,擎朗服務(wù)機(jī)器人都可以快速提供服務(wù)。
我們看這個(gè)視頻,機(jī)器人像人一樣按電梯,進(jìn)出電梯,不需要對環(huán)境做任何改變。在這個(gè)過程中,機(jī)器人需要跟人一樣,完全根據(jù)自身的感知和決策,去完成這個(gè)任務(wù)。機(jī)器人要進(jìn)入這個(gè)電梯,它需要觀察電梯的按鈕在哪里,離自己有多遠(yuǎn),怎么按;按完電梯之后,它需要觀察電梯到?jīng)]到,哪個(gè)電梯先到,電梯門什么時(shí)候開,機(jī)器人跟進(jìn)出電梯的人怎么交互等。這一整套的流程都需要處理,當(dāng)然還需要面對很多意外的情況,比如人把電梯門擋住了,或者人把機(jī)器擠住了,這些情境都需要機(jī)器人去判斷并執(zhí)行相應(yīng)的處理動作。
此外,我們在與快餐行業(yè)合作時(shí),發(fā)現(xiàn)機(jī)器人在收集餐盤的場景中也有巨大的潛力。通過具身智能訓(xùn)練,機(jī)器人可以自主學(xué)習(xí)如何收集和回收餐具,從而減輕服務(wù)員的工作負(fù)擔(dān)。左邊的視頻是我們訓(xùn)練(如下圖),大家可以看到我們通過遙控操作訓(xùn)練機(jī)器人,訓(xùn)練如何用機(jī)械臂將這些東西抓過來,然后去端起來這個(gè)餐具。我們想這一步完成之后,機(jī)器人就可以自己到桌邊把這些東西收走,把盤子放到指定回收的地方。
對于未來,邁向人與機(jī)器人共存的世界,這是一個(gè)必然趨勢,當(dāng)然也充滿驚喜與奇妙。無論是怎樣的具身智能機(jī)器人,無論我們通過大模型賦予它怎樣的思考能力,或者是賦予它像人一樣靈活執(zhí)行的能力。我們最終還是希望做到讓服務(wù)機(jī)器人更好地陪伴人、服務(wù)人,讓人們的生活變更好。這是我們這代AI機(jī)器人工作者渴望達(dá)成的目標(biāo)。