展會(huì)信息港展會(huì)大全

AI大腦讓機(jī)器人更像人了
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-06-03 09:09:35   瀏覽:5043次  

導(dǎo)讀:經(jīng)濟(jì)觀察報(bào) 記者 沈怡然 我口渴了。需不需要我給你倒杯水? 這是一段人類與機(jī)器人之間的對(duì)話。焦繼超首次聽到這段對(duì)話時(shí)非常激動(dòng),因?yàn)橐酝鶛C(jī)器人是不會(huì)這樣回應(yīng)的,機(jī)器人可能會(huì)嘗試解釋口渴的原因,或者干脆沒有任何反應(yīng)。 焦繼超是深圳市優(yōu)必選科技股份有...

經(jīng)濟(jì)觀察報(bào) 記者 沈怡然 “我口渴了。”“需不需要我給你倒杯水?”

這是一段人類與機(jī)器人之間的對(duì)話。焦繼超首次聽到這段對(duì)話時(shí)非常激動(dòng),因?yàn)橐酝鶛C(jī)器人是不會(huì)這樣回應(yīng)的,機(jī)器人可能會(huì)嘗試解釋口渴的原因,或者干脆沒有任何反應(yīng)。

焦繼超是深圳市優(yōu)必選科技股份有限公司(09880.HK,下稱“優(yōu)必選”)的科技副總裁、研究院執(zhí)行院長(zhǎng)。他說,過去,即使一個(gè)機(jī)器人詞匯量再大,也無法真正聽懂人類的語(yǔ)言,只會(huì)響應(yīng)預(yù)設(shè)的關(guān)鍵詞。這種情況在實(shí)際互動(dòng)中的局限非常明顯,例如,機(jī)器人能理解具體的命令“給我倒杯水”,但無法理解更抽象地表述“我口渴了”。

焦繼超說:“即使是三歲的小孩也知道‘口渴’意味著需要喝水。”2016年,優(yōu)必選啟動(dòng)了第一代人形機(jī)器人的研發(fā)工作。盡管研發(fā)團(tuán)隊(duì)能夠讓機(jī)器人的骨架和關(guān)節(jié)實(shí)現(xiàn)非常精準(zhǔn)地運(yùn)動(dòng),但提升其“大腦”的智能性始終是個(gè)難題。

機(jī)器人之所以能夠完成這段對(duì)話,是因?yàn)樗捎昧讼馛hatGPT(OpenAI研發(fā)的一款聊天機(jī)器人程序)這樣的人工智能大型語(yǔ)言模型。

大語(yǔ)言模型技術(shù)第一次成功模擬了人類的語(yǔ)言系統(tǒng),讓機(jī)器人實(shí)現(xiàn)與人類自然對(duì)話。AI(人工智能)大模型技術(shù)的快速更新又讓機(jī)器人陸續(xù)擁有了類似人類的“眼睛”和“耳朵”等感官。通過視覺和語(yǔ)音大模型,機(jī)器人能夠更好地感知和理解周圍環(huán)境。當(dāng)大模型演進(jìn)到更高級(jí)的階段,不僅能夠處理和響應(yīng)各種信息,還能夠自主決策和執(zhí)行任務(wù),模擬出越來越接近人類大腦的功能。

人工智能技術(shù)起源于20世紀(jì)50年代,它朝著模仿人類大腦的方向演進(jìn)了七十多年,卻始終游走于數(shù)字世界;機(jī)器人技術(shù)起源于更早的20世紀(jì)20年代,并經(jīng)歷了超過一個(gè)世紀(jì)的發(fā)展,機(jī)器人已經(jīng)擁有了靈活的身軀和骨架,但一直未能獲得一個(gè)聰明的大腦。

在長(zhǎng)期發(fā)展和“雙向奔赴”后,這兩大技術(shù)終于在當(dāng)前的時(shí)間點(diǎn)交匯,這讓人工智能以實(shí)體之軀步入現(xiàn)實(shí),去觸摸和改變世界;而機(jī)器人也不再只是執(zhí)行簡(jiǎn)單命令的機(jī)械,而是變得能夠思考、學(xué)習(xí)和適應(yīng)環(huán)境,像人類一樣在工業(yè)生產(chǎn)線、醫(yī)療手術(shù)臺(tái)上工作。

焦繼超說:“這是一次質(zhì)的躍遷,人形機(jī)器人的iPhone時(shí)刻到來了。”

讓機(jī)器人像人一樣說話

機(jī)器人“成為”人的第一關(guān)是語(yǔ)言。

起初,優(yōu)必選嘗試使用傳統(tǒng)的處理方法和AI小模型來實(shí)現(xiàn)這一目標(biāo):先給機(jī)器人預(yù)設(shè)一些關(guān)鍵詞,然后再利用傳統(tǒng)的小語(yǔ)言模型(SLM)進(jìn)行語(yǔ)義分割,通過識(shí)別關(guān)鍵詞來讓機(jī)器人觸發(fā)相應(yīng)的指令。

焦繼超將這個(gè)過程描述為“類似于條件反射”。盡管這種方法能夠讓機(jī)器人熟悉特定的語(yǔ)言命令,但對(duì)于未預(yù)設(shè)過的關(guān)鍵詞和命令,機(jī)器人很難給出正確的反應(yīng)。

為了擴(kuò)展機(jī)器人的“詞匯量”,企業(yè)不得不通過編程不斷添加預(yù)設(shè)程序和關(guān)鍵詞,以模擬更多的條件反射,讓機(jī)器人能響應(yīng)更多的人類語(yǔ)言。這一過程既煩瑣又復(fù)雜,涉及數(shù)據(jù)采集、標(biāo)注、訓(xùn)練以及驗(yàn)證推理等多個(gè)環(huán)節(jié),工程師們還需要不斷地調(diào)整參數(shù)。

盡管團(tuán)隊(duì)付出了巨大的努力,但機(jī)器人在語(yǔ)言理解上始終存在局限,無法達(dá)到與人類自然對(duì)話的水平。反應(yīng)慢、缺乏思考和推理能力,對(duì)于預(yù)設(shè)之外的新情況和問題,機(jī)器人往往無法給出合適的反應(yīng)。焦繼超說,這無疑給團(tuán)隊(duì)帶來了巨大的挑戰(zhàn)。

面對(duì)這種情況,他們轉(zhuǎn)而探索另一種技術(shù)知識(shí)圖譜技術(shù)。他們構(gòu)建了一個(gè)龐大的知識(shí)圖譜庫(kù),希望通過命中關(guān)鍵詞來搜索數(shù)據(jù)庫(kù)中的知識(shí),并據(jù)此生成回答。這種方法在一定程度上提升了機(jī)器人對(duì)自然語(yǔ)言的理解能力,但仍然存在局限性,機(jī)器人的回答往往預(yù)設(shè)性強(qiáng),缺乏靈活性和人性化,這與團(tuán)隊(duì)追求的自然、流暢的人機(jī)交互體驗(yàn)仍有很大的差距。

經(jīng)歷了一系列的嘗試后,焦繼超認(rèn)識(shí)到,要實(shí)現(xiàn)真正的突破,需要更先進(jìn)的技術(shù)。

機(jī)器人有了嘴巴、眼睛和耳朵

2021年底,OpenAI發(fā)布了具有里程碑意義的ChatGPT模型。ChatGPT以其強(qiáng)大的語(yǔ)言理解和生成能力引起了廣泛關(guān)注,它在自然語(yǔ)言處理技術(shù)上取得了飛躍式的進(jìn)步,開啟了人工智能的“大模型時(shí)代”。

商湯科技智能產(chǎn)業(yè)研究院院長(zhǎng)田豐對(duì)經(jīng)濟(jì)觀察報(bào)說,在IT時(shí)代,人類通過編程語(yǔ)言開發(fā)軟件、實(shí)現(xiàn)人機(jī)對(duì)話,而大語(yǔ)言模型的出現(xiàn)簡(jiǎn)化了這一流程,通過“人類母語(yǔ)”就能實(shí)現(xiàn)人機(jī)對(duì)話,這顯著降低了軟硬件開發(fā)和使用AI的門檻。

焦繼超首次使用ChatGPT時(shí)感到非常興奮,因?yàn)檫@種技術(shù)為解決機(jī)器人的語(yǔ)言交互問題提供了新的可能性。2022年初,焦繼超團(tuán)隊(duì)通過開源的方式引入了大語(yǔ)言模型,并嘗試將其與機(jī)器人現(xiàn)有的系統(tǒng)集成,利用多年積累的數(shù)據(jù)和場(chǎng)景來提升機(jī)器人的語(yǔ)言交互能力。

結(jié)果令焦繼超驚喜,他舉例稱,當(dāng)用戶說“我有口腔潰瘍”時(shí),機(jī)器能夠理解其含義并推理出“緩解癥狀需要補(bǔ)充維生素”“水果里有維生素”,然后詢問用戶要不要吃水果,在用戶同意的前提下去為其拿取水果。

田豐說,AI大模型不僅能讀懂語(yǔ)言、文字,還能讀懂語(yǔ)氣、情緒,能敏感地捕捉和理解上下文信息。

但這還遠(yuǎn)遠(yuǎn)不夠。人類有五官,大語(yǔ)言模型僅僅作為機(jī)器人的語(yǔ)言系統(tǒng)而存在,機(jī)器人還需要多種感官能力。焦繼超注意到,處理圖像和語(yǔ)音的大模型也相繼被開發(fā)出來,這些模型的能力可以處理和理解機(jī)器人采集的視頻、音頻,像人的大腦能夠處理眼睛和耳朵收集到的外部信息一樣。

2023年9月,OpenAI根據(jù)ChatGPT進(jìn)一步發(fā)明出了具備圖像和語(yǔ)音識(shí)別功能的GPT-4V,這意味著AI開始模擬人腦中復(fù)雜的神經(jīng)網(wǎng)絡(luò)來識(shí)別圖像和聲音,并將其轉(zhuǎn)換為語(yǔ)言指令。

田豐稱,正如人類有視覺、聽覺、觸覺、味覺、嗅覺五感,這種多模態(tài)大模型帶來了多種感知能力。

焦繼超和團(tuán)隊(duì)運(yùn)用技術(shù)的手段將“嘴巴”“眼睛”和“耳朵”串聯(lián)起來,并實(shí)現(xiàn)互通協(xié)作,機(jī)器人變得能看懂、聽懂人類的指令,也就能夠更加準(zhǔn)確地執(zhí)行命令。

焦繼超說,當(dāng)一個(gè)機(jī)器人具備了類似人類的眼睛,只要它進(jìn)門在你家轉(zhuǎn)一圈,觀察一下,便會(huì)自主在“大腦”中形成一幅房屋的空間格局與陳設(shè)的地圖,過程中無須人為干預(yù),而在過去,一個(gè)機(jī)器人觀察環(huán)境之后,還需要工程師做大量的建模和編程,才能在機(jī)器人的“大腦”中“畫”出一幅空間地圖,為后期的行動(dòng)提供導(dǎo)航。

機(jī)器人的避障反應(yīng)也更快了。

北京云跡科技股份有限公司(下稱“云跡科技”)CPO李全印稱,遇到障礙物的機(jī)器人的反應(yīng)步驟非常多,要判斷是不是要減速、是不是要躲開、向右躲還是向左躲,F(xiàn)在,公司運(yùn)用AI大模型的強(qiáng)大計(jì)算能力和更精細(xì)化的算法,開發(fā)了先進(jìn)的動(dòng)態(tài)避障算法,能夠讓機(jī)器人理解環(huán)境,并快速作出正確決策。

然而,要將語(yǔ)言、視覺、語(yǔ)音等多類大模型集成在一起,組成一個(gè)完整的大腦,這并非易事。

田豐稱,多模態(tài)大模型的挑戰(zhàn)之一是如何統(tǒng)一處理差異化的跨模態(tài)數(shù)據(jù),以保證時(shí)間的同步和空間的對(duì)齊。

焦繼超說,人類感官收集信息的路徑是通過語(yǔ)言形式傳輸?shù)酱竽X,機(jī)器人也應(yīng)該按照這種思路來串聯(lián)它的“眼睛”“耳朵”和“嘴巴”。因此,團(tuán)隊(duì)將不同維度的信息接入到AI大模型的框架里,機(jī)器人看到的圖像和聽到的聲音以語(yǔ)言的形式傳入“大腦”,并讓“大腦”中的語(yǔ)言、視覺、聽覺系統(tǒng)彼此協(xié)作,以更好地作出決策。

僅僅能看、能聽、能說還不夠,人工智能距離真正模擬出人類大腦,還有最后一步要走使用工具、自主執(zhí)行任務(wù)。

田豐稱,當(dāng)人工智能技術(shù)從單模態(tài)發(fā)展到多模態(tài),并可以將AI大模型、記憶庫(kù)、執(zhí)行體組合到一起的時(shí)候,就進(jìn)化出了一種新形態(tài)智能體(AIAgent)。

在形態(tài)上,智能體可以是純軟件的,也可以嵌入到硬件中。相較于AI大模型,它的升級(jí)之處在于進(jìn)一步模擬了人類的決策和行動(dòng)過程。如果AI大模型是一臺(tái)發(fā)動(dòng)機(jī),智能體就是一輛汽車。智能體不僅依賴于AI大模型的計(jì)算能力,還需要調(diào)用各種工具和執(zhí)行部件來完成任務(wù)。

解決人的問題

李全印總結(jié)了機(jī)器人干活的三層“境界”:第一層是“你說啥我干啥”,第二層是“你稍微表達(dá)一下,我就知道要干啥”,第三層就是“你啥也不說,就我來干”。人工智能技術(shù)正讓機(jī)器人進(jìn)入第三層“境界”,此時(shí)的機(jī)器人已經(jīng)非常接近人類的思考和行動(dòng)能力了。

借助AI大模型和超強(qiáng)算力的力量,一些機(jī)器人在服務(wù)人類方面解鎖了更多技能。2023年,云跡科技開發(fā)了一款用于酒店的多功能服務(wù)機(jī)器人,與上一代產(chǎn)品不同的是,新款機(jī)器人不僅會(huì)干活,而且可以自己用工具干活。

根據(jù)云跡科技提供數(shù)據(jù),2024年2月,該公司的智能客服機(jī)器人和物理機(jī)器人“合作”為某一家酒店干了將近1000件工作,客人在客房?jī)?nèi)通過電話、二維碼等方式向智能客服提出需求,智能客服把命令下給物理機(jī)器人,由物理機(jī)器人取物、送物,中間不需要人參與。

云跡科技生產(chǎn)的數(shù)萬臺(tái)機(jī)器人應(yīng)用在全球四十多個(gè)國(guó)家和地區(qū)的酒店,這些酒店對(duì)其提出的要求是:干活,干更多種類的活。

2023年,云跡科技開發(fā)了一款用于酒店的多功能服務(wù)機(jī)器人,與上一代產(chǎn)品不同的是,新款機(jī)器人可以自己用工具干活了。例如接到清掃任務(wù),會(huì)主動(dòng)找到吸塵器的功能倉(cāng)進(jìn)行組合,然后走到相應(yīng)的區(qū)域進(jìn)行清掃。按照這個(gè)思路,它還可以收衣服、收垃圾。

李全印認(rèn)為,這是一個(gè)巨大的進(jìn)步,它讓機(jī)器人具備了人的智慧使用工具。“過去,你讓機(jī)器人去掃地,它是聽不懂的,你必須拆解任務(wù),先拿吸塵器再掃地。但現(xiàn)在不同了,當(dāng)你讓機(jī)器人去掃地,它會(huì)自己將任務(wù)拆分成兩步,先去拿吸塵器再進(jìn)行清掃。”李全印稱。

李全印稱,過去需要人機(jī)合作的事情,未來機(jī)器人可以自閉環(huán)完成。過往在酒店場(chǎng)景中,清掃、收垃圾、消殺等很多任務(wù)都是機(jī)器人與服務(wù)員共同完成,現(xiàn)在,機(jī)器人可以自主執(zhí)行一個(gè)完整的任務(wù)。這一進(jìn)步意味著更多人力被解放,可以做更多有價(jià)值的事情。

他說,在不久的將來,機(jī)器人還能學(xué)會(huì)自己找活兒干。當(dāng)人類命令它把房間打掃干凈,機(jī)器人會(huì)感知環(huán)境里哪些是垃圾,知道需要拿垃圾桶收垃圾,然后拿吸塵器吸塵;機(jī)器人送過來一杯水,水灑了,它會(huì)感知到水灑了,并且知道再重新拿一杯水過來,甚至可以拿紙巾把水擦干凈。

焦繼超說,優(yōu)必選的最終目標(biāo)是讓機(jī)器人走入家庭并成為其中的一員,相比一般機(jī)器人,人形機(jī)器人需要給人帶來更加極致的交互體驗(yàn)。

在一些商用和養(yǎng)老服務(wù)的場(chǎng)景中,客戶希望機(jī)器人不僅能完成一些基礎(chǔ)工作,還能在情感上與客戶進(jìn)行更深入地互動(dòng),提供陪伴。

優(yōu)必選以人形機(jī)器人全棧式技術(shù)為基礎(chǔ),開展智能服務(wù)機(jī)器人解決方案的研發(fā)、設(shè)計(jì)、智能生產(chǎn)和商業(yè)化應(yīng)用。每年用超過一半的營(yíng)收投入到研發(fā)中。2023年,該公司營(yíng)收10.55億元,人工智能教育、智慧物流、消費(fèi)級(jí)機(jī)器人及其他硬件貢獻(xiàn)了93.7%的收入。

焦繼超稱,“隨著AI進(jìn)入大模型時(shí)代,技術(shù)的發(fā)展速度超出了我們的預(yù)期。這種加速的進(jìn)展可能意味著原本預(yù)計(jì)需要5年8年才能實(shí)現(xiàn)場(chǎng)景化落地,現(xiàn)在有可能被縮短至2年3年。”

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港