當(dāng)前位置：人工智能實(shí)驗(yàn)室> 機(jī)器人 > AI大腦讓機(jī)器人更像人了

AI大腦讓機(jī)器人更像人了
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-06-03 09:09:35 瀏覽：5043次

導(dǎo)讀：經(jīng)濟(jì)觀察報(bào) 記者沈怡然我口渴了。需不需要我給你倒杯水？這是一段人類與機(jī)器人之間的對(duì)話。焦繼超首次聽到這段對(duì)話時(shí)非常激動(dòng)，因?yàn)橐酝鶛C(jī)器人是不會(huì)這樣回應(yīng)的，機(jī)器人可能會(huì)嘗試解釋口渴的原因，或者干脆沒有任何反應(yīng)。焦繼超是深圳市優(yōu)必選科技股份有...

經(jīng)濟(jì)觀察報(bào) 記者沈怡然 “我口渴了。”“需不需要我給你倒杯水？”

這是一段人類與機(jī)器人之間的對(duì)話。焦繼超首次聽到這段對(duì)話時(shí)非常激動(dòng)，因?yàn)橐酝鶛C(jī)器人是不會(huì)這樣回應(yīng)的，機(jī)器人可能會(huì)嘗試解釋口渴的原因，或者干脆沒有任何反應(yīng)。

焦繼超是深圳市優(yōu)必選科技股份有限公司（09880.HK，下稱“優(yōu)必選”）的科技副總裁、研究院執(zhí)行院長(zhǎng)。他說，過去，即使一個(gè)機(jī)器人詞匯量再大，也無法真正聽懂人類的語(yǔ)言，只會(huì)響應(yīng)預(yù)設(shè)的關(guān)鍵詞。這種情況在實(shí)際互動(dòng)中的局限非常明顯，例如，機(jī)器人能理解具體的命令“給我倒杯水”，但無法理解更抽象地表述“我口渴了”。

焦繼超說：“即使是三歲的小孩也知道‘口渴’意味著需要喝水。”2016年，優(yōu)必選啟動(dòng)了第一代人形機(jī)器人的研發(fā)工作。盡管研發(fā)團(tuán)隊(duì)能夠讓機(jī)器人的骨架和關(guān)節(jié)實(shí)現(xiàn)非常精準(zhǔn)地運(yùn)動(dòng)，但提升其“大腦”的智能性始終是個(gè)難題。

機(jī)器人之所以能夠完成這段對(duì)話，是因?yàn)樗捎昧讼馛hatGPT（OpenAI研發(fā)的一款聊天機(jī)器人程序）這樣的人工智能大型語(yǔ)言模型。

大語(yǔ)言模型技術(shù)第一次成功模擬了人類的語(yǔ)言系統(tǒng)，讓機(jī)器人實(shí)現(xiàn)與人類自然對(duì)話。AI（人工智能）大模型技術(shù)的快速更新又讓機(jī)器人陸續(xù)擁有了類似人類的“眼睛”和“耳朵”等感官。通過視覺和語(yǔ)音大模型，機(jī)器人能夠更好地感知和理解周圍環(huán)境。當(dāng)大模型演進(jìn)到更高級(jí)的階段，不僅能夠處理和響應(yīng)各種信息，還能夠自主決策和執(zhí)行任務(wù)，模擬出越來越接近人類大腦的功能。

人工智能技術(shù)起源于20世紀(jì)50年代，它朝著模仿人類大腦的方向演進(jìn)了七十多年，卻始終游走于數(shù)字世界；機(jī)器人技術(shù)起源于更早的20世紀(jì)20年代，并經(jīng)歷了超過一個(gè)世紀(jì)的發(fā)展，機(jī)器人已經(jīng)擁有了靈活的身軀和骨架，但一直未能獲得一個(gè)聰明的大腦。

在長(zhǎng)期發(fā)展和“雙向奔赴”后，這兩大技術(shù)終于在當(dāng)前的時(shí)間點(diǎn)交匯，這讓人工智能以實(shí)體之軀步入現(xiàn)實(shí)，去觸摸和改變世界；而機(jī)器人也不再只是執(zhí)行簡(jiǎn)單命令的機(jī)械，而是變得能夠思考、學(xué)習(xí)和適應(yīng)環(huán)境，像人類一樣在工業(yè)生產(chǎn)線、醫(yī)療手術(shù)臺(tái)上工作。

焦繼超說：“這是一次質(zhì)的躍遷，人形機(jī)器人的iPhone時(shí)刻到來了。”

讓機(jī)器人像人一樣說話

機(jī)器人“成為”人的第一關(guān)是語(yǔ)言。

起初，優(yōu)必選嘗試使用傳統(tǒng)的處理方法和AI小模型來實(shí)現(xiàn)這一目標(biāo)：先給機(jī)器人預(yù)設(shè)一些關(guān)鍵詞，然后再利用傳統(tǒng)的小語(yǔ)言模型（SLM）進(jìn)行語(yǔ)義分割，通過識(shí)別關(guān)鍵詞來讓機(jī)器人觸發(fā)相應(yīng)的指令。

焦繼超將這個(gè)過程描述為“類似于條件反射”。盡管這種方法能夠讓機(jī)器人熟悉特定的語(yǔ)言命令，但對(duì)于未預(yù)設(shè)過的關(guān)鍵詞和命令，機(jī)器人很難給出正確的反應(yīng)。

為了擴(kuò)展機(jī)器人的“詞匯量”，企業(yè)不得不通過編程不斷添加預(yù)設(shè)程序和關(guān)鍵詞，以模擬更多的條件反射，讓機(jī)器人能響應(yīng)更多的人類語(yǔ)言。這一過程既煩瑣又復(fù)雜，涉及數(shù)據(jù)采集、標(biāo)注、訓(xùn)練以及驗(yàn)證推理等多個(gè)環(huán)節(jié)，工程師們還需要不斷地調(diào)整參數(shù)。

盡管團(tuán)隊(duì)付出了巨大的努力，但機(jī)器人在語(yǔ)言理解上始終存在局限，無法達(dá)到與人類自然對(duì)話的水平。反應(yīng)慢、缺乏思考和推理能力，對(duì)于預(yù)設(shè)之外的新情況和問題，機(jī)器人往往無法給出合適的反應(yīng)。焦繼超說，這無疑給團(tuán)隊(duì)帶來了巨大的挑戰(zhàn)。

面對(duì)這種情況，他們轉(zhuǎn)而探索另一種技術(shù)知識(shí)圖譜技術(shù)。他們構(gòu)建了一個(gè)龐大的知識(shí)圖譜庫(kù)，希望通過命中關(guān)鍵詞來搜索數(shù)據(jù)庫(kù)中的知識(shí)，并據(jù)此生成回答。這種方法在一定程度上提升了機(jī)器人對(duì)自然語(yǔ)言的理解能力，但仍然存在局限性，機(jī)器人的回答往往預(yù)設(shè)性強(qiáng)，缺乏靈活性和人性化，這與團(tuán)隊(duì)追求的自然、流暢的人機(jī)交互體驗(yàn)仍有很大的差距。

經(jīng)歷了一系列的嘗試后，焦繼超認(rèn)識(shí)到，要實(shí)現(xiàn)真正的突破，需要更先進(jìn)的技術(shù)。

機(jī)器人有了嘴巴、眼睛和耳朵

2021年底，OpenAI發(fā)布了具有里程碑意義的ChatGPT模型。ChatGPT以其強(qiáng)大的語(yǔ)言理解和生成能力引起了廣泛關(guān)注，它在自然語(yǔ)言處理技術(shù)上取得了飛躍式的進(jìn)步，開啟了人工智能的“大模型時(shí)代”。

商湯科技智能產(chǎn)業(yè)研究院院長(zhǎng)田豐對(duì)經(jīng)濟(jì)觀察報(bào)說，在IT時(shí)代，人類通過編程語(yǔ)言開發(fā)軟件、實(shí)現(xiàn)人機(jī)對(duì)話，而大語(yǔ)言模型的出現(xiàn)簡(jiǎn)化了這一流程，通過“人類母語(yǔ)”就能實(shí)現(xiàn)人機(jī)對(duì)話，這顯著降低了軟硬件開發(fā)和使用AI的門檻。

焦繼超首次使用ChatGPT時(shí)感到非常興奮，因?yàn)檫@種技術(shù)為解決機(jī)器人的語(yǔ)言交互問題提供了新的可能性。2022年初，焦繼超團(tuán)隊(duì)通過開源的方式引入了大語(yǔ)言模型，并嘗試將其與機(jī)器人現(xiàn)有的系統(tǒng)集成，利用多年積累的數(shù)據(jù)和場(chǎng)景來提升機(jī)器人的語(yǔ)言交互能力。

結(jié)果令焦繼超驚喜，他舉例稱，當(dāng)用戶說“我有口腔潰瘍”時(shí)，機(jī)器能夠理解其含義并推理出“緩解癥狀需要補(bǔ)充維生素”“水果里有維生素”，然后詢問用戶要不要吃水果，在用戶同意的前提下去為其拿取水果。

田豐說，AI大模型不僅能讀懂語(yǔ)言、文字，還能讀懂語(yǔ)氣、情緒，能敏感地捕捉和理解上下文信息。

但這還遠(yuǎn)遠(yuǎn)不夠。人類有五官，大語(yǔ)言模型僅僅作為機(jī)器人的語(yǔ)言系統(tǒng)而存在，機(jī)器人還需要多種感官能力。焦繼超注意到，處理圖像和語(yǔ)音的大模型也相繼被開發(fā)出來，這些模型的能力可以處理和理解機(jī)器人采集的視頻、音頻，像人的大腦能夠處理眼睛和耳朵收集到的外部信息一樣。

2023年9月，OpenAI根據(jù)ChatGPT進(jìn)一步發(fā)明出了具備圖像和語(yǔ)音識(shí)別功能的GPT-4V，這意味著AI開始模擬人腦中復(fù)雜的神經(jīng)網(wǎng)絡(luò)來識(shí)別圖像和聲音，并將其轉(zhuǎn)換為語(yǔ)言指令。

田豐稱，正如人類有視覺、聽覺、觸覺、味覺、嗅覺五感，這種多模態(tài)大模型帶來了多種感知能力。

焦繼超和團(tuán)隊(duì)運(yùn)用技術(shù)的手段將“嘴巴”“眼睛”和“耳朵”串聯(lián)起來，并實(shí)現(xiàn)互通協(xié)作，機(jī)器人變得能看懂、聽懂人類的指令，也就能夠更加準(zhǔn)確地執(zhí)行命令。

焦繼超說，當(dāng)一個(gè)機(jī)器人具備了類似人類的眼睛，只要它進(jìn)門在你家轉(zhuǎn)一圈，觀察一下，便會(huì)自主在“大腦”中形成一幅房屋的空間格局與陳設(shè)的地圖，過程中無須人為干預(yù)，而在過去，一個(gè)機(jī)器人觀察環(huán)境之后，還需要工程師做大量的建模和編程，才能在機(jī)器人的“大腦”中“畫”出一幅空間地圖，為后期的行動(dòng)提供導(dǎo)航。

機(jī)器人的避障反應(yīng)也更快了。

北京云跡科技股份有限公司（下稱“云跡科技”）CPO李全印稱，遇到障礙物的機(jī)器人的反應(yīng)步驟非常多，要判斷是不是要減速、是不是要躲開、向右躲還是向左躲�，F(xiàn)在，公司運(yùn)用AI大模型的強(qiáng)大計(jì)算能力和更精細(xì)化的算法，開發(fā)了先進(jìn)的動(dòng)態(tài)避障算法，能夠讓機(jī)器人理解環(huán)境，并快速作出正確決策。

然而，要將語(yǔ)言、視覺、語(yǔ)音等多類大模型集成在一起，組成一個(gè)完整的大腦，這并非易事。

田豐稱，多模態(tài)大模型的挑戰(zhàn)之一是如何統(tǒng)一處理差異化的跨模態(tài)數(shù)據(jù)，以保證時(shí)間的同步和空間的對(duì)齊。

焦繼超說，人類感官收集信息的路徑是通過語(yǔ)言形式傳輸?shù)酱竽X，機(jī)器人也應(yīng)該按照這種思路來串聯(lián)它的“眼睛”“耳朵”和“嘴巴”。因此，團(tuán)隊(duì)將不同維度的信息接入到AI大模型的框架里，機(jī)器人看到的圖像和聽到的聲音以語(yǔ)言的形式傳入“大腦”，并讓“大腦”中的語(yǔ)言、視覺、聽覺系統(tǒng)彼此協(xié)作，以更好地作出決策。

僅僅能看、能聽、能說還不夠，人工智能距離真正模擬出人類大腦，還有最后一步要走使用工具、自主執(zhí)行任務(wù)。

田豐稱，當(dāng)人工智能技術(shù)從單模態(tài)發(fā)展到多模態(tài)，并可以將AI大模型、記憶庫(kù)、執(zhí)行體組合到一起的時(shí)候，就進(jìn)化出了一種新形態(tài)智能體（AIAgent）。

在形態(tài)上，智能體可以是純軟件的，也可以嵌入到硬件中。相較于AI大模型，它的升級(jí)之處在于進(jìn)一步模擬了人類的決策和行動(dòng)過程。如果AI大模型是一臺(tái)發(fā)動(dòng)機(jī)，智能體就是一輛汽車。智能體不僅依賴于AI大模型的計(jì)算能力，還需要調(diào)用各種工具和執(zhí)行部件來完成任務(wù)。

解決人的問題

李全印總結(jié)了機(jī)器人干活的三層“境界”：第一層是“你說啥我干啥”，第二層是“你稍微表達(dá)一下，我就知道要干啥”，第三層就是“你啥也不說，就我來干”。人工智能技術(shù)正讓機(jī)器人進(jìn)入第三層“境界”，此時(shí)的機(jī)器人已經(jīng)非常接近人類的思考和行動(dòng)能力了。

借助AI大模型和超強(qiáng)算力的力量，一些機(jī)器人在服務(wù)人類方面解鎖了更多技能。2023年，云跡科技開發(fā)了一款用于酒店的多功能服務(wù)機(jī)器人，與上一代產(chǎn)品不同的是，新款機(jī)器人不僅會(huì)干活，而且可以自己用工具干活。

根據(jù)云跡科技提供數(shù)據(jù)，2024年2月，該公司的智能客服機(jī)器人和物理機(jī)器人“合作”為某一家酒店干了將近1000件工作，客人在客房?jī)?nèi)通過電話、二維碼等方式向智能客服提出需求，智能客服把命令下給物理機(jī)器人，由物理機(jī)器人取物、送物，中間不需要人參與。

云跡科技生產(chǎn)的數(shù)萬臺(tái)機(jī)器人應(yīng)用在全球四十多個(gè)國(guó)家和地區(qū)的酒店，這些酒店對(duì)其提出的要求是：干活，干更多種類的活。

2023年，云跡科技開發(fā)了一款用于酒店的多功能服務(wù)機(jī)器人，與上一代產(chǎn)品不同的是，新款機(jī)器人可以自己用工具干活了。例如接到清掃任務(wù)，會(huì)主動(dòng)找到吸塵器的功能倉(cāng)進(jìn)行組合，然后走到相應(yīng)的區(qū)域進(jìn)行清掃。按照這個(gè)思路，它還可以收衣服、收垃圾。

李全印認(rèn)為，這是一個(gè)巨大的進(jìn)步，它讓機(jī)器人具備了人的智慧使用工具。“過去，你讓機(jī)器人去掃地，它是聽不懂的，你必須拆解任務(wù)，先拿吸塵器再掃地。但現(xiàn)在不同了，當(dāng)你讓機(jī)器人去掃地，它會(huì)自己將任務(wù)拆分成兩步，先去拿吸塵器再進(jìn)行清掃。”李全印稱。

李全印稱，過去需要人機(jī)合作的事情，未來機(jī)器人可以自閉環(huán)完成。過往在酒店場(chǎng)景中，清掃、收垃圾、消殺等很多任務(wù)都是機(jī)器人與服務(wù)員共同完成，現(xiàn)在，機(jī)器人可以自主執(zhí)行一個(gè)完整的任務(wù)。這一進(jìn)步意味著更多人力被解放，可以做更多有價(jià)值的事情。

他說，在不久的將來，機(jī)器人還能學(xué)會(huì)自己找活兒干。當(dāng)人類命令它把房間打掃干凈，機(jī)器人會(huì)感知環(huán)境里哪些是垃圾，知道需要拿垃圾桶收垃圾，然后拿吸塵器吸塵；機(jī)器人送過來一杯水，水灑了，它會(huì)感知到水灑了，并且知道再重新拿一杯水過來，甚至可以拿紙巾把水擦干凈。

焦繼超說，優(yōu)必選的最終目標(biāo)是讓機(jī)器人走入家庭并成為其中的一員，相比一般機(jī)器人，人形機(jī)器人需要給人帶來更加極致的交互體驗(yàn)。

在一些商用和養(yǎng)老服務(wù)的場(chǎng)景中，客戶希望機(jī)器人不僅能完成一些基礎(chǔ)工作，還能在情感上與客戶進(jìn)行更深入地互動(dòng)，提供陪伴。

優(yōu)必選以人形機(jī)器人全棧式技術(shù)為基礎(chǔ)，開展智能服務(wù)機(jī)器人解決方案的研發(fā)、設(shè)計(jì)、智能生產(chǎn)和商業(yè)化應(yīng)用。每年用超過一半的營(yíng)收投入到研發(fā)中。2023年，該公司營(yíng)收10.55億元，人工智能教育、智慧物流、消費(fèi)級(jí)機(jī)器人及其他硬件貢獻(xiàn)了93.7%的收入。

焦繼超稱，“隨著AI進(jìn)入大模型時(shí)代，技術(shù)的發(fā)展速度超出了我們的預(yù)期。這種加速的進(jìn)展可能意味著原本預(yù)計(jì)需要5年8年才能實(shí)現(xiàn)場(chǎng)景化落地，現(xiàn)在有可能被縮短至2年3年。”