展會信息港展會大全

數據稀缺阻礙具身智能進步?頂尖科學家拋出方案:“大模型+機器視覺”實現零樣本操控機器人
來源:互聯(lián)網   發(fā)布日期:2023-07-14 19:28:53   瀏覽:14640次  

導讀:《科創(chuàng)板日報》7月11日訊(編輯 宋子喬) 通過嵌入大語言模型,機器人變得更加智能,將視覺模型也堆上去,機器人會有怎樣的提升呢? AI科學家李飛飛帶領的團隊日前發(fā)布了具身智能最新成果 :大模型接入機器人,把復雜指令轉化成具體行動規(guī)劃,人類可以很隨意...

《科創(chuàng)板日報》7月11日訊(編輯 宋子喬)通過嵌入大語言模型,機器人變得更加智能,將視覺模型也堆上去,機器人會有怎樣的提升呢?

AI科學家李飛飛帶領的團隊日前發(fā)布了具身智能最新成果:大模型接入機器人,把復雜指令轉化成具體行動規(guī)劃,人類可以很隨意地用自然語言給機器人下達指令。更重要的是,通過將LLM(大語言模型)+VLM(視覺語言模型)結合在一起,機器人與環(huán)境進行交互的能力進一步提升,無需額外數據和訓練便可完成任務。

李飛飛團隊將該系統(tǒng)命名為VoxPoser,相比傳統(tǒng)方法需要進行額外的預訓練,這個方法讓機器人在零樣本的前提下完成了,解決了機器人訓練數據稀缺的問題。

李飛飛是華裔女科學家、世界頂尖的AI專家,現為美國斯坦福大學終身教授、斯坦福大學人工智能實驗室主任,曾任谷歌副總裁和谷歌云首席科學家。前Open AI研究員、曾擔任特斯拉人工智能和自動駕駛視覺總監(jiān)的Andrej Karpathy便是其得意弟子。

李飛飛研究領域涉及計算機視覺、機器學習、深度學習、認知神經科學等,而近年來其關注的重點聚焦在AI智能體,即具身智能。在她看來,計算機視覺未來的重點方向就是具身智能,她認為,具身AI可能會給我們帶來一次重大的轉變,從識別圖像等機器學習的簡單能力,轉變到學習如何通過多個步驟執(zhí)行復雜的類人任務,如制作煎蛋卷。

不僅能聽懂人話 還不需要額外數據和訓練

回到VoxPoser,為什么說它是具身智能領域的一大突破?當然不是因為李飛飛本人的學術地位。

VoxPoser解決了機器人訓練的一大難題數據稀缺。

VoxPoser的研究工作中,通過將LLM(大語言模型)+VLM(視覺語言模型)結合在一起,可實現“人類自然語言輸入代碼生成反饋給機器人機器人收到指令并規(guī)劃路徑最終完成任務”。

用自然語言(打開上面的抽屜,小心花瓶。┙o機器人下達指令后機器人完成

這個流程的意義在于,機器人的交互能力大大提高,通過LLM+VLM擁有了眼睛和理解力,相當于擁有了人類一樣學習能力,即從現實環(huán)境中收集數據實時學習,而不是依賴于提前錄入的數據庫“遇題找答案”。

李飛飛團隊也表示,這些操作均不需要進行任何訓練或使用基本操作,只要掌握了以上基本流程,就可以完成任何給定任務,實現了在真實世界中的零樣本機器人操縱。

可操作的物體是開放的,不用事先劃定范圍,開瓶子、按開關、拔充電線都能完成

在數據對機器學習的重要性和數據獲得的難度上,李飛飛有著十足的話語權。她在2006主導構建的ImageNet數據集是世界首個用于計算機視覺算法的大規(guī)模人工標注照片數據集,它包含了超千萬張有標簽的圖像,可以用來訓練復雜的機器學習模型,被譽為改變人工智能歷史的數據集。但這些數據的收集、處理工作異常艱巨,來自全球167個國家近5萬名工作者以眾包的方式花費三年時間才完成。

如何解決訓練數據稀缺的難題,將成為具身智能乃至人工智能發(fā)展過程中的第一大攔路虎。

在2022年的論文中,李飛飛旗幟鮮明地表示,隨著人工智能的成熟,人工智能模型的建立正變得越來越容易,包括亞馬遜、谷歌和微軟在內的公司都提供自動機器學習(AutoML)產品,允許用戶在自己的數據上建立最先進的人工智能模型,而無需編寫任何代碼。但由于規(guī)劃和注釋的成本,為人工智能創(chuàng)建數據集仍然是一個主要的痛點,創(chuàng)建適當的數據集和數據管道以開發(fā)和評估AI模型越來越成為最大的挑戰(zhàn)。

VoxPoser目前還存在著一定的局限性,它依賴于外部感知模塊,仍需要為嵌入的大模型手動輸入提示詞,仍需要通用的動力學模型來完成更豐富的動作等。

不過,學術界、業(yè)界對此議論紛紛。一位前微軟研究員評價,這項研究走在了人工智能系統(tǒng)最重要和最復雜的前沿。另有DeepMind研究員、人形機器人初創(chuàng)公司Figure創(chuàng)始人等為這項研報“點贊”。

(科創(chuàng)板日報 宋子喬)

贊助本站

人工智能實驗室
相關內容
AiLab云推薦
推薦內容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港