展會信息港展會大全

張宏江:所有產業(yè)都將被AIGC重寫,完全自動駕駛將有望實現(xiàn) |鈦媒體T-EDGE 2023
來源:互聯(lián)網   發(fā)布日期:2023-12-03 16:37:19   瀏覽:3495次  

導讀:美國工程院外籍院士、北京智源人工智能研究院學術顧問委員會主任 張宏江 12月1日,距離ChatGPT正式上線正好整整一周年,鈦媒體2023 T-EDGE全球創(chuàng)新大會再次邀請美國工程院外籍院士、北京智源人工智能研究院學術顧問委員會主任張宏江發(fā)表了關于AIGC的主題演講...

美國工程院外籍院士、北京智源人工智能研究院學術顧問委員會主任 張宏江

12月1日,距離ChatGPT正式上線正好整整一周年,鈦媒體2023 T-EDGE全球創(chuàng)新大會再次邀請美國工程院外籍院士、北京智源人工智能研究院學術顧問委員會主任張宏江發(fā)表了關于AIGC的主題演講。

而就在一年前的鈦媒體2022T-EDGE上,張宏江第一時間向業(yè)內做出了《ChatGPT和AIGC:人工智能(Al)大模型發(fā)展和機遇》的主題演講(詳見鈦媒體此前報道《關于ChatGPT爆火,張宏江這篇分享講透了,大模型正成為AI浪潮的重要拐點》),引發(fā)了全行業(yè)的巨大關注。

在張宏江的帶領下,智源研究院也屢次成為國際AI屆最受關注的中國AI大模型研究機構,推出了“中國首個+世界最大”悟道大模型,也是在中國最早引領開展大模型研究的機構,成為這一領域的“黃埔軍校”。

一年過去后,ChatGPT已經從最初的行業(yè)爆火,演變成了全社會爆火,而張宏江一年前的前瞻性判斷,也早已在這一年得到了驗證。今年12月1日,張宏江在鈦媒體2023T-EDGE的加州分會場,發(fā)表了《AI 大模型驅動產業(yè)新范式》的演講,進一步向我們講述了AIGC接下來可能對各大產業(yè)的影響。

張宏江表示,ChatGPT是人類第三波 AI 浪潮的“分水嶺”,迎來了“人工智能的 iPhone 時刻”。隨著GPT-3.5、GPT-4等技術迭代,人類首次迎來一個能夠精確理解語言邏輯的AI系統(tǒng)。

“如今的OpenAI,不只是一家純粹的 AI 技術公司,而且還是一家 AI 平臺公司。”張宏江在鈦媒體2023T-EDGE上表示。

張宏江還在演講中提到,“奇點”已經到來。AI 大模型作為基礎平臺,將會系統(tǒng)性推動所有產業(yè)進入新范式,成為下一個時代的“超級入口”,重寫所有軟件應用和產業(yè),提升每個領域的生產力。同時,沒有Al大模型的平臺公司不再會是平臺公司,新的產品、商業(yè)模式、盈利模式和創(chuàng)業(yè)機會也將到來。此外,利用GPTCopilot等技術作為未來的組織形式,公司效率極大提升,組織形式也將發(fā)生根本變化。

“大模型將重塑所有的產業(yè),提升所有領域的生產力,并在不斷改進和自主化現(xiàn)有的模型下,有望改變整個產業(yè)形態(tài)。”張宏江強調,未來1.5年-2年,人類或將可以看到大規(guī)模商業(yè)落地曙光。

當然,張宏江也坦言,大模型“幻覺”是目前比較重要的問題之一。盡管最新GPT-4在“幻覺”方面有了很大改善,相較ChatGPT提升40%,但“幻覺”率依然能達到10%-14%左右。所以,未來企業(yè)和開發(fā)者需要持續(xù)改善大模型技術能力,從而推動其在產業(yè)場景中真正落地。

“我想強調的是,我們不要覺得今年我們有了一個大模型,在某些應用場景里已經做得很不錯了,從而忽略我們需要在通用大模型能力上的持續(xù)投入、持續(xù)改善和持續(xù)開發(fā)。否則,也許再過6個月、12個月,很多依賴大模型的應用將會因為無法達到用戶的期望值從而被用戶放棄。”張宏江表示,所有的軟件公司都必須擁抱大模型,包括軟件工具、應用服務等類型企業(yè),都需要啟用大模型重寫軟件。

展望未來,張宏江引述OpenAI的一項研究表示,80%美國人的工作都將受到 AI 技術影響,尤其是音頻生成、圖像生成等創(chuàng)造力的工作也將會被 AI 取代,這意味著高工資的“白領”群體受影響會更大。同時,AI 超過了85%或90%的人類考生水平,從而將讓法學、醫(yī)學等專業(yè)領域發(fā)展受到 AI 影響。

“大模型一定會對工作、人類未來產生影響。”張宏江提到,過去60年,人們經歷了“信息”、“智能”系統(tǒng)兩個時代,而未來人們還將同時擁有感知、理解、推理和自主驅動能力。AI 大模型不僅會替代“白領”工作,而且會驅動機器人、自動駕駛等領域的技術能力和體驗能力的提升。

“未來,人們將迎來‘自主智能’的世界。”張宏江在結尾表示。

12月1日-3日,2023T-EDGE大會以「新視野 新鏈接」為主題,邀請了近百位來自不同國家,不同領域的國際創(chuàng)新領袖分享嘉賓,設置了四十余場現(xiàn)場討論,從新一輪全球AI革命浪潮、產業(yè)鏈重塑、新一輪企業(yè)再全球化浪潮、全球化下的產業(yè)創(chuàng)新升級和投資新趨勢等維度,共同回顧過去一年的洞察與發(fā)展,展望未來的創(chuàng)新趨勢與經濟新格局。

以下為張宏江演講實錄,略經鈦媒體App編輯:

各位鈦媒體朋友們,大家早上好。非常高興參加2023年鈦媒體T-EDGE全球創(chuàng)新大會。

我今天想跟大家分享一下,大模型如何驅動產業(yè)的新的范式,如何改變整個人工智能(AI)產業(yè)鏈。

我今天的講座分成三個部分:

第一,我很快地回顧一下GPT所帶來的大模型熱潮,跟大家分享一下我在這背后的觀察與思考;

第二,我會花更多的時間,在大模型如何驅動產業(yè)新范式,如何改變今天的 AI 產業(yè),如何為所有應用帶來新的開發(fā)模式;

最后,和大家分享一下我對于大模型技術的展望,尤其是大模型將怎么改變技術發(fā)展趨勢和人們的生活。

ChatGPT是第三波 AI 浪潮的“分水嶺”

首先我們回顧一下,近70年前發(fā)展到現(xiàn)在,AI 技術共經歷了三波浪潮。

在十五年前,我們進入了以深度學習為代表的第三波 AI 浪潮,發(fā)展至三年前,無論是企業(yè)應用還是算法,其實都已經到了一個瓶頸,尤其在產業(yè)方面,三年前就看到了投資 AI 技術的比例到達低點。

這頁PPT其實是我三年前做的。當時我們看到Transformer所帶來的一系列新的 AI 算法、AI 架構,尤其是GPT3.0大模型所引發(fā)的新技術進步。因此,當時,我們認為,大模型會成為 AI 第三次浪潮的一個新拐點。

如今,我們看到ChatGPT于2022年底發(fā)布后,風靡全球,真正成為這一波 AI 浪潮的分水嶺,迎來了“人工智能的 iPhone 時刻”。

如果我們回憶一下移動互聯(lián)網幾十年的發(fā)展。雖然從2002年之前(20世紀90年代)就開始研發(fā)智能手機,但真正進入廣泛應用,進入真正意義上的移動互聯(lián)網時代,實際上是以喬布斯在2007年發(fā)布第一代iPhone為標志事件。再往前看類似的就是PC互聯(lián)網時代,網景瀏覽器的誕生,我想在座的很多朋友可能那個時候還沒出生。

iPhone的出現(xiàn),標志著移動互聯(lián)網的普及和快速發(fā)展。而今天ChatGPT的出現(xiàn),正是新一輪 AI 快速發(fā)展的新拐點。

從數據來看,ChatGPT發(fā)布五天之后,用戶達到100萬,兩個月內月活躍用戶達到1億人。今天,ChatGPT平臺也有幾億人活躍用戶,成為歷史上發(fā)展最快的消費級應用。

無論是iPhone、抖音,這些明星產品,用戶量破億都需要一段長期過程,而ChatGPT只用了兩個月。一方面,說明了技術發(fā)展的加速,另一方面也標志著人類技術發(fā)展進入了一個非常重要的拐點。

那么,為什么GPT所代表的新一輪大模型進步如此之重要?GPT-4或ChatGPT是否標志著AGI(通用人工智能)時代來臨了?

在這里,我想借助一份微軟研究院發(fā)表的題為“AGI(通用人工智能)的火花:GPT-4的早期實驗”系統(tǒng)性研究論文,來看幾個例子,說明大模型的魔力,來說明今天以大模型為標志打的AGI 技術已經在許多方面接近人的智能,或者說是跟人一樣的智能能力。那么,如何定義人工智能?

該研究提到,人的 IQ 智力測試主要包括六個方面:推理、規(guī)劃、解決問題、抽象的思考、理解復雜的想法以及多模態(tài)與跨學科計算機中組合學習能力,這是人類智能的六大特點。而該團隊設計了一系列問題來考GPT-4,包括視覺、編碼、數學等問題,最終結論是:GPT-4是具有通用智能能力的。

有兩個點,讓我們對這一通用智能能力更加堅定。

首先,利用GPT-4,已經可以調用非常復雜的工具。人最獨特的就是具有調用工具的能力,而GPT-4恰恰做到了這一點,

譬如,這周我打算和朋友Luke一起到Contoso餐廳約一次晚餐,GPT接到這個指令之后調用日歷、Email應用給Luke,分別發(fā)送信息問她哪天有空并自動反饋給日歷,最終確定了周三晚上6點在Contoso餐廳見面,一切都通過GPT模型自動化完成。

第二個例子是,OpenAI的總裁在TED大會進行了一個現(xiàn)場演示,打算大會結束后吃一頓美味大餐,并讓GPT給他一些菜品推薦等建議。GPT-4 不僅給了他推薦出一些意大利風格的西餐,而且調用了DALLE工具,把這些菜畫出來。

另外,我們知道,在 AI 領域,自然語言處理和理解是一個“圣杯”。人類智能的一個核心區(qū)別在于,人有語言,可以寫文字,能夠通過語言描述自己的體驗、經歷和虛擬一些故事。

判斷AI智能水平的經典圖靈測試,本質上是人機對話測試即當人們和機器多次對話時,如果無法區(qū)別是人還是機器在進行回答,就意味著通過圖靈測試,具有人類智能。而ChatGPT,GPT-4恰恰通過了圖靈測試,意味著AGI具備了人的智能能力。

這種突破意味著,從古至今,世界首次擁有一個能夠精確理解人類語言邏輯的AI系統(tǒng)。這個系統(tǒng)不僅僅是簡單的應用學習,而是建立在語義理解的基礎上,具備推理和創(chuàng)造能力的 AI 系統(tǒng)。更可怕的是,隨著GPT-4模型的性能升級,自然語言邏輯能力亦隨之增強,意味著 AI 系統(tǒng)更具備通用 AI 能力。

那么,這是否也意味著“奇點”已經來臨?

2016年,DeepMind阿爾法狗(AlphaGo)讓所有人都很吃驚,利用 AI 技術AlphaGo打敗了韓國圍棋冠軍李世石。從某種意義上,AI 系統(tǒng)具備了一些所謂的“上帝視角”。AlphaGo的下一代系統(tǒng)AlphaZero不再從人類棋譜里面訓練,而是利用棋子布局和規(guī)則等數據與強化學習結合,從而贏得目標,其能力超越了人類,也就具備了“上帝視角”。

當人類看到 GPT 學習能力如此之強、演化速度如此之快,學習能力超越了人類的時刻,確實振奮于奇點已來。

大模型如何改變未來科技產業(yè)?

談完對GPT-4或大模型技術觀察和思考之后,下面來看一下大模型如何改變智能產業(yè),或者是幾乎所有的產業(yè)。

首先我說一下大模型。

如果只是把大模型或未來多模態(tài)模型作為一種技術(工具),其實是低估了這次技術突破。而實際上,大模型作為 AI 基礎平臺,將會系統(tǒng)性推動整個產業(yè)進入新的范式。

第一、它(大模型)決定了下一個超級入口。GPT不僅是 AI 模型,而且是超級計算機,或是一個超級系統(tǒng),重構了用戶和用戶之間的交互、軟件的執(zhí)行以及計算本身。模型就是產品,人機交互已經變得如此之容易。如果加上多模態(tài)的數據,如圖像或視頻,就能提升人與機器之間的多媒介交互能力。

第二、AI 模型將重寫所有軟件應用。今天大模型已經具備了這樣一個能力,未來在軟件中,大模型將會無處不在。但凡是需要智力的地方,大模型都能夠發(fā)揮它的作用,從而將重塑所有的產業(yè),提升所有領域的生產力,并在不斷改進和自主化現(xiàn)有的模型下,有望改變整個產業(yè)的形態(tài)。

第三、沒有AI大模型的平臺公司不再會是平臺公司。這意味著,未來將會有新的平臺、新的產品、新的贏家/輸家,也意味著有新的商業(yè)模型和創(chuàng)業(yè)機會,而且初創(chuàng)企業(yè)、企業(yè)生態(tài)系統(tǒng)也會因此重寫,新的生態(tài)會形成。

第四,談到效率的改善,一旦有了 AI 大模型,公司效率極大提升,組織形式將發(fā)生根本變化。未來,公司不僅有專業(yè)人員,還有Copilot(副駕駛),當大模型可以調用工具的時候,Copilot和Copilot之間彼此互相交互,人做事的效率會有很大提高,最終Copilot慢慢形成一種Auto-pilot,使得公司的組織形式不再是簡單把計算機當做工具,而是變成由Copilot主導的未來公司的組織形式,從而對于產業(yè)帶來更多變化。

其次,下面再往里面看。

首先,大模型將是 AI 應用的新的平臺,會帶來新生態(tài)。

大模型產業(yè)鏈中,最基儲最底層的還是 AI 芯片,無論英偉達的GPU(圖形處理器)芯片,還是其他的GPU,在此之上又一個云計算平臺大模型。而在這個平臺上,無論是閉源還是開源大模型,最后都會落地到場景,形成更垂直的運用。

這里我列了幾家美國公司例子。比如,OpenAI等公司目前都具備了大模型能力,也把大模型能力往外輸出。今年看,模型即服務(MaaS,Model as a Service),而未來,模型或將成為一種新的發(fā)展趨勢,從而將成為這些公司的市場競爭力。

最近舉行的OpenAI首屆開發(fā)者日上,奧特曼(Sam Altman)公布了一系列新的模型、功能和模式。很明顯看到,GPT-4不僅是一個模型,而且還是一個新的平臺,和GPT-4對話就可以生成新的工具,從大模型驅動變成了大模型產生各種軟件開發(fā)模式,從而可能將改變整個 AI 生態(tài)。

因此,如今的OpenAI,不只是一家純粹的 AI 技術公司,而且還是一家 AI 平臺公司。

我認為,所有的軟件公司都必須擁抱大模型,必須得啟用大模型來重寫軟件。不止是大公司,甚至小到做軟件工具、應用服務等類型的小企業(yè),都需要擁抱大模型。如今,大家都在焦慮看著,下一步OpenAI還會推出什么樣的應用,從而影響人類發(fā)展方向。這正是大模型作為一個新的平臺的力量所在。

第二個我想分享的是,大模型作為基礎平臺,會系統(tǒng)性推動AI產業(yè)進入新范式。

實際上,過去15年深度學習技術發(fā)展過程中,所有應用場景開發(fā)的模型都是小模型,比如做安防應用開發(fā)人臉識別專屬模型,做股票分析 AI 系統(tǒng)會做小垂直模型。那么如今,有了大模型之后,我們進入到從此前的專用模型,到通用模型新的 AI 時代,你不再需要為一個新的 App 開發(fā)一個模型,而是要用通用大模型經過微調、對齊,就能滿足你的需要,從而大大提高軟件開發(fā)能力。同時,未來,模型編程也會逐步變成自動化,開發(fā)成本大大降低。

我想給大家舉一個例子。最近我和以前一個微軟的同事聊起來,過去幾個月他看到 ChatGPT 模型的出現(xiàn)非常激動,并且基于 GPT模型,只用了三個人做了一系列 App產品。。

我當時問他,你們三個人完成的這么一系列App,如果沒有GPT的幫助,需要多少軟件工程師才能完成這么大的開放量?他們的回答是120個人。

我認為這個估算可信性很高。他是一位已經在軟件工程領域耕耘了二十多年的專業(yè)人士,從軟件工程師做到軟件架構師,再成為軟件開發(fā)管理者。從管幾個人到幾十個人,到幾百個人到幾千人,對軟件開發(fā)非常熟悉

從前需要120人次的軟件研發(fā)工作,現(xiàn)在只需三個人加上GPT就能夠完成。有效利用 GPT,可以設計出非常優(yōu)秀的架構、用戶界面和寫作產品。

因此,大模型不止帶來了新的智能應用開發(fā)模式,同時也會大大提升開發(fā)效率。

第三點我想講的是,AIGC(生成式人工智能)技術演化推動孿生、編輯、創(chuàng)作三大前沿能力發(fā)展。

我們認為,大模型已經解決了數字人、虛擬創(chuàng)作等技術難題,下面的問題就是不斷優(yōu)化,使得它效率更好,整個內容更加讓我們滿意,和人的價值觀對齊更好。我們認為,這些都已經算是相當成熟的技術被應用于市場上,比如文生圖、文字內容創(chuàng)造、寫代碼、音頻生成等。

今年我們可以看到,很多音頻生成都開始用大模型來做,比如趙本山說英文、讓外國人說中文等。這些音頻生成、語言翻譯、圖像生成技術都很成熟,因為過去大模型技術本身不斷改進,使得這些應用已經進入“成熟期”。

但是,大模型技術還有一個很重要的“幻覺”率的問題。無論是GPT-3.5還是GPT-4,幻覺率大概能有15%-20%,當然GPT-4有了很大改善(大概5%的改善),相較ChatGPT提升40%,但幻覺率依然有10%-14%左右,這還要加上其他性能等。

所以,我們需要持續(xù)改善大模型技術能力,從而在大模型加持下,才能將預期的應用真正的產業(yè)落地,真正的達到或超越用戶的期望值。如果我們不能夠將大模型技術持續(xù)改善,就可能出現(xiàn)以前技術瓶頸時期所經歷的同樣問題。換句話說,就是技術雖然有了很大的突破,但真正落地的時候,仍需要不斷解決客戶實際而具體的問題,當 AI 技術從高點落地而不能的時候,會使產業(yè)進入一個“蕭條期”。只有當我們的模型不斷改善,才能夠達到或超越用戶的期望值。

我想強調的是,我們不要覺得今年我們有了一個大模型,在某些應用場景里已經做得很不錯了,從而忽略我們需要在通用大模型能力上的持續(xù)投入、持續(xù)改善和持續(xù)開發(fā)。否則,也許再過6個月、12個月,很多依賴大模型的應用將會因為無法達到用戶的期望值從而被用戶放棄。

第四、下面來看一下利用大模型,哪些行業(yè)應用已經非常成熟了。大模型將催生哪些新物種?

實際上,比如內容文案、內容創(chuàng)作、會議記錄、客服、代碼生成等,過去5年、10年間聊天機器人產品一直無法過關,而今天有了大模型、自然語言技術提升,這些行業(yè)已經在快速成熟。在過去移動互聯(lián)網市場突飛猛進過程中,創(chuàng)造了比PC互聯(lián)網大很多的機會空間,催生了一系列原生應用,例如短視頻、滴滴打車、抖音,這些 App 是在PC互聯(lián)網無法實現(xiàn)的產品。

所以,未來我們能不能夠找到大模型原生應用,這是推廣大模型應用的時候需要解決的一個核心問題,比如可以考慮人性化交互、圖像效果升級改變等,從而催生 AI 原生應用。

第五點,AI 大模型將帶來新科學的新范式。

作為一直從事 AI 研究的從業(yè)者,我希望未來 AI 大模型能夠帶來科學研究的新范式。今年我們知道,AI for science(科學智能)領域已經是大家的公示,當一系列新技術的出現(xiàn),比如DeepMind的 AlphaFold 2預測了所有蛋白質結構。因此,未來我們不僅可看到結構的預測、藥品的設計、材料的設計,而且還會看到 AI 將會成為人類非常好的研究助理,甚至最終成為很好的研究者,讓 AI 幫助我們研究、設計新的 AI 系統(tǒng)。

這就是我們看到大模型帶來的新科學的新范式。除了AlphaFold2之外,更深層次說,大模型可以推動生命科學的發(fā)展,比如后續(xù)一系列可以期待的新的工具、新的應用,預測大分子結構,以及未來一系列新的生物分子結構的預測。所以,這就是未來我們可以預見到的大模型在科學方面的新應用。

所以,這就是未來我們可以預見到的大模型在科學方面的新應用。

展望未來:AI 大模型將使得人類進入“自主智能”世界

剛才,我講到大模型對于產業(yè)的應用,以及大模型的威力所在。那么最后,我們展望一下未來。

AI 到底能影響多少人的工作?今年3月,OpenAI和美國賓夕法尼亞大學的相關研究人員聯(lián)合發(fā)表了一篇論文,分析了 GPT 對美國勞動力的影響。

結論是,大約80%的美國勞動力,至少他們的工作中間有10%會受到影響;此外有約19%的人,其工作任務受影響的比例超過50%。與此同時,這種影響跨越了所有的工資范圍,不止是低工資人群,而且一年賺兩、三萬美金的高工資人群受 AI 影響會更大,那意味著“白領”群體的影響會更大。

具體有哪些領域會受到影響?我用這張GPT-4和GPT3.5在美國標準考試的結果圖片來解釋。你可以看到,大學、研究生、法學院、醫(yī)學院入學考試中,GPT-3.5都可以通過這種標準測試,但分數不是那么高;而如今用GPT-4考這類測試,大部分情況下能超過85%的參考人,某些領域正確率甚至達到90%,也就是說,AI 超過了85%或90%的人類考生,即超過了人類的平均數。

那么可想而知,在這些標準考試所代表的這些工作領域中,絕大多數工作一定會被大模型所取代,至少80%吧,這將會讓人們對未來更加焦慮。所以,大模型一定會對工作、人類未來產生影響。

我想分享一下奧特曼(Sam Altman)團隊的觀點,第一,未來大模型不僅是語言模型,更是多模態(tài)模型,會打開新的局面;第二,未來 AI 對產業(yè)、對于工作的影響深遠,AI 會代替未來許多工作。相對于此前認知的低技能工作開始替代,如今我們卻能看到,內容生成這種創(chuàng)造性工作也會 AI 所取代,原來希望 AI 技術可以掃地、做做飯、洗衣服、疊衣服、搶垃圾,結果卻最早替代繪畫、寫作、作曲等創(chuàng)造性工作。

那么這是否意味著,未來 AI 技術不能替代“體力活”?答案是否定的。下面,我們先看兩個例子:波士頓動力的機器人,以及谷歌用大模型驅動的未來機器人手臂。

首先是沒有大模型加持下的機器人形態(tài)。

左邊這個波士頓動力(Boston Dynamics)機器人視頻中,沒有大模型技術,機器人的所有動作都是實現(xiàn)編程好的,并不具備識別或自我規(guī)劃的能力;而右邊的機器人摔倒之后只是有一個智能的起立,隨后需要人主動分開才能很好坐上肩膀中。

我想跟大家說,這兩個機器人很棒,但他們沒有自我規(guī)劃的能力,不能識別這個場景所做事情。這就是今天沒有大模型驅動的機器人的狀態(tài)。

其次,談到未來的機器人技術能力,最近谷歌公布的機器人模型RT-2視頻,結合了基于GPT模型的新的工作能力和規(guī)劃能力,這屬于新的技術創(chuàng)新。

此前,機器人只是能夠聽從人們的單一指令,如輸入把可樂瓶扔掉。而今天,基于大模型能力,新的機器人可以把文字命令轉化成一系列的動作,其不僅能聽懂復雜指令,而且還能把指令進行思考,并做自我規(guī)劃能力。比如人指令機器人抓住桌面上“已經滅絕的動物”,隨后機器人就思考哪些動物屬于已經滅絕的動物,最后根據規(guī)劃把恐龍抓了出來。

這就是多模態(tài)大模型與機器人之間的結合。未來的機器人不僅識別周圍環(huán)境,還能自我識別目標,并利用大模型推理,最終識別目標。換句話說,今天人類擁有的機器人已經有“理解”的能力,而這個能力來源于大模型。

再次,我們下面看智源研究院團隊作的一項研究工作。

我們培訓了一個機械手臂類型的機器人,使其能夠開門。實驗過程中,在沒有大模型的情況下,機械手只能執(zhí)行被教給它的特定動作,如開抽屜門或拿起鍋蓋,所以當機械手面臨微波爐門時,它遇到了新的場景和問題:它無法用門把手打開微波爐的門;但由于擁有多模態(tài)大模型,機械手能夠根據微波爐手冊的描述,重新規(guī)劃行為,按下底部按鈕來打開微波爐。

需要指出的是,這個過程中,機械手并沒有被人告知要按按鈕,而是通過大模型進行推理和思考得出解決方案。這表明,未來的機器人將通過大模型進行少量訓練后,能夠做出以前未經過訓練的動作,而這些知識都來自于大模型。

所以,從另一個角度來看,大模型是機器人行業(yè)的一個“分水嶺”,當機器人擁有大模型,尤其是多模態(tài)大模型的能力,從而可以思考、推理、規(guī)劃更多的工作任務,對此有了事物的更多可能性。

最后我們談談,如果機器人利用大模型能做到更多的工作能力,未來自動駕駛是否也能具備更多自我規(guī)劃和推理能力?

我們認為,隨著大模型的加持,自動駕駛行業(yè)也將會被“重寫”。

實際上,人在開車的時候,并非所有的場景都已經在考駕照的老師指導下學習過,但人們可以在各地正常按交規(guī)駕駛。那么看今天的自動駕駛,只是能夠在一個地點需要數據訓練之后才能開車,比如北京的亦莊、上海浦東等地。我認為,未來基于GPT大模型技術,這件(每個新城市都需要三個月的重新訓練)事情將不需要再做了,未來的自動駕駛應該會被大模型“重寫”,基于大模型的自動駕駛技術具備自我推理、自我規(guī)劃等能力,從而今天所說的新的極端情況(corner case)、新的路況不再成為自動駕駛系統(tǒng)在一個地方落地的障礙。

那么可以想象,在虛擬世界中模擬自動駕駛的過程,可以解決很多數據量不夠等問題,這事一個非常有意義的研究,這也是智源研究院推動的一個新的研究。

總結來說,在大模型技術加持下,未來的機器人將從通用走向多智能體agent下的“行動智能”(自主智能)時代。

此次演講的最后,我們回顧一下整個IT技術發(fā)展的60年,主要分以下三個階段。

第一代是“信息”系統(tǒng)時代。無論是互聯(lián)網,還是IT系統(tǒng),都是在獲取信息、收集信息,傳輸和處理信息;

第二代是“智能”系統(tǒng)時代。我們不再只是收集信息,而是將把信息變成智能,從而幫助我們形成智能系統(tǒng);

未來我們將會進入第三個時代:行動智能時代。當你能夠感知世界、理解世界,推理世界之后,未來世界還將擁有自主的驅動行動能力。當然,這也是機器人的未來、自動駕駛的未來。

有了這些之后,AI 不止會替代很多人類的所謂“白領”工作,未來整個人類所從事的行為,都會被 AI 軟件或未來機器人所取代,這就是未來的“自主智能”世界。謝謝大家。(本文獨家首發(fā)鈦媒體App)

贊助本站

人工智能實驗室
相關內容
AiLab云推薦
推薦內容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港