展會信息港展會大全

商湯科技聯(lián)合創(chuàng)始人:大模型讓自動駕駛擁有更好的可解釋性
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-07-13 10:10:44   瀏覽:8294次  

導讀:大模型的長處在于能夠找到新的解法,幫助解決新問題,一旦解決以后可以在狹窄領域產(chǎn)生大量數(shù)據(jù),重新訓練小模型。商湯推出了千億參數(shù)大模型,也會推出針對不同垂直領域的百億參數(shù)小模型,有的小模型甚至可以跑在終端上,成本更低。 商湯科技聯(lián)合創(chuàng)始人、首席...

大模型的長處在于能夠找到新的解法,幫助解決新問題,一旦解決以后可以在狹窄領域產(chǎn)生大量數(shù)據(jù),重新訓練小模型。商湯推出了千億參數(shù)大模型,也會推出針對不同垂直領域的百億參數(shù)小模型,有的小模型甚至可以跑在終端上,成本更低。

商湯科技聯(lián)合創(chuàng)始人、首席科學家、絕影智能汽車事業(yè)群總裁王曉剛。

今年4月,人工智能軟件企業(yè)商湯科技聯(lián)合上海人工智能實驗室等提出首個感知決策一體化的端到端自動駕駛大模型UniAD,開創(chuàng)了以全局任務為目標的自動駕駛大模型架構先河。

大模型+自動駕駛將帶來哪些駕駛體驗?在今年7月舉辦的2023世界人工智能大會期間,商湯科技聯(lián)合創(chuàng)始人、首席科學家、絕影智能汽車事業(yè)群總裁王曉剛在接受采訪時表示,自動駕駛的挑戰(zhàn)之一是AI模型的可解釋性不高,但大模型尤其是語言模型不單是輸出結果,還可以輸出邏輯推理過程來解釋原因,因此未來的自動駕駛系統(tǒng)將會有更好的可解釋性。

大模型研發(fā)不是跟隨國外成果

商湯科技以視覺算法起家,2019年起布局10億參數(shù)規(guī)模的視覺模型,今年4月發(fā)布“日日新”大模型體系,涵蓋千億參數(shù)中文大語言模型應用平臺“商量”、文生圖生成模型“秒畫”、AI數(shù)字人視頻生成平臺“如影”、3D內(nèi)容生成平臺“瓊宇”(場景生成)和“格物”(物體生成)等。

在“百模大戰(zhàn)”下,商湯如何保持競爭優(yōu)勢?王曉剛表示,一是軟硬件基礎設施,商湯建立了新型人工智能基礎設施AI大裝置,打通算力、算法和平臺,降低人工智能生產(chǎn)要素價格,并從2019年開始研發(fā)大模型,較早建立軟硬件基礎設施并不斷完善保障了大模型開發(fā)。

二是針對大模型帶給行業(yè)的變化重塑研發(fā)體系。“過去幾年,商湯一個公司的模型就有幾萬個,而現(xiàn)在是讓一個大模型賦能各行業(yè),所以需要針對這個特點重塑研發(fā)體系。”各研發(fā)團隊基于基礎大模型開發(fā)各個垂直方向的新研發(fā)體系和產(chǎn)品,前端產(chǎn)品深入到各行業(yè)后為基礎模型團隊帶來有益反饋,不斷更新和加強模型。

三是不斷創(chuàng)新目標和方式,聚集大量人才。今年6月,商湯科技與上海人工智能實驗室、武漢大學聯(lián)合論文《以路徑規(guī)劃為導向的自動駕駛》(Planning-oriented Autonomous Driving,UniAD)斬獲頂會最佳論文,該論文提出首個感知決策一體化的端到端自動駕駛大模型UniAD,開創(chuàng)了以全局任務為目標的自動駕駛大模型架構先河。“大模型的研發(fā)不是一直去跟隨國外的成果,而是要基于大模型的應用有自己的創(chuàng)新。”

王曉剛還介紹了商湯智能決策今年在緊密模擬真實世界的暢銷游戲《我的世界》中取得的突破。過去幾年,人工智能研發(fā)機構OpenAI、DeepMind在智能決策上花了大量精力,基于強化學習完成開放世界里的任務,“它們過去幾年一共解決了78個任務,而我們?nèi)诤险Z言模型能夠解決全部262個任務。”而智能決策的市場廣闊,基于大模型,未來可以應用到機器人、自動駕駛等領域。

大模型將為自動駕駛帶來三大變化

自動駕駛系統(tǒng)包含感知、預測和規(guī)劃三大主任務。在自動駕駛大模型UniAD中,研究人員首次將三大類主任務及六小類子任務(目標檢測、目標跟蹤、場景建圖、軌跡預測、柵格預測和路徑規(guī)劃)整合到一個基于Transformer(注:谷歌開發(fā)的一種深度學習模型,OpenAI在此基礎上開發(fā)了GPT)的端到端網(wǎng)絡框架下,實現(xiàn)了全棧關鍵任務駕駛通用模型,多目標跟蹤準確率超越最佳性能20%,車道線預測準確率提升30%,預測運動位移和規(guī)劃的誤差分別降低38%和28%。

王曉剛表示,今天的自動駕駛之所以還不夠智能,原因之一是盡管車上傳感器種類多,但不同類型的傳感器融合仍是挑戰(zhàn),判斷和決策模塊割裂。大模型的出現(xiàn)讓感知、決策、規(guī)劃、控制等眾多模塊實現(xiàn)端到端的優(yōu)化,“原來這些模塊都是割裂的,分別開發(fā),然后通過手動的方式進行鏈條,現(xiàn)在以最終的駕駛體驗為目標進行端到端的優(yōu)化,可以提升開發(fā)效率和最終體驗。”

王曉剛認為,未來大模型將為自動駕駛帶來三大變化。一是在核心決策模塊,語言模型將替代簡單規(guī)則,這是因為語言模型展示出強大的邏輯推理和決策能力,尤其是面向開放世界的各種開放問題。

二是當決策模塊變得強大,就可以更好融合從感知模塊輸出的各種信息。“現(xiàn)在感知模塊的輸出相對來說比較簡單,就是一些檢測框、標簽,持續(xù)的感知信息融合也比較困難,因為我們的決策模塊不夠強大。當決策模塊強大以后,感知輸出也會變得更加豐富和強大,提升整體安全性和駕駛體驗。”

三是未來的自動駕駛系統(tǒng)將會有更好的可解釋性。自動駕駛的挑戰(zhàn)之一是AI模型的可解釋性不高。而大模型尤其是語言模型不單是輸出結果,還可以輸出邏輯推理過程來解釋原因。所以未來基于大模型的自動駕駛在出現(xiàn)問題時,可以更好地診斷,幫助提升自動駕駛能力。

大模型商業(yè)化需選擇高價值的行業(yè)應用方向

除了自動駕駛,大模型為各行各業(yè)帶來的價值是多方面的,價值也有高低。有時候大模型可以是一個聊天工具,有時候可以將它作為大腦操縱其他App,有時候也可以把它當成編程工具。不同應用方式為行業(yè)帶來的價值差別是巨大的。王曉剛表示,要對大模型進行成本考量,在大模型商業(yè)化過程中選擇高價值的方向進行研究和落地。

他表示,商湯正朝著“視覺版ChatGPT”和多模態(tài)大模型方向努力,多模態(tài)大模型的應用價值體現(xiàn)在垂直行業(yè)里。其參與研發(fā)的200億參數(shù)多模態(tài)大模型“書生”統(tǒng)一了自然語言指令,可定義各種開放式任務,對世界的理解更加完整和深刻。“原有的計算機視覺定義任務時,能夠提供的信息非常有限,F(xiàn)在因為多模態(tài)模型對世界有了更好的理解,能夠通過語言與實體世界連接,產(chǎn)生交互。比如老人到國外拿到菜單看不懂,拍一張照片模型就可以告訴他菜單里有什么、點菜的價格,老人可以提要求是吃葷的還是吃素的、預算是多少,模型就會推薦菜品組合。”

大模型的長處在于能夠找到新的解法,幫助解決新問題,一旦解決以后可以在狹窄領域產(chǎn)生大量數(shù)據(jù),重新訓練小模型。這就好比把大模型想象成能力強大的運動員,“它能夠演示一個新的體操動作,有了示范以后資質(zhì)差的再去學習就會容易很多。我們推出了千億參數(shù)大模型,也會推出針對不同垂直領域的百億參數(shù)小模型,有的小模型甚至可以跑在終端上,成本更低。如果沒有大模型,小模型也不會存在,因為小模型不知道怎么解決某個問題。”

大語言模型常常一本正經(jīng)地“胡說八道”,針對大模型存在的這一“幻覺”,王曉剛表示,把準確信息放在知識庫里,通過知識庫的融合就可以較好解決“幻覺”問題。

贊助本站

人工智能實驗室
相關內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港