展會(huì)信息港展會(huì)大全

CVPR最佳論文:大模型成就端到端自動(dòng)駕駛|焦點(diǎn)分析
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2023-06-26 06:54:25   瀏覽:9087次  

導(dǎo)讀:文丨李安琪 編輯丨李勤 與自動(dòng)駕駛相關(guān)文章,首次獲得全球頂級(jí)計(jì)算機(jī)視覺(jué)會(huì)議CVPR的最佳論文。 6月22日,全球頂級(jí)計(jì)算機(jī)視覺(jué)會(huì)議CVPR 2023公布了最佳論文等獎(jiǎng)項(xiàng)。一篇名為《Planning-oriented Autonomous Driving》(以路徑規(guī)劃為導(dǎo)向的自動(dòng)駕駛)論文,成功...

文丨李安琪

編輯丨李勤

與自動(dòng)駕駛相關(guān)文章,首次獲得全球頂級(jí)計(jì)算機(jī)視覺(jué)會(huì)議CVPR的最佳論文。

6月22日,全球頂級(jí)計(jì)算機(jī)視覺(jué)會(huì)議CVPR 2023公布了最佳論文等獎(jiǎng)項(xiàng)。一篇名為《Planning-oriented Autonomous Driving》(以路徑規(guī)劃為導(dǎo)向的自動(dòng)駕駛)論文,成功從9155篇投稿、2359篇接收論文、12篇入選最佳論文候選名單中脫穎而出。

這也是近十年來(lái),CVPR會(huì)議上第一篇以中國(guó)學(xué)術(shù)機(jī)構(gòu)作為第一單位的最佳論文。該論文由上海人工智能實(shí)驗(yàn)室、武漢大學(xué)及商湯科技聯(lián)合完成。

CVPR在學(xué)術(shù)界及產(chǎn)業(yè)界的影響力毋庸置疑,與ICCV、ECCV并列為計(jì)算機(jī)視覺(jué)領(lǐng)域三大頂級(jí)會(huì)議。全球最聰明的頭腦匯聚于此,特斯拉也連續(xù)幾年在CVPR上公布其自動(dòng)駕駛技術(shù)最新進(jìn)展。

今年的競(jìng)爭(zhēng)相當(dāng)激烈。據(jù)公開信息,今年12篇入選最佳論文候選名單機(jī)構(gòu),不僅有谷歌、Stability AI等人工智能領(lǐng)域頂尖企業(yè),也有上海人工智能實(shí)驗(yàn)室、斯坦福大學(xué)、康奈爾大學(xué)、香港中文大學(xué)、香港科技大學(xué)、南洋理工大學(xué)等研究機(jī)構(gòu)及高校。

而上海人工智能實(shí)驗(yàn)室、武漢大學(xué)及商湯科技聯(lián)合獲獎(jiǎng)的關(guān)鍵在于,提出了一個(gè)感知決策一體化的自動(dòng)駕駛通用大模型UniAD。

大會(huì)官方組委會(huì)認(rèn)為,論文提出的端到端感知決策一體框架,融合了多任務(wù)聯(lián)合學(xué)習(xí)的新范式,使得進(jìn)行更有效的信息交換,協(xié)調(diào)感知預(yù)測(cè)決策,以進(jìn)一步提升路徑規(guī)劃能力。

這證明了大模型與自動(dòng)駕駛產(chǎn)業(yè)結(jié)合的潛力。今年初,ChatGPT的爆火,讓機(jī)器學(xué)習(xí)與理解人類語(yǔ)言的能力有了本質(zhì)飛躍。而大模型,也有望為自動(dòng)駕駛產(chǎn)業(yè)落地指出更清晰的方向。

端到端的自動(dòng)駕駛大模型UniAD

論文指出,隨著深度學(xué)習(xí)發(fā)展,自動(dòng)駕駛算法被組裝成一系列任務(wù),包括目標(biāo)檢測(cè)與跟蹤、在線建圖、軌跡預(yù)測(cè)、占據(jù)柵格預(yù)測(cè)等子任務(wù)。

基于這些子任務(wù),行業(yè)有著多種自動(dòng)駕駛系統(tǒng)框架設(shè)計(jì):模塊化設(shè)計(jì),多任務(wù)框架,但兩種方案都面臨著累積錯(cuò)誤或任務(wù)協(xié)調(diào)不足的困擾。

比如自動(dòng)駕駛公司W(wǎng)aymo、Cruise采用的模塊化設(shè)計(jì)方案,每個(gè)獨(dú)立的模塊負(fù)責(zé)單獨(dú)的子任務(wù)。這種方案具備簡(jiǎn)化研發(fā)團(tuán)隊(duì)分工,便于問(wèn)題回溯,易于調(diào)試迭代等優(yōu)點(diǎn)。但由于將不同任務(wù)解耦,各個(gè)模塊相對(duì)于最終的駕駛規(guī)劃目標(biāo)存在信息損失問(wèn)題,且多個(gè)模塊間優(yōu)化目標(biāo)不一致,誤差會(huì)在模塊間傳遞。

論文認(rèn)為,多任務(wù)框架是更優(yōu)雅的一種設(shè)計(jì)方案,代表性企業(yè)有美國(guó)特斯拉、中國(guó)小鵬汽車等。方案中不同任務(wù)使用同一個(gè)特征提取器,具備便于任務(wù)拓展、節(jié)省計(jì)算資源等優(yōu)點(diǎn)。但不同任務(wù)之間仍存在預(yù)測(cè)不一致、表征沖突的問(wèn)題。

a為模塊化設(shè)計(jì)、b為多任務(wù)框架、c1/c2為兩種端到端方案、c3為UniAD方案示意 圖源論文

相比之下,端到端自動(dòng)駕駛方案將感知、預(yù)測(cè)和規(guī)劃所有節(jié)點(diǎn)視為一個(gè)整體,但現(xiàn)有的兩種端到端方案也還面臨挑戰(zhàn)。

一種簡(jiǎn)單的方式直接以傳感器信號(hào)作為輸入、以軌跡/控制作為輸出,能夠在仿真中取得較好結(jié)果,但缺乏可解釋性與實(shí)際應(yīng)用安全性,尤其是在復(fù)雜的城市道路場(chǎng)景。

另一種方案是,對(duì)模型進(jìn)行顯式設(shè)計(jì),將整個(gè)架構(gòu)分為感知-預(yù)測(cè)-規(guī)劃模塊,使其具有部分中間結(jié)果表達(dá)。但這種方式面臨檢測(cè)結(jié)果在模塊間不可微導(dǎo)致無(wú)法端到端優(yōu)化,稠密BEV預(yù)測(cè)時(shí)長(zhǎng)有限,過(guò)去-未來(lái)、物體-場(chǎng)景等多維度信息難以高效利用等困難。

因此,本篇論文提出了一個(gè)端到端方案Unified Autonomous Driving,即UniAD。上海人工智能實(shí)驗(yàn)室指出,UniAD能夠成功解決不同任務(wù)融合難的問(wèn)題,從而實(shí)現(xiàn)多任務(wù)和高性能的關(guān)鍵在于以下兩點(diǎn)。

一是多組查詢向量的全Transformer 模型:UniAD利用多組 query 實(shí)現(xiàn)了全棧 Transformer 的端到端模型,可以從具體 Transformer 的輸入輸出感受到信息融合。二是以最終“規(guī)劃”為目標(biāo),全部模塊通過(guò)輸出特定的特征來(lái)幫助實(shí)現(xiàn)最終的目標(biāo)“規(guī)劃”。

自動(dòng)駕駛端到端架構(gòu) (UniAD)的流程 圖源論文

從論文來(lái)看,UniAD將感知、預(yù)測(cè)、規(guī)劃等三大類主任務(wù)、六小類子任務(wù)(目標(biāo)檢測(cè)、目標(biāo)跟蹤、場(chǎng)景建圖、軌跡預(yù)測(cè)、柵格預(yù)測(cè)和路徑規(guī)劃)整合到統(tǒng)一的端到端網(wǎng)絡(luò)框架下。

具體來(lái)說(shuō),將一系列多攝像頭圖像輸入特征提取器,并通過(guò)BEVFormer 轉(zhuǎn)換為統(tǒng)一的鳥瞰圖(BEV)。這部分可以快速替換為其他BEV模型,具有較好可拓展性。

在感知環(huán)節(jié)中,UniAD的目標(biāo)檢測(cè)與跟蹤模塊可以實(shí)現(xiàn)對(duì)動(dòng)態(tài)元素的特征提娶幀間物體跟蹤;在線建圖模塊實(shí)現(xiàn)了對(duì)靜態(tài)物體的特征提娶實(shí)例級(jí)地圖預(yù)測(cè);

在預(yù)測(cè)模塊,UniAD可以實(shí)現(xiàn)動(dòng)靜態(tài)元素交互與長(zhǎng)時(shí)序軌跡預(yù)測(cè);占據(jù)柵格預(yù)測(cè)模塊實(shí)現(xiàn)了短時(shí)序全場(chǎng)景BEV、實(shí)例級(jí)預(yù)測(cè);

在規(guī)劃模塊,UniAD實(shí)現(xiàn)基于自車query的軌跡預(yù)測(cè)和基于占據(jù)柵格的碰撞優(yōu)化。

論文表示,UniAD 的培訓(xùn)分兩個(gè)階段:首先聯(lián)合訓(xùn)練感知部分,即目標(biāo)跟蹤和建圖模塊,這將持續(xù)幾個(gè)階段(在實(shí)驗(yàn)中為6個(gè)階段),然后使用所有感知、預(yù)測(cè)和規(guī)劃模塊端到端地訓(xùn)練模型20個(gè)階段。

從結(jié)果來(lái)看,論文表示,在nuScenes真實(shí)場(chǎng)景數(shù)據(jù)集下,所有任務(wù)均達(dá)到領(lǐng)域最佳性能(State-of-the-art),尤其是預(yù)測(cè)和規(guī)劃效果遠(yuǎn)超之前最好方案。其中,多目標(biāo)跟蹤準(zhǔn)確率超越SOTA 20%,車道線預(yù)測(cè)準(zhǔn)確率提升30%,預(yù)測(cè)運(yùn)動(dòng)位移和規(guī)劃的誤差則分別降低了38%和28%。

在晴天直行場(chǎng)景中,UniAD 可以感知左前方等待的黑色車輛,預(yù)測(cè)其未來(lái)軌跡(即將左轉(zhuǎn)駛?cè)胱攒嚨能嚨溃,并立即減速以進(jìn)行避讓,待黑車駛離后再恢復(fù)正常速度直行 圖源上海人工智能實(shí)驗(yàn)室

在雨天轉(zhuǎn)彎場(chǎng)景中,即便面對(duì)視野干擾較大且場(chǎng)景復(fù)雜的十字路口,UniAD 能通過(guò)分割模塊生成十字路口的整體道路結(jié)構(gòu)(如右側(cè) BEV圖中的綠色分割結(jié)果所示),并完成大幅度的左轉(zhuǎn) 圖源上海人工智能實(shí)驗(yàn)室

從論文到產(chǎn)業(yè)還要多久?

當(dāng)然,從前瞻學(xué)術(shù)論文到產(chǎn)業(yè)跟進(jìn)、技術(shù)大規(guī)模惠普,所需要的時(shí)間并不短。

以當(dāng)下被行業(yè)火熱討論的BEV為例。2021年特斯拉首次基于Transformer將攝像頭2D圖像拼接轉(zhuǎn)化成3D圖景,生成鳥瞰圖 “Bird's Eye View”,簡(jiǎn)稱“BEV”。這是大模型在自動(dòng)駕駛感知環(huán)節(jié)的應(yīng)用。

兩年時(shí)間過(guò)去,當(dāng)下國(guó)內(nèi)企業(yè)雖已紛紛跟進(jìn),但僅有少數(shù)幾家能拿出先期成果。

而UniAD大模型是更為龐大的、涉及感知、預(yù)測(cè)、規(guī)劃的復(fù)雜系統(tǒng)工程,其中的技術(shù)優(yōu)化與工程化落地只會(huì)比BEV更艱難。

論文本身也指出,協(xié)調(diào)這樣一個(gè)具有多個(gè)任務(wù)的綜合系統(tǒng)并非易事,需要大量的計(jì)算能力,尤其是經(jīng)過(guò)時(shí)間歷史訓(xùn)練的計(jì)算能力。如何為輕量級(jí)部署設(shè)計(jì)和管理系統(tǒng)值得未來(lái)探索。

論文作者之一、上海人工智能實(shí)驗(yàn)室青年科學(xué)家李弘揚(yáng)博士表示,UniAD提供了全套關(guān)鍵自動(dòng)駕駛?cè)蝿?wù)配置,其充分的可解釋性、安全性、與多模塊的可持續(xù)迭代性,是目前為止最具希望實(shí)際部署的端到端模型。這套基于視覺(jué)的全棧自動(dòng)駕駛框架,據(jù)初步測(cè)算,每年節(jié)省激光雷達(dá)與標(biāo)注成本可達(dá)千萬(wàn)級(jí)。

部分玩家已經(jīng)在行動(dòng)。據(jù)36氪了解,小鵬和理想汽車都在籌備研發(fā)全棧端到端自動(dòng)駕駛方案。“目前效果還不太好,但潛力很大。”有內(nèi)部人士透露。

總而言之,新的技術(shù)的種子已經(jīng)播下,行業(yè)新一輪競(jìng)賽也可能已經(jīng)開始。接下來(lái),就看誰(shuí)能給出更肥沃的土壤與更恒久的耐心。

文章參考:

1.《Planning-oriented Autonomous Driving》

2.《AIR學(xué)術(shù)|上海人工智能實(shí)驗(yàn)室李弘揚(yáng)、陳立:端到端自動(dòng)駕駛算法設(shè)計(jì)思考》

3.《上海AI實(shí)驗(yàn)室聯(lián)合團(tuán)隊(duì)獲CVPR最佳論文獎(jiǎng) | CVPR 2023》

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港