當(dāng)前位置：人工智能實(shí)驗(yàn)室> 車聯(lián)網(wǎng)/無(wú)人駕駛 > CVPR最佳論文獎(jiǎng)首次給了自動(dòng)駕駛！大模型加持，感知決策一體

CVPR最佳論文獎(jiǎng)首次給了自動(dòng)駕駛！大模型加持，感知決策一體
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2023-06-26 06:54:57 瀏覽：7692次

導(dǎo)讀：大模型造就端到端作者｜王磊楚門國(guó)內(nèi)的自動(dòng)駕駛，終于走在世界前列！來(lái)自上海人工智能實(shí)驗(yàn)室、武漢大學(xué)、商湯科技聯(lián)合發(fā)表的論文《Planning-oriented Autonomous Driving》（以路徑規(guī)劃為導(dǎo)向的自動(dòng)駕駛）獲得了2023全球計(jì)算機(jī)視覺(jué)盛會(huì) CVPR最佳論文獎(jiǎng)...

大模型造就端到端”

作者｜王磊楚門

國(guó)內(nèi)的自動(dòng)駕駛，終于走在世界前列！

來(lái)自上海人工智能實(shí)驗(yàn)室、武漢大學(xué)、商湯科技聯(lián)合發(fā)表的論文《Planning-oriented Autonomous Driving》（以路徑規(guī)劃為導(dǎo)向的自動(dòng)駕駛）獲得了2023全球計(jì)算機(jī)視覺(jué)盛會(huì)CVPR最佳論文獎(jiǎng)。

要知道，這是CVPR在40年的頒獎(jiǎng)歷史上，第一篇以自動(dòng)駕駛為主題的最佳論文。

也是近十年來(lái)計(jì)算機(jī)視覺(jué)三大頂級(jí)會(huì)議中，第一篇來(lái)自中國(guó)研究團(tuán)隊(duì)的最佳論文。

來(lái)源：OpenDriveLab

而CVPR是人工智能領(lǐng)域最具學(xué)術(shù)影響力的頂級(jí)會(huì)議之一，在谷歌學(xué)術(shù)指標(biāo)2022年列出的全球最有影響力的6個(gè)科學(xué)期刊/會(huì)議中，CVPR位列第四，僅次于《自然》《新英格蘭醫(yī)學(xué)雜志》《科學(xué)》。

除了CVPR在學(xué)界和業(yè)界的影響力，其苛刻的評(píng)選標(biāo)準(zhǔn)更使得這次關(guān)于自動(dòng)駕駛論文的獲獎(jiǎng)尤為特別。

今年CVPR的投稿量共計(jì)9155篇，最終接收論文2359篇，接收率為25.8%，而最終入圍最佳論文候選名單的僅有12篇。

接下來(lái)咱們一起看看，這篇論文有什么開創(chuàng)性理論創(chuàng)新。

自動(dòng)駕駛通用大模型UniAD

這篇獲獎(jiǎng)?wù)撐拿麨?《Planning-oriented Autonomous Driving》（以路徑規(guī)劃為導(dǎo)向的自動(dòng)駕駛），論文中提出了自動(dòng)駕駛通用算法大模型Unified Autonomous Driving（UniAD）。

是的，這篇論文結(jié)合了今年爆火的大模型，論證了大模型與自動(dòng)駕駛產(chǎn)業(yè)結(jié)合的潛力。

這篇論文首次將檢測(cè)、跟蹤、建圖、軌跡預(yù)測(cè)、規(guī)劃等整合到一個(gè)基于Transformer的端到端網(wǎng)絡(luò)框架下，開創(chuàng)了以全局任務(wù)為目標(biāo)的自動(dòng)駕駛大模型架構(gòu)先河。

CVPR官方組委會(huì)給出的獲獎(jiǎng)理由是：該論文提出了一個(gè)端到端的感知決策一體化框架，融合了多任務(wù)聯(lián)合學(xué)習(xí)的新范式，使得進(jìn)行更有效的信息交換，協(xié)調(diào)感知預(yù)測(cè)決策，以進(jìn)一步提升路徑規(guī)劃能力。

來(lái)源：OpenDriveLab

下面我們就具體來(lái)看看，這篇論文是如何獲得了組委會(huì)的認(rèn)可。

現(xiàn)代自動(dòng)駕駛系統(tǒng)的特點(diǎn)，是按順序進(jìn)行模塊化任務(wù)，比如感知、預(yù)測(cè)和規(guī)劃，為了執(zhí)行各種各樣的任務(wù)并實(shí)現(xiàn)高級(jí)智能。

但汽車智能化發(fā)展已經(jīng)逐漸紅�；Ｗ詣�(dòng)駕駛對(duì)計(jì)算能力和海量數(shù)據(jù)的處理能力要求更高，傳統(tǒng)的各個(gè)小模型堆疊的方案，顯然無(wú)法滿足城市自動(dòng)駕駛的需求，還有可能會(huì)出現(xiàn)多任務(wù)之間協(xié)調(diào)不足。

來(lái)源：上海人工智能實(shí)驗(yàn)室

所以這篇論文認(rèn)為，有必要設(shè)計(jì)和優(yōu)化一個(gè)綜合的框架，來(lái)重新審視感知和預(yù)測(cè)這類的關(guān)鍵組件，并對(duì)這些任務(wù)進(jìn)行優(yōu)先排序。

基于這樣的背景，上海人工智能實(shí)驗(yàn)室、武漢大學(xué)及商湯科技聯(lián)合提出了一個(gè)感知決策一體化的端到端自動(dòng)駕駛通用大模型UniAD。

來(lái)源：上海人工智能實(shí)驗(yàn)室

自動(dòng)駕駛通用算法框架 Unified Autonomous Driving（UniAD）首次將檢測(cè)、跟蹤、建圖、軌跡預(yù)測(cè)，占據(jù)柵格預(yù)測(cè)以及規(guī)劃整合到一個(gè)基于 Transformer 的端到端網(wǎng)絡(luò)框架下，將全棧駕駛?cè)蝿?wù)整合到一個(gè)網(wǎng)絡(luò)中。

這次的獲獎(jiǎng)，無(wú)疑是印證了端到端的感知決策一體化算法被普遍認(rèn)為是自動(dòng)駕駛算法終局。

端到端比模塊化好在哪？

“端到端”其實(shí)原本是深度學(xué)習(xí)(Deep learning)中的概念，英文為“End-to-End（E2E）”，指的是一個(gè)AI模型，只要輸入原始數(shù)據(jù)就可以輸出最終結(jié)果的過(guò)程。

通過(guò)一個(gè)大的模型實(shí)現(xiàn)多種模塊化模型的功能，研發(fā)人員只需要針對(duì)這一個(gè)模型進(jìn)行整體訓(xùn)練、調(diào)整優(yōu)化，即可實(shí)現(xiàn)性能上的提升，因此可以更好地集中資源，實(shí)現(xiàn)功能聚焦。

而端到端自動(dòng)駕駛，就是通過(guò)模型直接通過(guò)輸入的圖像或者視頻信息得到汽車駕駛行為的指令。

來(lái)源：商湯科技

輸入傳感器信號(hào)后就可以直接輸出車控信號(hào)，大大降低了信息誤差的概率，也因此大大提升了系統(tǒng)性能的上限。

此前模塊化的設(shè)計(jì)雖然簡(jiǎn)化了跨團(tuán)隊(duì)的研發(fā)難度，但因?yàn)閮?yōu)化目標(biāo)是被隔離的，存在著跨模塊信息丟失、誤差積累和特征不對(duì)齊的風(fēng)險(xiǎn)。

而現(xiàn)在行業(yè)中大多數(shù)端到端的自動(dòng)駕駛系統(tǒng)，一直沒(méi)有一個(gè)很好的網(wǎng)絡(luò)框架來(lái)融合全部五大模塊，都只能融合部分模塊。

來(lái)源：論文

所以這篇論文開創(chuàng)性地將所有的模塊任務(wù)，都容納到一個(gè)算法架構(gòu)中，也是其得獎(jiǎng)的關(guān)鍵原因。

據(jù)獲獎(jiǎng)團(tuán)隊(duì)介紹，這個(gè)UniAD模型能每個(gè)模塊的優(yōu)點(diǎn)結(jié)合起來(lái)，并從全局角度為各個(gè)組件之間協(xié)同達(dá)到互補(bǔ)的狀態(tài)。

他們將一系列多攝像頭圖像輸入特征提取器，并通過(guò) BEVFormer 轉(zhuǎn)換為統(tǒng)一的鳥瞰圖（BEV）。這部分可以快速替換為其他BEV模型，具有較好可拓展性。

根據(jù)論文，UniAD 的訓(xùn)練分兩個(gè)階段：

首先聯(lián)合訓(xùn)練感知部分，即目標(biāo)跟蹤和建圖模塊，然后使用所有感知、預(yù)測(cè)和規(guī)劃模塊端到端地訓(xùn)練模型20個(gè)階段。

具體來(lái)看，他們除了將感知、預(yù)測(cè)、規(guī)劃作為自動(dòng)駕駛的三個(gè)主要任務(wù)之外、還劃出了六小類子任務(wù)，其中包括了目標(biāo)檢測(cè)、目標(biāo)跟蹤、場(chǎng)景建圖、軌跡預(yù)測(cè)、柵格預(yù)測(cè)和路徑規(guī)劃。

然后將這些大大小小的任務(wù)整合到統(tǒng)一的端到端網(wǎng)絡(luò)框架下，由三大主任務(wù)環(huán)節(jié)中下達(dá)諸多子任務(wù)，再通過(guò)統(tǒng)一的接口進(jìn)行通信，方便彼此進(jìn)行規(guī)劃。

在感知環(huán)節(jié)，UniAD的目標(biāo)檢測(cè)與跟蹤模塊可以實(shí)現(xiàn)對(duì)動(dòng)態(tài)元素的特征提娶幀間物體跟蹤；在線建圖模塊實(shí)現(xiàn)了對(duì)靜態(tài)物體的特征提娶實(shí)例級(jí)地圖預(yù)測(cè)。

在預(yù)測(cè)環(huán)節(jié)，UniAD可以實(shí)現(xiàn)動(dòng)靜態(tài)元素交互與長(zhǎng)時(shí)序軌跡預(yù)測(cè)；占據(jù)柵格預(yù)測(cè)模塊實(shí)現(xiàn)了短時(shí)序全場(chǎng)景BEV、實(shí)例級(jí)預(yù)測(cè)。

在規(guī)劃任務(wù)中，UniAD實(shí)現(xiàn)基于自車query的軌跡預(yù)測(cè)和基于占據(jù)柵格的碰撞優(yōu)化。

來(lái)源：論文

總的來(lái)說(shuō)，UniAD通過(guò)將環(huán)視的圖片以Transformer映射得到BEV的特征后，同時(shí)進(jìn)行目標(biāo)的跟蹤，在線的建圖，包括目標(biāo)軌跡的預(yù)測(cè)，還有障礙物的預(yù)測(cè)，現(xiàn)觀察現(xiàn)預(yù)測(cè)，然后決定怎么行動(dòng)，最終實(shí)現(xiàn)駕駛行為。

優(yōu)勢(shì)展示

他們?cè)趎uScenes真實(shí)場(chǎng)景上還實(shí)際測(cè)試了UniAD模型。所有任務(wù)均刷新了領(lǐng)域最佳性能SOTA（State-of-the-art），尤其是預(yù)測(cè)和規(guī)劃效果遠(yuǎn)超之前最好方案，行駛的過(guò)程中同時(shí)生成高質(zhì)量的可解釋性感知和預(yù)測(cè)結(jié)果，并做出安全的操作。

其中，多目標(biāo)跟蹤準(zhǔn)確率超越SOTA 20%，車道線預(yù)測(cè)準(zhǔn)確率提升30%，預(yù)測(cè)運(yùn)動(dòng)位移和規(guī)劃的誤差則分別降低了38%和28%。

來(lái)源：商湯科技

具體來(lái)看，在晴天直行場(chǎng)景中，UniAD 可以感知左前方等待的黑色車輛，預(yù)測(cè)其未來(lái)軌跡（即將左轉(zhuǎn)駛?cè)胱攒嚨能嚨溃�，并立即減速以進(jìn)行避讓，待黑車駛離后再恢復(fù)正常速度直行。

來(lái)源：上海人工智能實(shí)驗(yàn)室

在場(chǎng)景復(fù)雜的十字路口，即便是因?yàn)橄掠�，干擾較大的情況下，UniAD 能通過(guò)分離模塊單獨(dú)生成十字路口的整體道路結(jié)構(gòu)，并完成左轉(zhuǎn)指令。

來(lái)源：上海人工智能實(shí)驗(yàn)室

在夜晚視野變暗的情況下，UniAD 也同樣感知到前車停車，且左右有障礙物的情況，并且完成了先靜止，后左轉(zhuǎn)的指令。

通過(guò)這些實(shí)例，證明了他們提出的這種理念在各個(gè)方面都要優(yōu)于以前的所謂最先進(jìn)的技術(shù)。

作為自動(dòng)駕駛技術(shù)研究重要突破，UniAD 模型兼并了“多任務(wù)” 和“高效率”的特性，這次的獲獎(jiǎng)很大概率上也代表了當(dāng)下自動(dòng)駕駛未來(lái)的發(fā)展趨勢(shì)。

落地還需要時(shí)間

在自動(dòng)駕駛領(lǐng)域，端到端的大模型其實(shí)并不是什么新鮮概念。

早在2021年8月，特斯拉的 AI 高級(jí)總監(jiān)Andrej Karpathy，就在特斯拉 AI DAY 上展示了一項(xiàng)新技術(shù)基于 Transformer 的 BEV (鳥瞰視角) 的感知方案。

這個(gè)方案，相當(dāng)于車輛正上方有一駕無(wú)人機(jī)在俯視車輛與周圍環(huán)境，這也是大模型技術(shù)首次應(yīng)用于自動(dòng)駕駛領(lǐng)域。

如今兩年的時(shí)間過(guò)去，大模型越來(lái)越受到廠商們的關(guān)注。

目前已經(jīng)有不少企業(yè)在端到端BEV+Transformer 模型上有所布局，除了商湯科技外，還有像特斯拉，英偉達(dá)以及毫末智行等一系列公司。

比如商湯科技和聯(lián)合實(shí)驗(yàn)室團(tuán)隊(duì)發(fā)布自動(dòng)駕駛通用UniAD大模型之前，就推出了“SenseAuto絕影”智能汽車平臺(tái)，搭建了智能座艙、智能駕駛、車路協(xié)同等業(yè)務(wù)板塊。

來(lái)源：商湯科技

在智能駕駛方面，商湯提供有兩套不同的解決方案，分別是高速領(lǐng)航和城市領(lǐng)航。

其中，高速領(lǐng)航搭載5顆毫米波雷達(dá)、7顆攝像頭，采用16~48 TOPS算力平臺(tái)。城市領(lǐng)航方案則在此基礎(chǔ)上加了3個(gè)激光雷達(dá)，并采用大于200TOPS的高算力平臺(tái)。

來(lái)源：商湯科技

商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家、絕影智能汽車事業(yè)群總裁王曉剛，將這些成果歸功于商湯持續(xù)建設(shè)打造“大模型+大裝置”技術(shù)路徑。

而論文中所提到的大模型技術(shù)，從落地到產(chǎn)業(yè)完全跟進(jìn)，仍需要很長(zhǎng)一段時(shí)間。

特別是UniAD大模型屬于囊括了所有規(guī)劃任務(wù)的超大型架構(gòu)，涉及感知、預(yù)測(cè)等非常復(fù)雜的系統(tǒng)，需要具備巨大的計(jì)算能力支撐，當(dāng)然也需要充足的時(shí)間去訓(xùn)練計(jì)算能力。

來(lái)源：論文

從硬件水平，到訓(xùn)練時(shí)間，再到系統(tǒng)性的技術(shù)優(yōu)化和工程落地，端到端自動(dòng)駕駛方案仍面臨很大挑戰(zhàn)。

這次獲得CVPR最佳論文獎(jiǎng)，并不只是一次單純的書面意義上的獲獎(jiǎng)，更像是人工智能大模型在自動(dòng)駕駛上的一次融合前瞻，多模態(tài)大模型助力的也不僅是單個(gè)車輛的自動(dòng)駕駛技術(shù)，而是推動(dòng)高階自動(dòng)駕駛整體落地。

所以，不管怎樣，這對(duì)于自動(dòng)駕駛行業(yè)來(lái)說(shuō)是一個(gè)振奮的消息，期待全棧端到端自動(dòng)駕駛方案的大規(guī)模應(yīng)用！

參考鏈接

1.https://mp.weixin.qq.com/s/EWMRzDExsJZ4_SYBSBaMFg

2.https://mp.weixin.qq.com/s/8svV4yxRi6TikcRivgHr_A

3.https://zhuanlan.zhihu.com/p/638780421

4.https://arxiv.org/pdf/2212.10156.pdf

5.https://arxiv.org/abs/2212.10156

6.https://github.com/OpenDriveLab/UniAD