展會(huì)信息港展會(huì)大全

CVPR最佳論文獎(jiǎng)首次給了自動(dòng)駕駛!大模型加持,感知決策一體
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2023-06-26 06:54:57   瀏覽:7692次  

導(dǎo)讀:大模型造就端到端 作者|王磊 楚門 國(guó)內(nèi)的自動(dòng)駕駛,終于走在世界前列! 來(lái)自上海人工智能實(shí)驗(yàn)室、武漢大學(xué)、商湯科技聯(lián)合發(fā)表的論文《Planning-oriented Autonomous Driving》(以路徑規(guī)劃為導(dǎo)向的自動(dòng)駕駛)獲得了2023全球計(jì)算機(jī)視覺(jué)盛會(huì) CVPR最佳論文獎(jiǎng)...

大模型造就端到端

作者|王磊 楚門

國(guó)內(nèi)的自動(dòng)駕駛,終于走在世界前列!

來(lái)自上海人工智能實(shí)驗(yàn)室、武漢大學(xué)、商湯科技聯(lián)合發(fā)表的論文《Planning-oriented Autonomous Driving》(以路徑規(guī)劃為導(dǎo)向的自動(dòng)駕駛)獲得了2023全球計(jì)算機(jī)視覺(jué)盛會(huì)CVPR最佳論文獎(jiǎng)。

要知道,這是CVPR在40年的頒獎(jiǎng)歷史上,第一篇以自動(dòng)駕駛為主題的最佳論文。

也是近十年來(lái)計(jì)算機(jī)視覺(jué)三大頂級(jí)會(huì)議中,第一篇來(lái)自中國(guó)研究團(tuán)隊(duì)的最佳論文。

來(lái)源:OpenDriveLab

而CVPR是人工智能領(lǐng)域最具學(xué)術(shù)影響力的頂級(jí)會(huì)議之一,在谷歌學(xué)術(shù)指標(biāo)2022年列出的全球最有影響力的6個(gè)科學(xué)期刊/會(huì)議中,CVPR位列第四,僅次于《自然》《新英格蘭醫(yī)學(xué)雜志》《科學(xué)》。

除了CVPR在學(xué)界和業(yè)界的影響力,其苛刻的評(píng)選標(biāo)準(zhǔn)更使得這次關(guān)于自動(dòng)駕駛論文的獲獎(jiǎng)尤為特別。

今年CVPR的投稿量共計(jì)9155篇,最終接收論文2359篇,接收率為25.8%,而最終入圍最佳論文候選名單的僅有12篇。

接下來(lái)咱們一起看看,這篇論文有什么開創(chuàng)性理論創(chuàng)新。

01

自動(dòng)駕駛通用大模型UniAD

這篇獲獎(jiǎng)?wù)撐拿麨?《Planning-oriented Autonomous Driving》(以路徑規(guī)劃為導(dǎo)向的自動(dòng)駕駛),論文中提出了自動(dòng)駕駛通用算法大模型Unified Autonomous Driving(UniAD)。

是的,這篇論文結(jié)合了今年爆火的大模型,論證了大模型與自動(dòng)駕駛產(chǎn)業(yè)結(jié)合的潛力。

這篇論文首次將檢測(cè)、跟蹤、建圖、軌跡預(yù)測(cè)、規(guī)劃等整合到一個(gè)基于Transformer的端到端網(wǎng)絡(luò)框架下,開創(chuàng)了以全局任務(wù)為目標(biāo)的自動(dòng)駕駛大模型架構(gòu)先河。

CVPR官方組委會(huì)給出的獲獎(jiǎng)理由是:該論文提出了一個(gè)端到端感知決策一體化框架,融合了多任務(wù)聯(lián)合學(xué)習(xí)的新范式,使得進(jìn)行更有效的信息交換,協(xié)調(diào)感知預(yù)測(cè)決策,以進(jìn)一步提升路徑規(guī)劃能力。

來(lái)源:OpenDriveLab

下面我們就具體來(lái)看看,這篇論文是如何獲得了組委會(huì)的認(rèn)可。

現(xiàn)代自動(dòng)駕駛系統(tǒng)的特點(diǎn),是按順序進(jìn)行模塊化任務(wù),比如感知、預(yù)測(cè)和規(guī)劃,為了執(zhí)行各種各樣的任務(wù)并實(shí)現(xiàn)高級(jí)智能。

但汽車智能化發(fā)展已經(jīng)逐漸紅;W詣(dòng)駕駛對(duì)計(jì)算能力和海量數(shù)據(jù)的處理能力要求更高,傳統(tǒng)的各個(gè)小模型堆疊的方案,顯然無(wú)法滿足城市自動(dòng)駕駛的需求,還有可能會(huì)出現(xiàn)多任務(wù)之間協(xié)調(diào)不足。

來(lái)源:上海人工智能實(shí)驗(yàn)室

所以這篇論文認(rèn)為,有必要設(shè)計(jì)和優(yōu)化一個(gè)綜合的框架,來(lái)重新審視感知和預(yù)測(cè)這類的關(guān)鍵組件,并對(duì)這些任務(wù)進(jìn)行優(yōu)先排序。

基于這樣的背景,上海人工智能實(shí)驗(yàn)室、武漢大學(xué)及商湯科技聯(lián)合提出了一個(gè)感知決策一體化的端到端自動(dòng)駕駛通用大模型UniAD。

來(lái)源:上海人工智能實(shí)驗(yàn)室

自動(dòng)駕駛通用算法框架 Unified Autonomous Driving(UniAD)首次將檢測(cè)、跟蹤、建圖、軌跡預(yù)測(cè),占據(jù)柵格預(yù)測(cè)以及規(guī)劃整合到一個(gè)基于 Transformer 的端到端網(wǎng)絡(luò)框架下,將全棧駕駛?cè)蝿?wù)整合到一個(gè)網(wǎng)絡(luò)中。

這次的獲獎(jiǎng),無(wú)疑是印證了端到端的感知決策一體化算法被普遍認(rèn)為是自動(dòng)駕駛算法終局。

端到端比模塊化好在哪?

“端到端”其實(shí)原本是深度學(xué)習(xí)(Deep learning)中的概念,英文為“End-to-End(E2E)”,指的是一個(gè)AI模型,只要輸入原始數(shù)據(jù)就可以輸出最終結(jié)果的過(guò)程。

通過(guò)一個(gè)大的模型實(shí)現(xiàn)多種模塊化模型的功能,研發(fā)人員只需要針對(duì)這一個(gè)模型進(jìn)行整體訓(xùn)練、調(diào)整優(yōu)化,即可實(shí)現(xiàn)性能上的提升,因此可以更好地集中資源,實(shí)現(xiàn)功能聚焦。

而端到端自動(dòng)駕駛,就是通過(guò)模型直接通過(guò)輸入的圖像或者視頻信息得到汽車駕駛行為的指令。

來(lái)源:商湯科技

輸入傳感器信號(hào)后就可以直接輸出車控信號(hào),大大降低了信息誤差的概率,也因此大大提升了系統(tǒng)性能的上限。

此前模塊化的設(shè)計(jì)雖然簡(jiǎn)化了跨團(tuán)隊(duì)的研發(fā)難度,但因?yàn)閮?yōu)化目標(biāo)是被隔離的,存在著跨模塊信息丟失、誤差積累和特征不對(duì)齊的風(fēng)險(xiǎn)。

而現(xiàn)在行業(yè)中大多數(shù)端到端的自動(dòng)駕駛系統(tǒng),一直沒(méi)有一個(gè)很好的網(wǎng)絡(luò)框架來(lái)融合全部五大模塊,都只能融合部分模塊。

來(lái)源:論文

所以這篇論文開創(chuàng)性地將所有的模塊任務(wù),都容納到一個(gè)算法架構(gòu)中,也是其得獎(jiǎng)的關(guān)鍵原因。

據(jù)獲獎(jiǎng)團(tuán)隊(duì)介紹,這個(gè)UniAD模型能每個(gè)模塊的優(yōu)點(diǎn)結(jié)合起來(lái),并從全局角度為各個(gè)組件之間協(xié)同達(dá)到互補(bǔ)的狀態(tài)。

他們將一系列多攝像頭圖像輸入特征提取器,并通過(guò) BEVFormer 轉(zhuǎn)換為統(tǒng)一的鳥瞰圖(BEV)。這部分可以快速替換為其他BEV模型,具有較好可拓展性。

根據(jù)論文,UniAD 的訓(xùn)練分兩個(gè)階段:

首先聯(lián)合訓(xùn)練感知部分,即目標(biāo)跟蹤和建圖模塊,然后使用所有感知、預(yù)測(cè)和規(guī)劃模塊端到端地訓(xùn)練模型20個(gè)階段。

具體來(lái)看,他們除了將感知、預(yù)測(cè)、規(guī)劃作為自動(dòng)駕駛的三個(gè)主要任務(wù)之外、還劃出了六小類子任務(wù),其中包括了目標(biāo)檢測(cè)、目標(biāo)跟蹤、場(chǎng)景建圖、軌跡預(yù)測(cè)、柵格預(yù)測(cè)和路徑規(guī)劃。

然后將這些大大小小的任務(wù)整合到統(tǒng)一的端到端網(wǎng)絡(luò)框架下,由三大主任務(wù)環(huán)節(jié)中下達(dá)諸多子任務(wù),再通過(guò)統(tǒng)一的接口進(jìn)行通信,方便彼此進(jìn)行規(guī)劃。

感知環(huán)節(jié),UniAD的目標(biāo)檢測(cè)與跟蹤模塊可以實(shí)現(xiàn)對(duì)動(dòng)態(tài)元素的特征提娶幀間物體跟蹤;在線建圖模塊實(shí)現(xiàn)了對(duì)靜態(tài)物體的特征提娶實(shí)例級(jí)地圖預(yù)測(cè)。

預(yù)測(cè)環(huán)節(jié),UniAD可以實(shí)現(xiàn)動(dòng)靜態(tài)元素交互與長(zhǎng)時(shí)序軌跡預(yù)測(cè);占據(jù)柵格預(yù)測(cè)模塊實(shí)現(xiàn)了短時(shí)序全場(chǎng)景BEV、實(shí)例級(jí)預(yù)測(cè)。

在規(guī)劃任務(wù)中,UniAD實(shí)現(xiàn)基于自車query的軌跡預(yù)測(cè)和基于占據(jù)柵格的碰撞優(yōu)化。

來(lái)源:論文

總的來(lái)說(shuō),UniAD通過(guò)將環(huán)視的圖片以Transformer映射得到BEV的特征后,同時(shí)進(jìn)行目標(biāo)的跟蹤,在線的建圖,包括目標(biāo)軌跡的預(yù)測(cè),還有障礙物的預(yù)測(cè),現(xiàn)觀察現(xiàn)預(yù)測(cè),然后決定怎么行動(dòng),最終實(shí)現(xiàn)駕駛行為。

優(yōu)勢(shì)展示

他們?cè)趎uScenes真實(shí)場(chǎng)景上還實(shí)際測(cè)試了UniAD模型。所有任務(wù)均刷新了領(lǐng)域最佳性能SOTA(State-of-the-art),尤其是預(yù)測(cè)和規(guī)劃效果遠(yuǎn)超之前最好方案,行駛的過(guò)程中同時(shí)生成高質(zhì)量的可解釋性感知和預(yù)測(cè)結(jié)果,并做出安全的操作。

其中,多目標(biāo)跟蹤準(zhǔn)確率超越SOTA 20%,車道線預(yù)測(cè)準(zhǔn)確率提升30%,預(yù)測(cè)運(yùn)動(dòng)位移和規(guī)劃的誤差則分別降低了38%和28%。

來(lái)源:商湯科技

具體來(lái)看,在晴天直行場(chǎng)景中,UniAD 可以感知左前方等待的黑色車輛,預(yù)測(cè)其未來(lái)軌跡(即將左轉(zhuǎn)駛?cè)胱攒嚨能嚨溃,并立即減速以進(jìn)行避讓,待黑車駛離后再恢復(fù)正常速度直行。

來(lái)源:上海人工智能實(shí)驗(yàn)室

在場(chǎng)景復(fù)雜的十字路口,即便是因?yàn)橄掠,干擾較大的情況下,UniAD 能通過(guò)分離模塊單獨(dú)生成十字路口的整體道路結(jié)構(gòu),并完成左轉(zhuǎn)指令。

來(lái)源:上海人工智能實(shí)驗(yàn)室

夜晚視野變暗的情況下,UniAD 也同樣感知到前車停車,且左右有障礙物的情況,并且完成了先靜止,后左轉(zhuǎn)的指令。

通過(guò)這些實(shí)例,證明了他們提出的這種理念在各個(gè)方面都要優(yōu)于以前的所謂最先進(jìn)的技術(shù)

作為自動(dòng)駕駛技術(shù)研究重要突破,UniAD 模型兼并了“多任務(wù)” 和“高效率”的特性,這次的獲獎(jiǎng)很大概率上也代表了當(dāng)下自動(dòng)駕駛未來(lái)的發(fā)展趨勢(shì)。

02

落地還需要時(shí)間

在自動(dòng)駕駛領(lǐng)域,端到端的大模型其實(shí)并不是什么新鮮概念。

早在2021年8月,特斯拉的 AI 高級(jí)總監(jiān)Andrej Karpathy,就在特斯拉 AI DAY 上展示了一項(xiàng)新技術(shù)基于 Transformer 的 BEV (鳥瞰視角) 的感知方案。

這個(gè)方案,相當(dāng)于車輛正上方有一駕無(wú)人機(jī)在俯視車輛與周圍環(huán)境,這也是大模型技術(shù)首次應(yīng)用于自動(dòng)駕駛領(lǐng)域。

如今兩年的時(shí)間過(guò)去,大模型越來(lái)越受到廠商們的關(guān)注。

目前已經(jīng)有不少企業(yè)在端到端BEV+Transformer 模型上有所布局,除了商湯科技外,還有像特斯拉,英偉達(dá)以及毫末智行等一系列公司。

比如商湯科技和聯(lián)合實(shí)驗(yàn)室團(tuán)隊(duì)發(fā)布自動(dòng)駕駛通用UniAD大模型之前,就推出了“SenseAuto絕影”智能汽車平臺(tái),搭建了智能座艙、智能駕駛、車路協(xié)同等業(yè)務(wù)板塊。

來(lái)源:商湯科技

在智能駕駛方面,商湯提供有兩套不同的解決方案,分別是高速領(lǐng)航和城市領(lǐng)航。

其中,高速領(lǐng)航搭載5顆毫米波雷達(dá)、7顆攝像頭,采用16~48 TOPS算力平臺(tái)。城市領(lǐng)航方案則在此基礎(chǔ)上加了3個(gè)激光雷達(dá),并采用大于200TOPS的高算力平臺(tái)。

來(lái)源:商湯科技

商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家、絕影智能汽車事業(yè)群總裁王曉剛,將這些成果歸功于商湯持續(xù)建設(shè)打造“大模型+大裝置”技術(shù)路徑。

而論文中所提到的大模型技術(shù),從落地到產(chǎn)業(yè)完全跟進(jìn),仍需要很長(zhǎng)一段時(shí)間。

特別是UniAD大模型屬于囊括了所有規(guī)劃任務(wù)的超大型架構(gòu),涉及感知、預(yù)測(cè)等非常復(fù)雜的系統(tǒng),需要具備巨大的計(jì)算能力支撐,當(dāng)然也需要充足的時(shí)間去訓(xùn)練計(jì)算能力。

來(lái)源:論文

從硬件水平,到訓(xùn)練時(shí)間,再到系統(tǒng)性的技術(shù)優(yōu)化和工程落地,端到端自動(dòng)駕駛方案仍面臨很大挑戰(zhàn)。

這次獲得CVPR最佳論文獎(jiǎng),并不只是一次單純的書面意義上的獲獎(jiǎng),更像是人工智能大模型在自動(dòng)駕駛上的一次融合前瞻,多模態(tài)大模型助力的也不僅是單個(gè)車輛的自動(dòng)駕駛技術(shù),而是推動(dòng)高階自動(dòng)駕駛整體落地

所以,不管怎樣,這對(duì)于自動(dòng)駕駛行業(yè)來(lái)說(shuō)是一個(gè)振奮的消息,期待全棧端到端自動(dòng)駕駛方案的大規(guī)模應(yīng)用!

參考鏈接

1.https://mp.weixin.qq.com/s/EWMRzDExsJZ4_SYBSBaMFg

2.https://mp.weixin.qq.com/s/8svV4yxRi6TikcRivgHr_A

3.https://zhuanlan.zhihu.com/p/638780421

4.https://arxiv.org/pdf/2212.10156.pdf

5.https://arxiv.org/abs/2212.10156

6.https://github.com/OpenDriveLab/UniAD

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港