展會(huì)信息港展會(huì)大全

給自動(dòng)駕駛AI搞個(gè)“外掛”,0.1M就能顯著提升運(yùn)動(dòng)狀態(tài)判別力,來(lái)自港大&TCL丨開(kāi)源
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2023-09-20 13:51:46   瀏覽:7753次  

導(dǎo)讀:只需100K大小的外掛,就能讓自動(dòng)駕駛AI識(shí)別物體運(yùn)動(dòng)狀態(tài)的能力大幅上升! 這是一項(xiàng)來(lái)自香港大學(xué)計(jì)算機(jī)視覺(jué)與機(jī)器智能實(shí)驗(yàn)室(CVMI Lab)和TCL AI Lab的新研究,目前論文已被CVPR 2023收錄。 研究提出了一種叫做MarS3D的輕量級(jí)模型,給原本只能識(shí)別物體是什么...

只需“100K大小的外掛”,就能讓自動(dòng)駕駛AI識(shí)別“物體運(yùn)動(dòng)狀態(tài)”的能力大幅上升!

這是一項(xiàng)來(lái)自香港大學(xué)計(jì)算機(jī)視覺(jué)與機(jī)器智能實(shí)驗(yàn)室(CVMI Lab)和TCL AI Lab的新研究,目前論文已被CVPR 2023收錄。

研究提出了一種叫做MarS3D的輕量級(jí)模型,給原本只能識(shí)別物體“是什么”的語(yǔ)義分割模型用上后,就能讓它們進(jìn)一步學(xué)會(huì)識(shí)別這些物體“是否在動(dòng)”。

而且是任意主流模型即插即用,幾乎不需要額外的計(jì)算量(推理時(shí)間只增加不到0.03秒),目前已開(kāi)源。

要知道,對(duì)于靠激光雷達(dá)來(lái)判斷周圍環(huán)境的自動(dòng)駕駛系統(tǒng)而言,其感知能力,很大程度上依賴于3D點(diǎn)云語(yǔ)義分割模型的準(zhǔn)確率和效率。

如果想提升模型識(shí)別“運(yùn)動(dòng)物體”的能力,往往需要將繁重的室外多幀點(diǎn)云數(shù)據(jù)分別進(jìn)行特征提取和處理,但這種方法不僅要增加大量計(jì)算,識(shí)別性能也沒(méi)提升多少,屬實(shí)是事倍功半。

相比之下,MarS3D參數(shù)量只有約100K大小,卻能將主流點(diǎn)云分割模型的性能提升近5%。

這究竟是怎么做到的?

100K參數(shù)讓模型學(xué)會(huì)識(shí)別“運(yùn)動(dòng)”物體

首先要了解一下3D點(diǎn)云的兩種語(yǔ)義分割任務(wù),單掃描(single-scan)和多掃描(multi-scan)。

這兩種方法的核心差異,在于能否區(qū)分物體的運(yùn)動(dòng)狀態(tài)。

單掃描任務(wù)只需要根據(jù)單幀點(diǎn)云,把場(chǎng)景中汽車、行人、道路等語(yǔ)義信息分割并標(biāo)注出來(lái)。像下圖,不同的顏色代表不同的物體,如藍(lán)色的點(diǎn)云代表車:

多掃描任務(wù),則需要根據(jù)時(shí)序上的多幀點(diǎn)云,同時(shí)分割語(yǔ)義信息和運(yùn)動(dòng)狀態(tài)。

換言之,不僅要學(xué)會(huì)區(qū)分汽車、行人、道路,還得識(shí)別這些物體是否在運(yùn)動(dòng)。如汽車標(biāo)簽擴(kuò)展成“運(yùn)動(dòng)的車”和“不動(dòng)的車”,以及行人擴(kuò)展成“運(yùn)動(dòng)的行人”和“不動(dòng)的行人”:

目前,自動(dòng)駕駛做激光雷達(dá)點(diǎn)云數(shù)據(jù)的處理,主要還是通過(guò)單掃描語(yǔ)義分割方法。

雖然能通過(guò)擴(kuò)展標(biāo)簽、融合點(diǎn)云數(shù)據(jù),直接將單掃描模型訓(xùn)練成多掃描模型,從而讓AI掌握識(shí)別物體運(yùn)動(dòng)狀態(tài)的能力,但存在兩個(gè)問(wèn)題:

一個(gè)是性能收效一般;另一個(gè)是融合點(diǎn)云數(shù)據(jù)量大,導(dǎo)致這種模型復(fù)雜、計(jì)算時(shí)間長(zhǎng),而這正是“爭(zhēng)分奪秒”的自動(dòng)駕駛系統(tǒng)無(wú)法接受的。

為了解決這兩個(gè)問(wèn)題,讓語(yǔ)義分割模型又快又好地掌握識(shí)別“運(yùn)動(dòng)物體”的方法,MarS3D橫空出世。

即使之前模型只能做單掃描語(yǔ)義分割,給它加個(gè)MarS3D后,不僅能大幅提升多掃描語(yǔ)義分割能力,區(qū)分物體“是否在運(yùn)動(dòng)”,效果還比其他多掃描方法更好。

所以,MarS3D的核心思路是什么?

具體來(lái)說(shuō),模型設(shè)計(jì)了一個(gè)基于2D CNN網(wǎng)絡(luò)的分支BEV Branch,這個(gè)模型能提取點(diǎn)云數(shù)據(jù)轉(zhuǎn)換的BEV(Bird’s Eye View)表征,即自上而下的鳥(niǎo)瞰視角。

之所以選用BEV,主要有兩個(gè)原因。

一方面,目前的運(yùn)動(dòng)物體基本都是在地上跑(即使在空中飛,也幾乎不存在垂直上升的情況),也就是說(shuō),幾乎所有的運(yùn)動(dòng)都在水平面上有位移,因此它能很好地反映物體在絕大部分場(chǎng)景中的運(yùn)動(dòng)狀態(tài);

另一方面,BEV相比點(diǎn)云數(shù)據(jù)量更小,還能通過(guò)參考幀和特征圖相減,降低點(diǎn)云稀疏性帶來(lái)表征不穩(wěn)定的問(wèn)題,即同樣靜態(tài)區(qū)域的表征近似,含有動(dòng)態(tài)物體區(qū)域的表征距離更遠(yuǎn)。此外,多尺寸卷積對(duì)表征抽取特征圖,以保證模型對(duì)不同運(yùn)動(dòng)速度的物體都有很強(qiáng)感知力。

隨后,將這個(gè)分支提取的運(yùn)動(dòng)狀態(tài)信息特征、和其他被時(shí)序嵌入向量增強(qiáng)的單掃描任務(wù)模型分支3D Branch提取的語(yǔ)義信息特征結(jié)合起來(lái),進(jìn)行特征融合,最終實(shí)現(xiàn)語(yǔ)義分割。

那么,這樣實(shí)現(xiàn)的3D點(diǎn)云語(yǔ)義分割,效果究竟怎么樣?

幾十毫秒計(jì)算,分割性能提升近5%

相比和其他輸入如RGB圖像進(jìn)行結(jié)合,論文重點(diǎn)測(cè)試了模型針對(duì)純點(diǎn)云輸入的分割效果。

從下表可見(jiàn),對(duì)于SemanticKITTI數(shù)據(jù)集,在目前主流的單掃描點(diǎn)云分割模型如SPVCNN、SparseConv和MinkUNet上,MarS3D在只給模型增加0.1M的情況下(參數(shù)量增加不到0.5%),將性能(mIoU)分別提升了4.96%、5.65%和6.24%。

同時(shí),計(jì)算時(shí)間(延遲)只增加了19ms、14ms和28ms。

5%對(duì)于模型分割性能提升有多顯著?下圖是在兩個(gè)掃描場(chǎng)景中,模型增加MarS3D前和增加后的效果對(duì)比,其中左圖是增加前,中間是增加后,右邊是真實(shí)值:

顯然,增加MarS3D后模型識(shí)別物體的效果要更好。

直接將分割效果和真實(shí)值對(duì)比,可見(jiàn)增加MarS3D后的“錯(cuò)誤值”,比增加前要低不少:

整個(gè)推理過(guò)程,只需要一塊英偉達(dá)GeForce RTX 3090 GPU就能搞定。

對(duì)MarS3D感興趣的小伙伴們,可以去試試了~

項(xiàng)目地址:

https://github.com/CVMI-Lab/MarS3D

論文地址:

https://arxiv.org/abs/2307.09316

【智能車參考】原創(chuàng)內(nèi)容,未經(jīng)賬號(hào)授權(quán),禁止隨意轉(zhuǎn)載。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港