日韩欧美高清,欢迎访问国产精品51麻豆CM传媒,性生交大片免费

科學(xué)家研發(fā)自動(dòng)駕駛新模塊，讓自動(dòng)駕駛場(chǎng)景理解更接近人類(lèi)認(rèn)知

來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-04-11 09:17:45 瀏覽：7263次

導(dǎo)讀：近日，清華大學(xué)碩士生徐冬陽(yáng)和所在團(tuán)隊(duì)，為了助力自動(dòng)駕駛技術(shù)的進(jìn)一步發(fā)展，他們提出一款名為 LVAFusion 的模塊，旨在更高效、更準(zhǔn)確地融合多模態(tài)信息。圖 | 徐冬陽(yáng)（來(lái)源：徐冬陽(yáng)）自動(dòng)駕駛在路上應(yīng)該具備學(xué)習(xí)優(yōu)秀人類(lèi)駕駛員的能力，因?yàn)槿祟?lèi)在面對(duì)多數(shù)...

近日，清華大學(xué)碩士生徐冬陽(yáng)和所在團(tuán)隊(duì)，為了助力自動(dòng)駕駛技術(shù)的進(jìn)一步發(fā)展，他們提出一款名為 LVAFusion 的模塊，旨在更高效、更準(zhǔn)確地融合多模態(tài)信息。

圖 | 徐冬陽(yáng)（來(lái)源：徐冬陽(yáng)）

自動(dòng)駕駛在路上應(yīng)該具備學(xué)習(xí)優(yōu)秀人類(lèi)駕駛員的能力，因?yàn)槿祟?lèi)在面對(duì)多數(shù)場(chǎng)景的時(shí)候，可以迅速地定位在關(guān)鍵區(qū)域。

為了提高端到端自動(dòng)駕駛模型的可解釋性，該團(tuán)隊(duì)首次引入人類(lèi)駕駛員的注意力機(jī)制。

通過(guò)預(yù)測(cè)當(dāng)前上下文中的駕駛員注意區(qū)域，他們將其作為一個(gè)掩碼來(lái)調(diào)整原始圖像的權(quán)重，從而使自動(dòng)駕駛車(chē)輛能夠像經(jīng)驗(yàn)豐富的人類(lèi)駕駛員一樣，具備有效定位和預(yù)測(cè)潛在風(fēng)險(xiǎn)因素的能力。

預(yù)測(cè)駕駛員視覺(jué)注視區(qū)域的引入，不僅為下游決策任務(wù)提供更具細(xì)粒度的感知特征，從而可以更大程度地保證安全。而且，也讓場(chǎng)景理解過(guò)程更加接近人類(lèi)認(rèn)知，從而能夠提高可解釋性。

（來(lái)源：arXiv）

就潛在應(yīng)用來(lái)說(shuō)：

其一，本次開(kāi)發(fā)的 LVAfusion 模塊能被用于配有激光雷達(dá)的車(chē)上，有望提高多模態(tài)大模型的感知融合能力。

其二，本次模型可以和現(xiàn)有多模態(tài)大模型結(jié)合。

比如，駕駛員注意力機(jī)制可以實(shí)時(shí)輸出，讓乘客實(shí)時(shí)觀察當(dāng)前大模型所認(rèn)為權(quán)重較大的板塊。

如果乘客認(rèn)為不合理，可以語(yǔ)音告訴端到端模型，從而實(shí)現(xiàn)自動(dòng)調(diào)節(jié)，進(jìn)而實(shí)現(xiàn)持續(xù)學(xué)習(xí)和不斷優(yōu)化。

端到端自動(dòng)駕駛好在哪里？

據(jù)介紹，自動(dòng)駕駛包括環(huán)境感知、定位、預(yù)測(cè)、決策、規(guī)劃及車(chē)輛控制等關(guān)鍵環(huán)節(jié)，通過(guò)協(xié)調(diào)這些模塊可以對(duì)周?chē)h(huán)境進(jìn)行實(shí)時(shí)感知和安全導(dǎo)航。

然而，這種系統(tǒng)架構(gòu)不但代碼量巨大、后處理邏輯復(fù)雜、后期維護(hù)成本高。

而且在實(shí)際應(yīng)用過(guò)程中容易出現(xiàn)誤差累積的現(xiàn)象，比如前方突然出現(xiàn)行人，由于感知模塊的漏檢，下游的預(yù)測(cè)決策模塊沒(méi)有行人的信息輸入，可能導(dǎo)致危險(xiǎn)的發(fā)生。

而端到端自動(dòng)駕駛則有望解決這個(gè)問(wèn)題。端到端自動(dòng)駕駛，是指使用深度學(xué)習(xí)模型直接從原始輸入數(shù)據(jù)（如攝像頭圖像，激光雷達(dá)點(diǎn)云），到控制命令（如方向盤(pán)轉(zhuǎn)角、油門(mén)和剎車(chē)）的轉(zhuǎn)換過(guò)程。

該方法試圖簡(jiǎn)化傳統(tǒng)的多模塊自動(dòng)駕駛系統(tǒng)，將整個(gè)駕駛?cè)蝿?wù)看作是一個(gè)從感知到行為的映射問(wèn)題。

端到端學(xué)習(xí)的關(guān)鍵優(yōu)勢(shì)在于它可以降低系統(tǒng)的復(fù)雜性，并有潛力提高泛化能力，因?yàn)槟Ｐ涂梢员挥?xùn)練來(lái)直接處理多種不同的駕駛情況。

并且，多模態(tài)端到端自動(dòng)駕駛通過(guò)整合來(lái)自攝像頭、激光雷達(dá)和雷達(dá)等多種傳感器的數(shù)據(jù)，有望提高系統(tǒng)對(duì)復(fù)雜環(huán)境的理解和反應(yīng)能力，增強(qiáng)決策的準(zhǔn)確性和魯棒性，從而提升自動(dòng)駕駛車(chē)輛的安全性和可靠性。

然而，端到端自動(dòng)駕駛基于黑盒化的深度學(xué)習(xí)模型，因此如何提高模型的駕駛性能、以及提高模型的可解釋性，是一個(gè)急需解決的問(wèn)題和痛點(diǎn)。

現(xiàn)有的大量方法都是端到端自動(dòng)駕駛，徐冬陽(yáng)和所在團(tuán)隊(duì)詳細(xì)分析模型結(jié)構(gòu)之后發(fā)現(xiàn)，此前人們并沒(méi)有很好地利用多模態(tài)信息。

攝像頭具有豐富的語(yǔ)義信息，但是缺乏深度信息。激光雷達(dá)可以提供很好的距離信息。因此，二者具有很好的互補(bǔ)特性。

但是，現(xiàn)有端到端學(xué)習(xí)方法大部分采用骨干網(wǎng)絡(luò)分別提取模態(tài)信息之后，在高維空間里面進(jìn)行拼接，或采用 Transformer 針對(duì)多模態(tài)信息進(jìn)行融合。

其中，查詢(xún) Query 是隨機(jī)初始化的，這個(gè)過(guò)程可能導(dǎo)致在采用注意力機(jī)制進(jìn)行融合的過(guò)程中，無(wú)法利用埋藏在多模態(tài)特征中的先驗(yàn)知識(shí)。

進(jìn)而可能會(huì)導(dǎo)致跨多種模態(tài)的同一個(gè)關(guān)鍵對(duì)象的錯(cuò)位，最終導(dǎo)致模型學(xué)習(xí)的收斂速度變慢和次優(yōu)。

中關(guān)村的雪天冬夜里，敲著代碼做實(shí)驗(yàn)

研究中，隨著徐冬陽(yáng)專(zhuān)業(yè)技能的積累、以及端到端自動(dòng)駕駛的發(fā)展，在閱讀文獻(xiàn)時(shí)他發(fā)現(xiàn)了端到端領(lǐng)域仍然存在一些不足。

比如，沒(méi)有充分探究是否融合了多模態(tài)信息，如何在保證精度的前提下提高模型的可解釋性。一番研究之后，徐冬陽(yáng)選擇了端到端自動(dòng)駕駛作為研究課題。

端到端自動(dòng)駕駛是一個(gè)很大的系統(tǒng)，包括感知、跟蹤、預(yù)測(cè)、決策、規(guī)劃、控制等多個(gè)模塊。因此，要設(shè)計(jì)一個(gè)可以有效串通上述模塊的方法。

確定好方法之后，則需要采集大量的數(shù)據(jù)。因?yàn)槎说蕉四Ｐ投际腔谏疃葘W(xué)習(xí)，因此需要大量數(shù)據(jù)進(jìn)行訓(xùn)練。

還得確定模型需要什么輸入和輸出，以及去自動(dòng)駕駛仿真平臺(tái) Carla 采集多種天氣、多種工況之下的數(shù)據(jù)，同時(shí)還要檢查數(shù)據(jù)的完整性。

完成數(shù)據(jù)采集之后，則要分析模型在結(jié)構(gòu)設(shè)計(jì)上，能否對(duì)本次任務(wù)起到幫助。

實(shí)驗(yàn)中，在導(dǎo)入預(yù)訓(xùn)練權(quán)重的時(shí)候，徐冬陽(yáng)把權(quán)重導(dǎo)錯(cuò)了一個(gè)。但是，由于經(jīng)過(guò)了權(quán)重匹配，因此系統(tǒng)并沒(méi)有報(bào)錯(cuò)，然而跑出來(lái)的實(shí)驗(yàn)結(jié)果總是不盡人意。

進(jìn)行大量的模型調(diào)試之后，也依舊沒(méi)有找到問(wèn)題所在。一天晚上徐冬陽(yáng)在中關(guān)村散步的時(shí)候，天上飄著大雪，他忽然想到自己還沒(méi)有查看訓(xùn)練代碼，會(huì)不會(huì)是訓(xùn)練過(guò)程的問(wèn)題呢？

于是，他立馬跑回電腦旁，看了一下訓(xùn)練過(guò)程，最終確定問(wèn)題出在預(yù)訓(xùn)練權(quán)重導(dǎo)入上。

調(diào)整之后，實(shí)驗(yàn)結(jié)果非常符合預(yù)期。“這種發(fā)現(xiàn)帶來(lái)的不僅是對(duì)于問(wèn)題的理解，更有一種深刻的滿(mǎn)足感和成就感。”徐冬陽(yáng)說(shuō)。

而由于訓(xùn)練時(shí)間比較長(zhǎng)，徐冬陽(yáng)每天晚上都會(huì)將多個(gè)任務(wù)提交到訓(xùn)練集群上。有一天晚上由于交的實(shí)驗(yàn)較多，有些任務(wù)由于優(yōu)先級(jí)的原因被停了。

第二天來(lái)看的時(shí)候，他發(fā)現(xiàn)少了一些實(shí)驗(yàn)結(jié)果，于是只得再次仔細(xì)分析結(jié)果，并將缺失的實(shí)驗(yàn)重新提交。

就在這樣繁復(fù)的過(guò)程之中，他終于完成了研究。最終，相關(guān)論文以《M2DA：融合駕駛員注意力的多模式融合 Transformer》（M2DA：Multi-Modal Fusion Transformer Incorporating Driver Attention for Autonomous Driving）為題發(fā)在 arXiv 上[1]。

圖 | 相關(guān)論文（來(lái)源：arXiv）

后續(xù)，課題組會(huì)圍繞進(jìn)一步優(yōu)化模型、拓展應(yīng)用場(chǎng)景、提高系統(tǒng)魯棒性和安全性開(kāi)展。

具體來(lái)說(shuō)：

首先，要深化多模態(tài)融合技術(shù)。

繼續(xù)探索和開(kāi)發(fā)更加高效的算法，借此改進(jìn)不同傳感器數(shù)據(jù)之間的融合方式。比如，采用圖網(wǎng)絡(luò)針對(duì)不同模態(tài)進(jìn)行匹配，而且尤其要關(guān)注在處理高動(dòng)態(tài)和復(fù)雜環(huán)境下的交通場(chǎng)景。

其次，要增強(qiáng)駕駛員的注意力模型。

即進(jìn)一步地研究駕駛員注意力的模擬機(jī)制，探索如何更加精確地預(yù)測(cè)和模擬人類(lèi)駕駛員的注意焦點(diǎn)，以及探究這些焦點(diǎn)對(duì)于駕駛決策的影響。

再次，要開(kāi)展安全性和魯棒性的驗(yàn)證。

即將現(xiàn)有模型部署到物理世界的小車(chē)中，通過(guò)更多的物理實(shí)驗(yàn)，驗(yàn)證模型在真實(shí)世界條件下的性能。

從而將研究擴(kuò)展到惡劣天氣、夜間駕駛等更廣泛、更多樣的駕駛場(chǎng)景和環(huán)境條件之中，借此驗(yàn)證和提高系統(tǒng)的通用性和適應(yīng)性。

最后，要開(kāi)展人機(jī)交互的研究。

即探索如何將這一技術(shù)與人機(jī)交互更緊密地結(jié)合，例如通過(guò)提供給駕駛員更直觀的風(fēng)險(xiǎn)警告和輔助決策支持，增強(qiáng)自動(dòng)駕駛車(chē)輛與人類(lèi)駕駛員之間的互動(dòng)。

通過(guò)這些后續(xù)研究計(jì)劃，徐冬陽(yáng)希望不僅可以提升自動(dòng)駕駛技術(shù)的性能，也能確保其更加貼近人類(lèi)駕駛行為的理解，為實(shí)現(xiàn)更安全、更智能的自動(dòng)駕駛技術(shù)打下基矗

參考資料：

1.https://arxiv.org/pdf/2403.12552.pdf

運(yùn)營(yíng)/排版：何晨龍

科學(xué)家研發(fā)自動(dòng)駕駛新模塊，讓自動(dòng)駕駛場(chǎng)景理解更接近人類(lèi)認(rèn)知
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-04-11 09:17:45 瀏覽：7263次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門(mén)排行

推薦內(nèi)容

在線(xiàn)客服

熱門(mén)欄目HotCates

關(guān)于我們

版權(quán)聲明

科學(xué)家研發(fā)自動(dòng)駕駛新模塊，讓自動(dòng)駕駛場(chǎng)景理解更接近人類(lèi)認(rèn)知 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-04-11 09:17:45 瀏覽：7263次