展會(huì)信息港展會(huì)大全

GPT-4V在自動(dòng)駕駛上應(yīng)用前景如何?面向真實(shí)場(chǎng)景的全面測(cè)評(píng)來(lái)了
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2023-11-20 14:45:38   瀏覽:7049次  

導(dǎo)讀:機(jī)器之心報(bào)道 機(jī)器之心編輯部 GPT-4V 的發(fā)布讓許多計(jì)算機(jī)視覺(jué)(CV)應(yīng)用看到了新的可能。一些研究人員開(kāi)始探索 GPT-4V 的實(shí)際應(yīng)用潛力。 最近,一篇題為《On the Road with GPT-4V (ision): Early Explorations of Visual-Language Model on Autonomous Driv...

機(jī)器之心報(bào)道

機(jī)器之心編輯部

GPT-4V 的發(fā)布讓許多計(jì)算機(jī)視覺(jué)(CV)應(yīng)用看到了新的可能。一些研究人員開(kāi)始探索 GPT-4V 的實(shí)際應(yīng)用潛力。

最近,一篇題為《On the Road with GPT-4V (ision): Early Explorations of Visual-Language Model on Autonomous Driving》的論文針對(duì)自動(dòng)駕駛場(chǎng)景對(duì) GPT-4V 的能力進(jìn)行了難度遞增的測(cè)試,從情景理解到推理,再到作為真實(shí)場(chǎng)景駕駛員的連續(xù)判斷和決策。

論文地址:https://arxiv.org/pdf/2311.05332.pdf

具體來(lái)說(shuō),論文對(duì) GPT-4V 在自動(dòng)駕駛領(lǐng)域的探索主要集中在以下幾個(gè)方面:

1、情景理解:該測(cè)試旨在評(píng)估 GPT-4V 的基本識(shí)別能力,包括識(shí)別駕駛時(shí)的天氣和光照條件,識(shí)別不同國(guó)家的交通信號(hào)燈和標(biāo)志,以及評(píng)估不同類型攝像頭拍攝的照片中其他交通參與者的位置和行動(dòng)。此外,出于好奇,他們還探索了不同視角的模擬圖像和點(diǎn)云圖像。

2、推理:在這一階段,研究者深入評(píng)估了 GPT-4V 在自動(dòng)駕駛環(huán)境下的因果推理能力。這項(xiàng)評(píng)估包括幾個(gè)關(guān)鍵方面:首先,他們仔細(xì)研究了它在處理復(fù)雜 corner case(邊緣情況,即發(fā)生概率較低的可能場(chǎng)景)時(shí)的表現(xiàn),這些情況通常是對(duì)數(shù)據(jù)驅(qū)動(dòng)感知系統(tǒng)的挑戰(zhàn)。其次,他們?cè)u(píng)估了它在提供全景視圖(surround view)方面的能力,這是自動(dòng)駕駛應(yīng)用中的一項(xiàng)重要功能。鑒于 GPT-4V 無(wú)法直接處理視頻數(shù)據(jù),他們利用串聯(lián)的時(shí)間序列圖像作為輸入來(lái)評(píng)估其時(shí)間相關(guān)性能力。此外,他們還進(jìn)行了測(cè)試,以驗(yàn)證其將現(xiàn)實(shí)世界場(chǎng)景與導(dǎo)航圖像關(guān)聯(lián)起來(lái)的能力,從而進(jìn)一步檢驗(yàn)其對(duì)自動(dòng)駕駛場(chǎng)景的整體理解能力。

3、駕駛:為了充分發(fā)揮 GPT-4V 的潛力,研究者讓它扮演一名經(jīng)驗(yàn)豐富的駕駛員,讓它在真實(shí)的駕駛環(huán)境中根據(jù)環(huán)境做出決策。他們的方法是以一致的幀率對(duì)駕駛視頻進(jìn)行采樣,然后逐幀輸入 GPT-4V。為了幫助它做出決策,他們提供了基本的車速和其他相關(guān)信息,并告知了每段視頻的駕駛目標(biāo)。他們要求 GPT-4V 采取必要行動(dòng),并對(duì)其選擇做出解釋,從而挑戰(zhàn)其在實(shí)際駕駛場(chǎng)景中的能力極限。

測(cè)試采用了經(jīng)過(guò)精心挑選的代表不同駕駛場(chǎng)景的圖片和視頻。測(cè)試樣本來(lái)自不同渠道,包括 nuScenes、Waymo Open 數(shù)據(jù)集、Berkeley Deep Drive-X (eXplanation) Dataset (BDD-X)、D2 -city、Car Crash Dataset (CCD)、TSDD、CODA、ADD 等開(kāi)源數(shù)據(jù)集,以及 DAIR-V2X 和 CitySim 等 V2X 數(shù)據(jù)集。此外,還有一些樣本來(lái)自 CARLA 模擬環(huán)境,其他樣本則來(lái)自互聯(lián)網(wǎng)。值得注意的是,測(cè)試中使用的圖像數(shù)據(jù)可能包括時(shí)間戳截至 2023 年 4 月的圖像,有可能與 GPT-4V 模型的訓(xùn)練數(shù)據(jù)重疊,而本文中使用的文本查詢完全是重新生成的。

實(shí)驗(yàn)結(jié)果表明,GPT-4V 在情景理解、意圖識(shí)別和駕駛決策等方面展現(xiàn)出超越現(xiàn)有自動(dòng)駕駛系統(tǒng)的潛力。

在 corner case 中,GPT-4V 可利用其先進(jìn)的理解能力來(lái)處理分布外(OOD)的情況,并能準(zhǔn)確評(píng)估周圍交通參與者的意圖。GPT-4V 利用多視角圖像和時(shí)間照片實(shí)現(xiàn)對(duì)環(huán)境的完整感知,準(zhǔn)確識(shí)別交通參與者之間的動(dòng)態(tài)互動(dòng)。此外,它還能推斷出這些行為背后的潛在動(dòng)機(jī)。他們還見(jiàn)證了 GPT-4V 在開(kāi)放道路上做出連續(xù)決策的性能。它甚至能以類似人類的方式解釋導(dǎo)航應(yīng)用程序的用戶界面,協(xié)助、指導(dǎo)駕駛員進(jìn)行決策?傊珿PT-4V 的表現(xiàn)證明了視覺(jué)語(yǔ)言模型在應(yīng)對(duì)自動(dòng)駕駛領(lǐng)域復(fù)雜挑戰(zhàn)方面的巨大潛力。

需要注意的是,研究者詳述的所有實(shí)驗(yàn)都是在 2023 年 11 月 5 日之前,利用網(wǎng)絡(luò)托管的 GPT-4V (ision)(9 月 25 日的版本)進(jìn)行的。最新版本的 GPT-4V 在 11 月 6 日 OpenAI DevDay 之后進(jìn)行了更新,在呈現(xiàn)相同圖像時(shí)可能會(huì)產(chǎn)生與本研究測(cè)試結(jié)果不同的反應(yīng)。

情景理解能力

要實(shí)現(xiàn)安全有效的自動(dòng)駕駛,一個(gè)基本前提是清楚透徹地理解當(dāng)前場(chǎng)景。該研究主要關(guān)注兩個(gè)方面:模型對(duì)周圍環(huán)境的理解、模型對(duì)各種交通參與者的行為和狀態(tài)的理解,旨在通過(guò)評(píng)估闡明 GPT-4V 解釋動(dòng)態(tài)交通環(huán)境的能力。

理解環(huán)境

為了評(píng)估 GPT-4V 理解其周圍環(huán)境的能力,該研究進(jìn)行了一系列測(cè)試,涵蓋以下關(guān)鍵方面:判斷一天中的時(shí)間、了解當(dāng)前天氣狀況、識(shí)別和解釋交通燈及標(biāo)志。

如下圖 2 所示,GPT-4V 可以識(shí)別出前視圖像是一天中什么時(shí)間的場(chǎng)景,例如「傍晚」:

天氣是一個(gè)顯著影響駕駛行為的關(guān)鍵環(huán)境因素。該研究從 nuScenes 數(shù)據(jù)集中選擇了在不同天氣條件下,在同一路口拍攝的四張照片,要求 GPT-4V 識(shí)別這些圖像中的天氣狀況,結(jié)果如下圖 3 所示:

在識(shí)別和解釋交通燈及標(biāo)志方面,GPT-4V 的表現(xiàn)明顯存在不足。如下圖 4 所示,GPT-4V 在夜間條件下成功識(shí)別出黃色路燈和紅色交通燈。然而,在圖 5 中,當(dāng)圖像中的交通燈在遠(yuǎn)處時(shí)(圖像顯示較小),GPT-4V 就錯(cuò)誤地將綠燈的倒計(jì)時(shí)識(shí)別為紅燈的倒計(jì)時(shí)。

交通標(biāo)志包含駕駛員需要遵守的各種規(guī)則和說(shuō)明。自動(dòng)駕駛系統(tǒng)需要識(shí)別交通標(biāo)志、理解并遵守這些規(guī)則,從而降低交通事故的風(fēng)險(xiǎn),提高駕駛安全性。

從下圖 6 可以看出,GPT-4V 可以識(shí)別大多數(shù)路標(biāo),包括附近的「SLOW」和遠(yuǎn)處的限高「4.5m」,但錯(cuò)誤地識(shí)別了「Speed Bump」標(biāo)志。GPT-4V 具有一定的交通標(biāo)志識(shí)別能力,但仍有進(jìn)一步增強(qiáng)的空間。

理解交通參與者

如下圖 7(左)所示,模型能夠完整、準(zhǔn)確地描述駕駛場(chǎng)景:識(shí)別行人、交通標(biāo)志、交通燈狀態(tài)和周圍環(huán)境。圖 7 (右)顯示模型可以識(shí)別車輛類型及其尾燈,并可以猜測(cè)其打開(kāi)尾燈的意圖。然而,GPT-4V 也輸出了一些不正確的描述,例如認(rèn)為前面的車有后視攝像頭。

該研究評(píng)估了 GPT-4V 使用各種傳感器輸入理解交通參與者行為的能力,包括 2D 圖像(圖 9)、3D 點(diǎn)云的可視化(圖 10 )、從 V2X 設(shè)備(圖 11)和自動(dòng)駕駛模擬軟件(圖 12)獲取的圖像。

高級(jí)推理能力

推理是正確駕駛行為的另一個(gè)重要因素。鑒于交通環(huán)境的動(dòng)態(tài)性和不可預(yù)測(cè)性,駕駛員經(jīng)常會(huì)遇到一系列意外事件。面對(duì)這種不可預(yù)見(jiàn)的情況,熟練的駕駛員必須憑借經(jīng)驗(yàn)和常識(shí)做出準(zhǔn)確的判斷和決策。該研究進(jìn)行了一系列的測(cè)試來(lái)評(píng)估 GPT-4V 對(duì)意外事件的響應(yīng)。

Corner Case

如圖 13(左)所示,GPT-4V 可以清晰地描繪出不常見(jiàn)車輛的外觀、地面上的交通錐以及車輛旁邊的工作人員。識(shí)別這些條件后,GPT-4V 會(huì)意識(shí)到自我車輛應(yīng)稍微向左移動(dòng),與右側(cè)工作區(qū)域保持安全距離,并小心駕駛。

多視圖圖像

通過(guò)利用多視角攝像頭,GPT-4V 可以捕捉駕駛環(huán)境的全面視圖,該研究評(píng)估了 GPT-4V 處理多視圖圖像的能力。

如下圖 16 所示,該研究選擇使用一組周圍環(huán)境圖像并以正確的順序?qū)⑺鼈冚斎氲侥P椭。結(jié)果表明,GPT-4V 能夠熟練地識(shí)別場(chǎng)景中的各種元素,例如建筑物、車輛、障礙物和停車場(chǎng),甚至可以從重疊的信息中推斷出場(chǎng)景中有兩輛汽車,其中一輛白色 SUV,一輛卡車。然而,GPT-4V 會(huì)錯(cuò)誤地識(shí)別出人行橫道。

如下圖 17 所示,在另一個(gè)實(shí)驗(yàn)中,GPT-4V 提供了對(duì)場(chǎng)景基本準(zhǔn)確的描述,但也出現(xiàn)了一些識(shí)別錯(cuò)誤,特別是在車輛的數(shù)量和形狀方面。值得注意的是,GPT-4V 會(huì)產(chǎn)生一些令人困惑的錯(cuò)覺(jué),例如認(rèn)為圖片上有左轉(zhuǎn)標(biāo)志。研究團(tuán)隊(duì)推測(cè)這些問(wèn)題可能是由于 GPT-4V 的空間推理能力有限。

此外,該研究還嘗試給出正確的前視圖,讓 GPT-4V 識(shí)別并給亂序的周圍圖像進(jìn)行排序。盡管模型進(jìn)行了大量看似有意義的分析和推理,但最終仍然輸出錯(cuò)誤答案。顯然,GPT-4V 在建立相鄰圖像之間的連接方面遇到了挑戰(zhàn)。

時(shí)間序列

為了評(píng)估 GPT-4V 理解時(shí)間序列圖像的能力,該研究從視頻片段中提取四個(gè)關(guān)鍵幀,用序列號(hào)標(biāo)記它們,并將它們組合成單個(gè)圖像以供輸入,要求 GPT-4V 描述該時(shí)間段內(nèi)發(fā)生的事件、自我車輛采取的行動(dòng)及原因。測(cè)試結(jié)果如下圖 19、20、21、22 所示:

此外,在實(shí)際駕駛場(chǎng)景中,駕駛員經(jīng)常利用外部設(shè)備的輔助信息來(lái)增強(qiáng)決策能力,例如地圖導(dǎo)航 app。該研究為 GPT-4V 配備了前視攝像頭圖像以及來(lái)自地圖軟件的相應(yīng)導(dǎo)航信息。

下圖 23、24 表明,GPT-4V 可以利用前視攝像頭和地圖導(dǎo)航 app 信息準(zhǔn)確定位其位置,并給出相應(yīng)的駕駛建議,但在一些情況下給出的建議是錯(cuò)誤的。

駕駛能力

自動(dòng)駕駛算法的最終目標(biāo)是復(fù)制人類駕駛員的決策能力。實(shí)現(xiàn)這一目標(biāo)需要精確識(shí)別、空間感知以及對(duì)各種交通要素之間時(shí)空關(guān)系的深入理解。該研究通過(guò)在幾個(gè)不同的現(xiàn)實(shí)駕駛場(chǎng)景中測(cè)試 GPT-4V 的決策能力來(lái)評(píng)估 GPT-4V 在自動(dòng)駕駛方面的潛力。

例如,為了測(cè)試 GPT-4V 在封閉區(qū)域內(nèi)的駕駛決策能力,該研究選擇的場(chǎng)景是「右轉(zhuǎn)離開(kāi)停車徹,并需要通過(guò)安檢,測(cè)試結(jié)果如下圖 25 所示。

該研究還選擇「交通繁忙的十字路口」場(chǎng)景進(jìn)行了測(cè)試,結(jié)果如下圖 26 所示:

局限性總結(jié)

在測(cè)試中,研究人員發(fā)現(xiàn) GPT-4V 在以下任務(wù)中表現(xiàn)不佳:

1、區(qū)分左右:如圖 17 所示,在一些情況下,模型在識(shí)別方向方面遇到困難,而這正是自主導(dǎo)航的一個(gè)關(guān)鍵方面。圖 8 和圖 21 也顯示了類似的問(wèn)題。這些圖突出顯示了模型在解釋復(fù)雜路口或做出變道決策時(shí)偶爾出現(xiàn)的混亂。

2、信號(hào)燈識(shí)別:在圖 12、15、22、26 和 29 中發(fā)現(xiàn)了該問(wèn)題。研究者懷疑出現(xiàn)這一問(wèn)題的原因是全圖中包含大量語(yǔ)義信息,導(dǎo)致交通信號(hào)燈的嵌入信息丟失。當(dāng)圖像中的交通燈區(qū)域被裁剪并單獨(dú)輸入時(shí),模型能夠成功識(shí)別,如圖 5 所示。

3、視覺(jué)定位任務(wù):如圖 7 所示,GPT-4V 很難指定像素級(jí)坐標(biāo)或邊界框,只能指示圖像中的大致區(qū)域。

4、空間推理:準(zhǔn)確的空間推理對(duì)于自動(dòng)駕駛汽車的安全運(yùn)行至關(guān)重要。無(wú)論是如圖 18 所示的多視角圖像拼接,還是如圖 21 所示的滑板車與自動(dòng)駕駛汽車之間相對(duì)位置關(guān)系的估算,GPT-4V 都難以做出精確的判斷。這可能源于根據(jù)二維圖像輸入理解和解釋三維空間的內(nèi)在復(fù)雜性。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港