當(dāng)前位置：人工智能實(shí)驗(yàn)室> 車聯(lián)網(wǎng)/無(wú)人駕駛 > GPT-4V在自動(dòng)駕駛上應(yīng)用前景如何？面向真實(shí)場(chǎng)景的全面測(cè)評(píng)來(lái)了

GPT-4V在自動(dòng)駕駛上應(yīng)用前景如何？面向真實(shí)場(chǎng)景的全面測(cè)評(píng)來(lái)了
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2023-11-20 14:45:38 瀏覽：7049次

導(dǎo)讀：機(jī)器之心報(bào)道機(jī)器之心編輯部 GPT-4V 的發(fā)布讓許多計(jì)算機(jī)視覺(jué)（CV）應(yīng)用看到了新的可能。一些研究人員開(kāi)始探索 GPT-4V 的實(shí)際應(yīng)用潛力。最近，一篇題為《On the Road with GPT-4V (ision): Early Explorations of Visual-Language Model on Autonomous Driv...

機(jī)器之心報(bào)道

機(jī)器之心編輯部

GPT-4V 的發(fā)布讓許多計(jì)算機(jī)視覺(jué)（CV）應(yīng)用看到了新的可能。一些研究人員開(kāi)始探索 GPT-4V 的實(shí)際應(yīng)用潛力。

最近，一篇題為《On the Road with GPT-4V (ision): Early Explorations of Visual-Language Model on Autonomous Driving》的論文針對(duì)自動(dòng)駕駛場(chǎng)景對(duì) GPT-4V 的能力進(jìn)行了難度遞增的測(cè)試，從情景理解到推理，再到作為真實(shí)場(chǎng)景駕駛員的連續(xù)判斷和決策。

論文地址：https://arxiv.org/pdf/2311.05332.pdf

具體來(lái)說(shuō)，論文對(duì) GPT-4V 在自動(dòng)駕駛領(lǐng)域的探索主要集中在以下幾個(gè)方面：

1、情景理解：該測(cè)試旨在評(píng)估 GPT-4V 的基本識(shí)別能力，包括識(shí)別駕駛時(shí)的天氣和光照條件，識(shí)別不同國(guó)家的交通信號(hào)燈和標(biāo)志，以及評(píng)估不同類型攝像頭拍攝的照片中其他交通參與者的位置和行動(dòng)。此外，出于好奇，他們還探索了不同視角的模擬圖像和點(diǎn)云圖像。

2、推理：在這一階段，研究者深入評(píng)估了 GPT-4V 在自動(dòng)駕駛環(huán)境下的因果推理能力。這項(xiàng)評(píng)估包括幾個(gè)關(guān)鍵方面：首先，他們仔細(xì)研究了它在處理復(fù)雜 corner case（邊緣情況，即發(fā)生概率較低的可能場(chǎng)景）時(shí)的表現(xiàn)，這些情況通常是對(duì)數(shù)據(jù)驅(qū)動(dòng)感知系統(tǒng)的挑戰(zhàn)。其次，他們?cè)u(píng)估了它在提供全景視圖（surround view）方面的能力，這是自動(dòng)駕駛應(yīng)用中的一項(xiàng)重要功能。鑒于 GPT-4V 無(wú)法直接處理視頻數(shù)據(jù)，他們利用串聯(lián)的時(shí)間序列圖像作為輸入來(lái)評(píng)估其時(shí)間相關(guān)性能力。此外，他們還進(jìn)行了測(cè)試，以驗(yàn)證其將現(xiàn)實(shí)世界場(chǎng)景與導(dǎo)航圖像關(guān)聯(lián)起來(lái)的能力，從而進(jìn)一步檢驗(yàn)其對(duì)自動(dòng)駕駛場(chǎng)景的整體理解能力。

3、駕駛：為了充分發(fā)揮 GPT-4V 的潛力，研究者讓它扮演一名經(jīng)驗(yàn)豐富的駕駛員，讓它在真實(shí)的駕駛環(huán)境中根據(jù)環(huán)境做出決策。他們的方法是以一致的幀率對(duì)駕駛視頻進(jìn)行采樣，然后逐幀輸入 GPT-4V。為了幫助它做出決策，他們提供了基本的車速和其他相關(guān)信息，并告知了每段視頻的駕駛目標(biāo)。他們要求 GPT-4V 采取必要行動(dòng)，并對(duì)其選擇做出解釋，從而挑戰(zhàn)其在實(shí)際駕駛場(chǎng)景中的能力極限。

測(cè)試采用了經(jīng)過(guò)精心挑選的代表不同駕駛場(chǎng)景的圖片和視頻。測(cè)試樣本來(lái)自不同渠道，包括 nuScenes、Waymo Open 數(shù)據(jù)集、Berkeley Deep Drive-X (eXplanation) Dataset (BDD-X)、D2 -city、Car Crash Dataset (CCD)、TSDD、CODA、ADD 等開(kāi)源數(shù)據(jù)集，以及 DAIR-V2X 和 CitySim 等 V2X 數(shù)據(jù)集。此外，還有一些樣本來(lái)自 CARLA 模擬環(huán)境，其他樣本則來(lái)自互聯(lián)網(wǎng)。值得注意的是，測(cè)試中使用的圖像數(shù)據(jù)可能包括時(shí)間戳截至 2023 年 4 月的圖像，有可能與 GPT-4V 模型的訓(xùn)練數(shù)據(jù)重疊，而本文中使用的文本查詢完全是重新生成的。

實(shí)驗(yàn)結(jié)果表明，GPT-4V 在情景理解、意圖識(shí)別和駕駛決策等方面展現(xiàn)出超越現(xiàn)有自動(dòng)駕駛系統(tǒng)的潛力。

在 corner case 中，GPT-4V 可利用其先進(jìn)的理解能力來(lái)處理分布外（OOD）的情況，并能準(zhǔn)確評(píng)估周圍交通參與者的意圖。GPT-4V 利用多視角圖像和時(shí)間照片實(shí)現(xiàn)對(duì)環(huán)境的完整感知，準(zhǔn)確識(shí)別交通參與者之間的動(dòng)態(tài)互動(dòng)。此外，它還能推斷出這些行為背后的潛在動(dòng)機(jī)。他們還見(jiàn)證了 GPT-4V 在開(kāi)放道路上做出連續(xù)決策的性能。它甚至能以類似人類的方式解釋導(dǎo)航應(yīng)用程序的用戶界面，協(xié)助、指導(dǎo)駕駛員進(jìn)行決策�？傊珿PT-4V 的表現(xiàn)證明了視覺(jué)語(yǔ)言模型在應(yīng)對(duì)自動(dòng)駕駛領(lǐng)域復(fù)雜挑戰(zhàn)方面的巨大潛力。

需要注意的是，研究者詳述的所有實(shí)驗(yàn)都是在 2023 年 11 月 5 日之前，利用網(wǎng)絡(luò)托管的 GPT-4V (ision)（9 月 25 日的版本）進(jìn)行的。最新版本的 GPT-4V 在 11 月 6 日 OpenAI DevDay 之后進(jìn)行了更新，在呈現(xiàn)相同圖像時(shí)可能會(huì)產(chǎn)生與本研究測(cè)試結(jié)果不同的反應(yīng)。

情景理解能力

要實(shí)現(xiàn)安全有效的自動(dòng)駕駛，一個(gè)基本前提是清楚透徹地理解當(dāng)前場(chǎng)景。該研究主要關(guān)注兩個(gè)方面：模型對(duì)周圍環(huán)境的理解、模型對(duì)各種交通參與者的行為和狀態(tài)的理解，旨在通過(guò)評(píng)估闡明 GPT-4V 解釋動(dòng)態(tài)交通環(huán)境的能力。

理解環(huán)境

為了評(píng)估 GPT-4V 理解其周圍環(huán)境的能力，該研究進(jìn)行了一系列測(cè)試，涵蓋以下關(guān)鍵方面：判斷一天中的時(shí)間、了解當(dāng)前天氣狀況、識(shí)別和解釋交通燈及標(biāo)志。

如下圖 2 所示，GPT-4V 可以識(shí)別出前視圖像是一天中什么時(shí)間的場(chǎng)景，例如「傍晚」：

天氣是一個(gè)顯著影響駕駛行為的關(guān)鍵環(huán)境因素。該研究從 nuScenes 數(shù)據(jù)集中選擇了在不同天氣條件下，在同一路口拍攝的四張照片，要求 GPT-4V 識(shí)別這些圖像中的天氣狀況，結(jié)果如下圖 3 所示：

在識(shí)別和解釋交通燈及標(biāo)志方面，GPT-4V 的表現(xiàn)明顯存在不足。如下圖 4 所示，GPT-4V 在夜間條件下成功識(shí)別出黃色路燈和紅色交通燈。然而，在圖 5 中，當(dāng)圖像中的交通燈在遠(yuǎn)處時(shí)（圖像顯示較小），GPT-4V 就錯(cuò)誤地將綠燈的倒計(jì)時(shí)識(shí)別為紅燈的倒計(jì)時(shí)。

交通標(biāo)志包含駕駛員需要遵守的各種規(guī)則和說(shuō)明。自動(dòng)駕駛系統(tǒng)需要識(shí)別交通標(biāo)志、理解并遵守這些規(guī)則，從而降低交通事故的風(fēng)險(xiǎn)，提高駕駛安全性。

從下圖 6 可以看出，GPT-4V 可以識(shí)別大多數(shù)路標(biāo)，包括附近的「SLOW」和遠(yuǎn)處的限高「4.5m」，但錯(cuò)誤地識(shí)別了「Speed Bump」標(biāo)志。GPT-4V 具有一定的交通標(biāo)志識(shí)別能力，但仍有進(jìn)一步增強(qiáng)的空間。

理解交通參與者

如下圖 7（左）所示，模型能夠完整、準(zhǔn)確地描述駕駛場(chǎng)景：識(shí)別行人、交通標(biāo)志、交通燈狀態(tài)和周圍環(huán)境。圖 7 （右）顯示模型可以識(shí)別車輛類型及其尾燈，并可以猜測(cè)其打開(kāi)尾燈的意圖。然而，GPT-4V 也輸出了一些不正確的描述，例如認(rèn)為前面的車有后視攝像頭。

該研究評(píng)估了 GPT-4V 使用各種傳感器輸入理解交通參與者行為的能力，包括 2D 圖像（圖 9）、3D 點(diǎn)云的可視化（圖 10 ）、從 V2X 設(shè)備（圖 11）和自動(dòng)駕駛模擬軟件（圖 12）獲取的圖像。

高級(jí)推理能力

推理是正確駕駛行為的另一個(gè)重要因素。鑒于交通環(huán)境的動(dòng)態(tài)性和不可預(yù)測(cè)性，駕駛員經(jīng)常會(huì)遇到一系列意外事件。面對(duì)這種不可預(yù)見(jiàn)的情況，熟練的駕駛員必須憑借經(jīng)驗(yàn)和常識(shí)做出準(zhǔn)確的判斷和決策。該研究進(jìn)行了一系列的測(cè)試來(lái)評(píng)估 GPT-4V 對(duì)意外事件的響應(yīng)。

Corner Case

如圖 13（左）所示，GPT-4V 可以清晰地描繪出不常見(jiàn)車輛的外觀、地面上的交通錐以及車輛旁邊的工作人員。識(shí)別這些條件后，GPT-4V 會(huì)意識(shí)到自我車輛應(yīng)稍微向左移動(dòng)，與右側(cè)工作區(qū)域保持安全距離，并小心駕駛。

多視圖圖像

通過(guò)利用多視角攝像頭，GPT-4V 可以捕捉駕駛環(huán)境的全面視圖，該研究評(píng)估了 GPT-4V 處理多視圖圖像的能力。

如下圖 16 所示，該研究選擇使用一組周圍環(huán)境圖像并以正確的順序?qū)⑺鼈冚斎氲侥Ｐ椭�。結(jié)果表明，GPT-4V 能夠熟練地識(shí)別場(chǎng)景中的各種元素，例如建筑物、車輛、障礙物和停車場(chǎng)，甚至可以從重疊的信息中推斷出場(chǎng)景中有兩輛汽車，其中一輛白色 SUV，一輛卡車。然而，GPT-4V 會(huì)錯(cuò)誤地識(shí)別出人行橫道。

如下圖 17 所示，在另一個(gè)實(shí)驗(yàn)中，GPT-4V 提供了對(duì)場(chǎng)景基本準(zhǔn)確的描述，但也出現(xiàn)了一些識(shí)別錯(cuò)誤，特別是在車輛的數(shù)量和形狀方面。值得注意的是，GPT-4V 會(huì)產(chǎn)生一些令人困惑的錯(cuò)覺(jué)，例如認(rèn)為圖片上有左轉(zhuǎn)標(biāo)志。研究團(tuán)隊(duì)推測(cè)這些問(wèn)題可能是由于 GPT-4V 的空間推理能力有限。

此外，該研究還嘗試給出正確的前視圖，讓 GPT-4V 識(shí)別并給亂序的周圍圖像進(jìn)行排序。盡管模型進(jìn)行了大量看似有意義的分析和推理，但最終仍然輸出錯(cuò)誤答案。顯然，GPT-4V 在建立相鄰圖像之間的連接方面遇到了挑戰(zhàn)。

時(shí)間序列

為了評(píng)估 GPT-4V 理解時(shí)間序列圖像的能力，該研究從視頻片段中提取四個(gè)關(guān)鍵幀，用序列號(hào)標(biāo)記它們，并將它們組合成單個(gè)圖像以供輸入，要求 GPT-4V 描述該時(shí)間段內(nèi)發(fā)生的事件、自我車輛采取的行動(dòng)及原因。測(cè)試結(jié)果如下圖 19、20、21、22 所示：

此外，在實(shí)際駕駛場(chǎng)景中，駕駛員經(jīng)常利用外部設(shè)備的輔助信息來(lái)增強(qiáng)決策能力，例如地圖導(dǎo)航 app。該研究為 GPT-4V 配備了前視攝像頭圖像以及來(lái)自地圖軟件的相應(yīng)導(dǎo)航信息。

下圖 23、24 表明，GPT-4V 可以利用前視攝像頭和地圖導(dǎo)航 app 信息準(zhǔn)確定位其位置，并給出相應(yīng)的駕駛建議，但在一些情況下給出的建議是錯(cuò)誤的。

駕駛能力

自動(dòng)駕駛算法的最終目標(biāo)是復(fù)制人類駕駛員的決策能力。實(shí)現(xiàn)這一目標(biāo)需要精確識(shí)別、空間感知以及對(duì)各種交通要素之間時(shí)空關(guān)系的深入理解。該研究通過(guò)在幾個(gè)不同的現(xiàn)實(shí)駕駛場(chǎng)景中測(cè)試 GPT-4V 的決策能力來(lái)評(píng)估 GPT-4V 在自動(dòng)駕駛方面的潛力。

例如，為了測(cè)試 GPT-4V 在封閉區(qū)域內(nèi)的駕駛決策能力，該研究選擇的場(chǎng)景是「右轉(zhuǎn)離開(kāi)停車徹，并需要通過(guò)安檢，測(cè)試結(jié)果如下圖 25 所示。

該研究還選擇「交通繁忙的十字路口」場(chǎng)景進(jìn)行了測(cè)試，結(jié)果如下圖 26 所示：

局限性總結(jié)

在測(cè)試中，研究人員發(fā)現(xiàn) GPT-4V 在以下任務(wù)中表現(xiàn)不佳：

1、區(qū)分左右：如圖 17 所示，在一些情況下，模型在識(shí)別方向方面遇到困難，而這正是自主導(dǎo)航的一個(gè)關(guān)鍵方面。圖 8 和圖 21 也顯示了類似的問(wèn)題。這些圖突出顯示了模型在解釋復(fù)雜路口或做出變道決策時(shí)偶爾出現(xiàn)的混亂。

2、信號(hào)燈識(shí)別：在圖 12、15、22、26 和 29 中發(fā)現(xiàn)了該問(wèn)題。研究者懷疑出現(xiàn)這一問(wèn)題的原因是全圖中包含大量語(yǔ)義信息，導(dǎo)致交通信號(hào)燈的嵌入信息丟失。當(dāng)圖像中的交通燈區(qū)域被裁剪并單獨(dú)輸入時(shí)，模型能夠成功識(shí)別，如圖 5 所示。

3、視覺(jué)定位任務(wù)：如圖 7 所示，GPT-4V 很難指定像素級(jí)坐標(biāo)或邊界框，只能指示圖像中的大致區(qū)域。

4、空間推理：準(zhǔn)確的空間推理對(duì)于自動(dòng)駕駛汽車的安全運(yùn)行至關(guān)重要。無(wú)論是如圖 18 所示的多視角圖像拼接，還是如圖 21 所示的滑板車與自動(dòng)駕駛汽車之間相對(duì)位置關(guān)系的估算，GPT-4V 都難以做出精確的判斷。這可能源于根據(jù)二維圖像輸入理解和解釋三維空間的內(nèi)在復(fù)雜性。