當(dāng)前位置：人工智能實驗室> 車聯(lián)網(wǎng)/無人駕駛 > 大模型竟塞進自動駕駛，AI會解說自己怎么開車了！

大模型竟塞進自動駕駛，AI會解說自己怎么開車了！
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-09-17 17:58:04 瀏覽：11906次

導(dǎo)讀：新智元報道編輯：Aeneas 好困【新智元導(dǎo)讀】 Wayve推出的LINGO-1，讓自動駕駛長嘴了！這車該怎么開，它自個給自個解說，大語言模型，再也不是黑盒了。自發(fā)明以來，自動駕駛最讓人擔(dān)心之處，莫過于人類無法知道它的腦子里到底在想些什么。今天開始，它居...

新智元報道

編輯：Aeneas 好困

【新智元導(dǎo)讀】Wayve推出的LINGO-1，讓自動駕駛長嘴了！這車該怎么開，它自個給自個解說，大語言模型，再也不是黑盒了。

自發(fā)明以來，自動駕駛最讓人擔(dān)心之處，莫過于人類無法知道它的腦子里到底在想些什么。

今天開始，它居然可以把自己的想法「講出來」了？

最近，Wayve推出了基于視覺語言行動的大模型（VLAMs）的自動駕駛交互大模型LINGO-1，把大語言模型和自動駕駛進行了深度融合。

具體來說，LINGO-1訓(xùn)練了一個視頻語言模型，它可以說是相當(dāng)有個性可以對眼前正在進行的場景發(fā)表評論！

-你在干嘛？

-我在小心翼翼地穿越車流，因為目前路面情況很復(fù)雜。

-下一步你打算要做什么？

-我要準(zhǔn)備左轉(zhuǎn)了。

-眼前的場景中有哪些潛在風(fēng)險？

-信號燈，騎自行車的人，過馬路的行人

你對智駕系統(tǒng)的疑惑，它統(tǒng)統(tǒng)給你解釋清楚。

問：為什么停下了？答：因為現(xiàn)在是紅燈。

在經(jīng)過各種視覺和語言數(shù)據(jù)的訓(xùn)練之后，LINGO-1不僅可以執(zhí)行視覺問答（VQA）任務(wù)，如感知、反事實、規(guī)劃、推理和注意力，而且還能對駕駛行為和推理進行描述。

也就是說，我們可以通過對LINGO-1進行提問，來了解影響駕駛決策的因素是什么。

網(wǎng)友感慨道：「端到端的黑盒，就這么被打開了，簡直是GPT時代的大力出奇跡。自動駕駛系統(tǒng)離真實的物理世界交互，又前進了一大步�！�

可以想象，隨著我們突破具身人工智能的界限，視覺-語言-行動模型將產(chǎn)生巨大的影響，因為語言提供了一種新的模式，來增強我們解釋和訓(xùn)練自動駕駛模型的方式。

自動駕駛車?yán)镞M來一個捧哏的？

LINGO-1中的獨特之處在于引入了一個人類專家，對駕駛場景的語言評論解說數(shù)據(jù)進行訓(xùn)練，讓模型把環(huán)境感知、行動決策和類人的場景解讀聯(lián)系在一起。

這樣，它就可以通過自然語言交互，來解讀自動駕駛系統(tǒng)的決策和行動了。

英偉達高級AI科學(xué)家Jim Fan興奮地點評道：這是我近期讀到的自動駕駛領(lǐng)域最有趣的作品！

從前的自動駕駛，是「感知 ->駕駛操作」，而以后的自動駕駛，加進了推理的這一步，是「感知->文字推理->行動」。

這個新加的顯式推理步驟，有哪些優(yōu)點？Jim Fan解釋如下

- 可解釋性：駕駛模型不再是一個神秘的黑盒。

- 反事實情景：它能夠想象出訓(xùn)練數(shù)據(jù)中沒有的場景，并推理出如何正確地進行處理。

- 長尾編程：駕駛中存在大量邊緣場景，要對所有場景進行良好的數(shù)據(jù)覆蓋是不可能的。與其收集成千上萬的示例來對一個案例進行「神經(jīng)編程」，不如讓人類專家編寫提示（prompt）來解釋少量的示例，從而指導(dǎo)系統(tǒng)如何處理特定或復(fù)雜的情景。

不僅如此，LINGO-1還和游戲人工智能領(lǐng)域的一些研究密切相關(guān)，比如MineDojo和思想克隆，它們都是AI智能體。

前者可以學(xué)習(xí)一種獎勵模型，把評論文本和「我的世界」（Minecraft）游戲視頻像素關(guān)聯(lián)起來。后者可以實現(xiàn)「像素->語言->行動循環(huán)」的一整套鏈路。

LINGO-1開環(huán)駕駛解說員

自個解說自個

模型在關(guān)注什么？在做什么？現(xiàn)在，這些都不是謎了。

LINGO-1會對你解釋清楚，它的每一步行動是在干嘛。

比如它想超越一輛停在路邊的車輛

LINGO-1：由于車流緩慢，我正在超車。

LINGO-1：我正在超越一輛停在路邊的汽車。

LINGO-1：由于前方道路暢通，我正在加速。

駛近斑馬線時

LINGO-1：我正在保持車速；道路仍然暢通無阻。

LINGO-1：現(xiàn)在正在剎車減速。

LINGO-1：在斑馬線處停下。

LINGO-1：我正在從停止的位置加速。

LINGO-1：我正在加速，因為道路通暢。

在十字路口左轉(zhuǎn)時

LINGO-1：我保持不動，因為前車也停了下來。

LINGO-1：我正在加速，因為前車已經(jīng)駛離。

LINGO-1：我正在踩剎車，準(zhǔn)備在路口停車。

LINGO-1：我正在前進，因為車道暢通。

LINGO-1：完成左轉(zhuǎn)，沿著路線行駛。

視覺問答（VQA）

除了能解說自個兒，LINGO-1還能針對你的提問進行答疑，讓我們能夠評估它的場景理解和推理能力。

比如，如果問LINGO-1，在這個十字路口要注意什么？

它會說：「我得注意前面的信號燈、我前面騎自行車的人和正在穿過道路的行人�！�

問一下LINGO-1，現(xiàn)在是什么天氣？會對駕駛產(chǎn)生什么影響？

它會說：「現(xiàn)在是雨天，我開車時需要極其小心，因為雨天路面濕滑，能見度降低�！�

LINGO-1，你該怎樣安全地和自行車并排行駛？

它會說：「我得和騎自行車的人保持距離，必要的時候停下來，它是一個潛在危險。另外路邊停的車我也得注意�！�

關(guān)鍵：駕駛解說數(shù)據(jù)集

開發(fā)LINGO-1的關(guān)鍵，就在于創(chuàng)建一個可擴展的多樣化數(shù)據(jù)集。這個數(shù)據(jù)集包含了專業(yè)駕駛員在英國各地駕駛時的解說，包括圖像、語言和行動數(shù)據(jù)。

這讓我們想起在駕校時跟教練學(xué)開車時的場景他們會不時發(fā)表類似下面這樣的評論和解說，解釋自己在駕駛時為什么要有這種行為，好讓學(xué)員們舉一反三。

-前方車輛/交通信號燈有變，請減速

-現(xiàn)在該變換車道了

-可以加速了，注意不要超過最高限速

-注意！其他車輛駛?cè)氲缆?停在十字路口了

-注意前方環(huán)島和讓路標(biāo)志

-前方有停放車輛/交通信號燈/學(xué)校

-旁邊車輛正在變道/超過停在路邊的車輛

-騎車的人/行人正在斑馬線上等候

當(dāng)以上這些語句和感官圖像、底層駕駛動作在時間上同步時，研究者就得到了豐富的視覺-語言-行動數(shù)據(jù)集，可以用于訓(xùn)練各種任務(wù)的模型。

視覺-語言-行動模型（VLAM）

LLM崛起后，許多視覺語言模型（VLM）都將LLM的推理能力與圖像和視頻相結(jié)合。

而Wayve進一步推出了視覺-語言-行動模型（VLAM），包含三種信息圖像、駕駛數(shù)據(jù)和語言。

以前，在機器人訓(xùn)練（尤其自動駕駛領(lǐng)域）中，很少會用到自然語言。

如果加進了自然語言，就會讓我們更有力地解釋和訓(xùn)練基礎(chǔ)駕駛模型，這種嶄新的模式會產(chǎn)生巨大的影響。

通過用語言來解釋駕駛場景中的各種因果因素，就可以加快模型的訓(xùn)練速度，推廣到全新的場景中。

而且，既然可以向模型問問題，我們就能知道模型究竟理解了什么，它的推理和決策能力有多強。

自動駕駛系統(tǒng)也不再是個神秘的黑盒，我們開車時可以時不時地問問它：你在想啥？

這無疑會提高大眾對自動駕駛的信任。

另外，雖然只有少量的訓(xùn)練樣本，但自然語言的快速學(xué)習(xí)能力，可以讓模型迅速高效地學(xué)習(xí)新任務(wù)、適應(yīng)新場景。

比如，只要我們用自然語言告訴模型「這種行為不對」，就能糾正自動駕駛系統(tǒng)的錯誤行為。

從此，或許只需要自然語言，就能為端到端自動駕駛建立基礎(chǔ)模型了！

準(zhǔn)確率60%

這段時間，團隊一直在對模型架構(gòu)和訓(xùn)練數(shù)據(jù)集進行改進。

從圖中不難看出，LINGO-1的性能相比于最開始已經(jīng)提高了一倍。

目前，LINGO-1的準(zhǔn)確率已經(jīng)達到了人類水平的60%。

顯然，自然語言的引入，可以在多個方面徹底改變自動駕駛技術(shù)。

提高端到端模型的可解釋性

機器學(xué)習(xí)模型缺乏可解釋性的問題，一直以來都是研究的焦點。

通過創(chuàng)建基于自然語言的交互界面，可以讓用戶直接進行提問并讓AI解答，從而深入了解模型對場景理解以及是如何做出決策的。

這種乘客與自動駕駛汽車之間的獨特對話，可以提高透明度，讓人更容易理解和信任這些系統(tǒng)。

同時，自然語言還能增強模型適應(yīng)人類反饋并從中學(xué)習(xí)的能力。

就像教練指導(dǎo)學(xué)生駕駛一樣，隨著時間的推移，糾正指令和用戶反饋可以完善模型的理解和決策過程。

更好的規(guī)劃和推理，提高駕駛性能

有兩個主要的因素會影響自動駕駛性能：

1. 語言模型準(zhǔn)確解釋各種輸入模式場景的能力

2. 模型將中層推理轉(zhuǎn)化為有效底層規(guī)劃的熟練程度

對此，團隊正在嘗試通過LINGO的自然語言、推理和規(guī)劃能力，來對閉環(huán)駕駛模型進行增強。

Wayve LINGO-1閉環(huán)自動駕駛模型

新場景或長尾場景的高效學(xué)習(xí)

平時，一張圖片勝過千言萬語。

但在訓(xùn)練模型時，是一段文字勝過千幅圖片。

現(xiàn)在，我們不再需要成千上萬個汽車為行人減速的示例，只需要幾個示例，配上簡短的文字說明，就可以教會模型減速，讓它學(xué)會在這種情況下應(yīng)該如何行動，應(yīng)該考慮什么。

要知道，在自動駕駛中，最重要的部分之一就是因果推理，它能讓系統(tǒng)理解場景中元素和行為之間的關(guān)系。

一個性能良好的VLAM，可以讓系統(tǒng)將在斑馬線上等待的行人與「請勿穿越」的交通信號牌聯(lián)系起來。這種數(shù)據(jù)有限的挑戰(zhàn)性場景中極有意義。

另外，LLM早已從互聯(lián)網(wǎng)數(shù)據(jù)集中掌握了大量人類行為知識，因此能夠理解識別物體、交通法規(guī)和駕駛操作等概念，比如樹、商店、房子、追逐球的狗和停在學(xué)校門口的公交車之間的區(qū)別。

通過VLAM對圖形數(shù)據(jù)更廣泛的信息編碼，自動駕駛會變得更先進、更安全。

局限性

當(dāng)然，LINGO-1也存在著一定的局限性。

泛化

LINGO-1是根據(jù)倫敦市中心的駕駛經(jīng)驗和互聯(lián)網(wǎng)規(guī)模的文本進行訓(xùn)練的。

雖然已經(jīng)學(xué)到了全世界的駕駛文化，但目前最擅長的還是對英國的交通法規(guī)進行解讀。

它還需要學(xué)習(xí)其他國家的駕駛經(jīng)驗。

幻覺

在大語言模型中，幻覺是一個眾所周知的問題，LINGO-1也不例外。

不過比起一般LLM，LINGO-1有一個優(yōu)勢：因為以視覺、語言和行動為基礎(chǔ)，它就有了更多的監(jiān)督來源，從而可以更好地理解世界。

上下文

視頻深度學(xué)習(xí)之所以具有挑戰(zhàn)性，是因為視頻數(shù)據(jù)通常比圖像或文本數(shù)據(jù)集大幾個數(shù)量級。

基于視頻的多模態(tài)語言模型尤其需要較長的上下文長度，以便能夠嵌入許多視頻幀，來推理復(fù)雜的動態(tài)駕駛場景。

閉環(huán)推理

目前，Wayve正在研究模型的可解釋性，但最終，他們LLM的推理能力能夠真正影響到人類的駕駛。

研究者正在開發(fā)一種閉環(huán)架構(gòu)，未來能在自動駕駛車輛上運行LINGO-1。

網(wǎng)友討論

對此，網(wǎng)友們也覺得很振奮人心。

「有趣的是，我認(rèn)為語言模型是用文字解釋了駕駛控制模型的轉(zhuǎn)向、制動和油門預(yù)測，而不是影響駕駛本身，因為自然語言會丟失所需的精度。」

「通過這種方法，我們正在非常接近AGI。」

「可以認(rèn)為它是在世界模型中添加語言。我一直不明白為什么以前從未嘗試過，因為訓(xùn)練Agent進行溝通這個想法似乎大家都能想到�！�

「從單純的感知行動到添加文本推理，這種轉(zhuǎn)變改變了游戲規(guī)則！在我看來，這正是自動駕駛中缺失的部分，因為它以非技術(shù)性的方式使可解釋性成為可能�！�

目前來說，機器人訓(xùn)練與自然語言的整合，仍處于早期階段。

而LINGO-1，正式在利用自然語言加強基礎(chǔ)駕駛模型的學(xué)習(xí)和可解釋性上，邁出的重要一步。

試想一下，以后我們只需要通過簡單的文字提示，就能讓AI告訴前面的路況，或者讓AI學(xué)習(xí)不同地區(qū)的交通法規(guī)，這個場景簡直太令人激動了！

因此，自然語言在開發(fā)更安全、更可靠的自動駕駛汽車方面，一定大有可為。

參考資料：

https://wayve.ai/thinking/lingo-natural-language-autonomous-driving/?continueFlag=94beb9def3b2abc69ded207e71ffda33

相關(guān)熱詞： 大模型塞進自動駕駛解說自己怎么開車新智元報

上一篇：讓你看不到我：基于激光雷達的自動駕駛物理攻擊

下一篇：人工智能科技革命推演

AiLab云推薦

大模型竟塞進自動駕駛，AI會解說自己怎么開車了！
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-09-17 17:58:04 瀏覽：11906次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

大模型竟塞進自動駕駛，AI會解說自己怎么開車了！ 來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-09-17 17:58:04 瀏覽：11906次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

大模型竟塞進自動駕駛，AI會解說自己怎么開車了！
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-09-17 17:58:04 瀏覽：11906次