當前位置：人工智能實驗室> 車聯(lián)網(wǎng)/無人駕駛 > 大模型得寵，智能駕駛乘風

大模型得寵，智能駕駛乘風
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-10-19 19:00:07 瀏覽：7231次

導讀：2023年10月17日，百度世界大會2023在北京首鋼園舉行。創(chuàng)始人李彥宏以歡迎來到生成式人工智能的時代開場，發(fā)表了主題為《手把手教你做AI原生應(yīng)用》的演講。作為大模型浪潮正式到來后的首次世界大會，這屆的主題被百度定為生成未來。發(fā)布會上首先亮相的產(chǎn)品，...

2023年10月17日，百度世界大會2023在北京首鋼園舉行。創(chuàng)始人李彥宏以“歡迎來到生成式人工智能的時代”開場，發(fā)表了主題為《手把手教你做AI原生應(yīng)用》的演講。作為大模型浪潮正式到來后的首次世界大會，這屆的主題被百度定為“生成未來”。發(fā)布會上首先亮相的產(chǎn)品，便是重磅的文心大模型4.0版本。相較于7個月前初次發(fā)布文心一言時坦誠的提到“不夠完美”“承認差距”，臺上的Robin這次顯然更加從容自信：

“這是我們認為迄今為止最強大的文心大模型，它的基礎(chǔ)模型實現(xiàn)了全面升級，在理解、生成、邏輯、記憶這四大能力上，相比于大家現(xiàn)在用的線上的文心一言版本是有明顯提升的，綜合水平跟GPT4相比也已經(jīng)毫不遜色。”

從現(xiàn)場的演示看，文心大模型4.0版本的確涌現(xiàn)出了相當高的智能水平。李彥宏扮演了一個“刁蠻”的測試用戶，向其詢問到“我想回承德買房，能用公積金貸款嗎，手續(xù)怎么辦？我在北京工作。”而文心大模型4.0的回答表明，即便面對這類涉及亂序表述、模糊意圖乃至潛臺詞的問題，它應(yīng)對起來依舊游刃有余。

基于全新的文心大模型核心能力，百度在過去幾個月里，對集團內(nèi)部的幾乎所有產(chǎn)品做了重構(gòu)，即李彥宏說的“手把手教你做AI原生應(yīng)用”。最核心的百度搜索在大模型加持下，已經(jīng)具備極致滿足、推薦激發(fā)、多輪交互三個特點。百度產(chǎn)品矩陣中的擔當角色，如地圖、網(wǎng)盤、文庫等在重構(gòu)后革新了用戶體驗。而像國內(nèi)首個生成式商業(yè)智能產(chǎn)品“百度GBI”和“如流”這類新一代智能工作平臺，則顯示出“AI原生”這個新要素在生產(chǎn)力方面所能創(chuàng)造的巨大價值。

當然，百度自動駕駛基于大模型的新進展，也在這次會議上向外界做了展示。目前，百度蘿卜快跑訂單總量已超過400萬單，是全球最大的自動駕駛出行服務(wù)商。百度集團資深副總裁、智能駕駛事業(yè)群組總裁李震宇以視頻方式做了演示，他在機場打了一輛蘿卜快跑的“真無人車”，車輛在繁華復雜的城市道路上穿梭自如，并最終順利達到目的地，引發(fā)現(xiàn)場一陣驚嘆。

相較于上面提到的這些互聯(lián)網(wǎng)應(yīng)用，自動駕駛跟大模型的結(jié)合有著特別的意義，因為它象征著大模型對世界的重構(gòu)從信息空間拓展到了物理空間。如李彥宏所說，大模型將會讓百度的自動駕駛能力超越經(jīng)驗系統(tǒng)，更聰明處理復雜場景，實現(xiàn)更廣泛的時空覆蓋。

01、自動駕駛長腦子

李想國慶假期前的最后一周，拉著王興和陸奇等人開了場秋季戰(zhàn)略會。這場戰(zhàn)略會上，智能駕駛被提到了空前高度，這群人單獨花了一整天來討論智駕要如何投入。李想本人在會上做了某種意義上的自我批評，他認為智駕應(yīng)該提前半年投入，也就是從去年中，而不是今年初才開始上強度。

這個判斷有著充足的現(xiàn)實素材做支撐。L2級自動駕駛在去年底已經(jīng)成為標配，而具備高速點對點和NOA的高階智能駕駛能力將在2025年達到15%以上的搭載率。從乘聯(lián)會發(fā)布的乘用車價格段市場結(jié)構(gòu)看，這個比例幾乎涵蓋了價格在25萬以上的所有車型。相對應(yīng)的，2025年智能駕駛在所有購車因素中的決策占比也將從過去的不到2%快速增長到超過30%。所以對于車企而言，尤其是瞄準中高端市場的廠商，智能駕駛是個做了不一定能活到最后，但不做一定立馬就死的必選項。

這個過程中，基于大模型的生成式AI技術(shù)將扮演關(guān)鍵的催化劑角色。具體來講，可以大致分成兩個層面。

一是由于大模型具有理解、生成、推理、記憶的能力，它將完全重塑智能座艙的體驗，“使得智能座艙內(nèi)人的體驗徹底變?yōu)槿撕吞摂M人之間的一個全新關(guān)系”。未來人跟汽車的交互將從現(xiàn)在基于圖形界面的GUI模式，轉(zhuǎn)向更符合人類通過語言交流的LUI模式。在兩年前的世界大會上，百度首次提出了“汽車機器人”的前瞻概念，而隨著大模型在智能座艙上面的普遍應(yīng)用，這個概念正在一步步變得具象和現(xiàn)實。

因此，在文心大模型的基礎(chǔ)上，結(jié)合百度對于智能汽車的理解以及過去多年在領(lǐng)域內(nèi)累積的人機交互數(shù)據(jù)，IDG進一步迭代出了智艙大模型。在具備文心大模型智力的同時，跟出行場景和車內(nèi)環(huán)境做了深度融合。OEM廠商通過官方提供的智艙開發(fā)工具鏈，可以非常方便地打造帶有車企自身特色的下一代導航、交互、信息服務(wù)、用車場景等一系列的智艙原生應(yīng)用。百度智能駕駛事業(yè)群組智能汽車業(yè)務(wù)部總經(jīng)理蘇坦在論壇上的描述，就是“通用大模型、行業(yè)大模型和品牌大模型，是讓用戶體驗變得越來越好的三級火箭。”

在智能座艙之外，大模型還將對自動駕駛技術(shù)本身帶來躍進，百度稱之為智駕或者視覺大模型。最近一段時間，國內(nèi)自動駕駛行業(yè)最重要的一波技術(shù)潮流，就是車企紛紛轉(zhuǎn)型基于BEV+Transformer的純視覺路線。

在此之前，智能駕駛系統(tǒng)實際是以傳統(tǒng)的組件堆砌方式實現(xiàn)的。例如在感知領(lǐng)域，不同的小模型負責不同的功能，然后這些小模型組合在一起形成一個系統(tǒng)。例如，車道線的檢測、紅綠燈的檢測和障礙物的檢測都由各自的小模型實現(xiàn)。但這種方式顯然會給數(shù)據(jù)搜集和系統(tǒng)智能化的組合帶來問題。

規(guī)劃控制方面也類似，過去是基于規(guī)則和經(jīng)驗的系統(tǒng)，就是說提供一些預定義的規(guī)則或者訓練系統(tǒng)時喂給它不同的場景，讓系統(tǒng)知道后續(xù)再次遇到類似場景應(yīng)該如何做。這樣做帶來了兩個問題，首先是有些場景下你很難把規(guī)則說清楚。比如10月4號，清華、港大和UCB的研究人員就在arXiv上剛剛發(fā)表了一篇論文。他們舉了個例子，如果前面的路口沒有交通信號燈，而正駕駛車輛打算左轉(zhuǎn)的你，迎面來了一輛直行車輛。這種情況下，熟悉交通規(guī)則的人類駕駛員直覺上就知道要減速讓行，但現(xiàn)有的高級自動駕駛系統(tǒng)卻往往需要設(shè)計極其復雜的規(guī)則或者獎懲函數(shù)才能有效處理類似場景。

其次是很難處理corner case，因為高頻剛需的場景會給系統(tǒng)留下最多的“經(jīng)驗”。筆者在上海人工智能實驗室和華東師大研究者合作的一篇論文里，就看到了一個有趣的例子。下面這兩張圖片非常類似，但左圖在貨車上的交通錐應(yīng)該理解為貨物，而右圖在地上的交通錐又應(yīng)該理解為真正的道路標識，而這兩種情況又對應(yīng)著不同的動作。你可以整一堆包含類似corner case的數(shù)據(jù)集，比如裝交通錐的是大皮卡小皮卡或者三輪車，讓自動駕駛系統(tǒng)學會應(yīng)對這種情況，知道遇到作為“貨物”的交通錐不需要剎車。但棘手的是，算法又會在交通錐作為“道路標識”的時候弄不明白狀態(tài)。

而在有了大模型過后，自動駕駛系統(tǒng)也就被賦予了常識，汽車就像人的腦子一樣，可以基于常識通過推理解決上面提到的問題。就像蘇坦在下午的論壇上所闡述的，基于BEV的感知大模型正在以吞食天地的速度快速消滅過去多個零散組合式的小模型，從而形成完整的一站式的大感知模型。同時，決策和規(guī)劃相關(guān)部分也開始迅速引入大模型相關(guān)技術(shù)，開始從過去的經(jīng)驗系統(tǒng)、規(guī)則系統(tǒng)快速變成一套學習系統(tǒng)和一個向上可自我迭代的智能化系統(tǒng)。

目前，百度已經(jīng)基于BEV大模型打造了高階輔助駕駛，并且跑通了泊車、高速和城市的全域場景。據(jù)蘇坦介紹，在城市場景中，百度的純視覺方案已經(jīng)實現(xiàn)了與有激光雷達同樣好的產(chǎn)品體驗。對智能汽車行業(yè)有關(guān)注的讀者大概知道，過去幾年這個賽道非常卷，廠家經(jīng)常以堆料的方式顯示自己的誠意。但歸根結(jié)底消費者關(guān)心的是使用體驗，如果去掉不需要的激光雷達，那么產(chǎn)品的物料成本會更低很多，車企也會有更好的競爭力。

在下午“大模型重構(gòu)智能汽車”論壇分享的末尾，官方還披露了一個振奮人心的消息。國內(nèi)首個純視覺城市領(lǐng)航高階智駕產(chǎn)品Apollo City Driving Max將在今年四季度量產(chǎn)落地，屆時大家將能看到整個自動駕駛底層技術(shù)在基于大模型深度重構(gòu)后所帶來的澎湃的產(chǎn)品力、良好的用戶體驗和科技給整個社會帶來的推動力。

02、“重構(gòu)”帶來機遇

自去年底ChatGPT面世以來，國內(nèi)的科技公司爭先恐后加入到研發(fā)大模型的行列，把原本已經(jīng)部分沉寂的AI行業(yè)推向了一個新的高潮。而與此同時，出于降本增效或是其他理由，大廠也紛紛對某些業(yè)務(wù)線做了收縮和調(diào)整。于是在這一進一退的對比中，也就有了外界解讀和揣測的余地。

比如，不少媒體就認為大模型擠壓了自動駕駛業(yè)務(wù)的生存空間，這是一個“新歡”取代“舊愛”的故事模板。

當然，這類新聞中引起最大關(guān)注的，是百度的動作。原因也很簡單，過去十年百度一直堅持對自動駕駛和其他人工智能領(lǐng)域的投入。無論是在公眾認識里，還是說實際的技術(shù)儲備，百度自動駕駛都算是領(lǐng)頭羊。而這輪大模型浪潮中，百度又因為最早發(fā)布文心一言并持續(xù)迭代給外界留下了深刻印象。

的確，過去這段時間百度在大模型方面的進展聲量頗大，但由此下結(jié)論說百度放棄了自動駕駛就多少談得上是癔癥了。

說百度因為大模型放棄自動駕駛的人估計沒搞明白一個技術(shù)問題，就是大模型本身就是自動駕駛的一個大buff。如我們在上面一章提到的，有了大模型過后，像是自動駕駛技術(shù)原來面臨的復雜規(guī)則、長尾場景或是決策的可解釋性這些都將得到改善。既然自動駕駛領(lǐng)域本身就落在大模型所要重構(gòu)的目標域內(nèi)，那么對大模型浪潮的追逐不就包含了對自動駕駛的追逐嗎？何談因此廢彼呢？

事實上，業(yè)界的觀點是自動駕駛技術(shù)即將在兩三年內(nèi)迎來拐點。弗若斯特沙利文的研報顯示，雖然當前傳統(tǒng)出租車/網(wǎng)約車單公里成本仍然顯著低于Robotaxi，但到2026的時候局面就會發(fā)生逆轉(zhuǎn)。

在智能汽車行業(yè)拐點臨近之際，百度Apollo在技術(shù)落地和量產(chǎn)交付的時候反而是提速的。截至當前，Apollo汽車智能化解決方案已在31個汽車品牌、211款車型量產(chǎn)，累計搭載超900萬輛。今年8月，搭載了Apollo Highway Driving Pro領(lǐng)航輔助智駕產(chǎn)品的新嵐圖FREE正式上市，也是Apollo行泊一體智駕產(chǎn)品的首款量產(chǎn)車型。接下來，在23年內(nèi)還將有近十款搭載百度Apollo高階智駕產(chǎn)品的車型量產(chǎn)。

對于一個累計投入了十年耗費巨大的領(lǐng)域，在它即將兌現(xiàn)紅利的黎明之前，百度怎么可能放棄臨門一腳呢？

03、寫在最后

在中國頭部的互聯(lián)網(wǎng)公司里，百度對技術(shù)的執(zhí)著尤其突出。在過去超過十年的時間里，李彥宏對包括自動駕駛在內(nèi)的人工智能技術(shù)做了持續(xù)和巨大的投入。所以當大模型浪潮到來的時候，百度已然做好了充分的準備。

就目前的狀況而言，一個客觀的現(xiàn)實是，百度在自動駕駛和大模型兩方面都處于領(lǐng)先位置。由于大模型將在自動駕駛技術(shù)的發(fā)展中起到催化劑的作用，本就具有身位優(yōu)勢的百度自動駕駛大概率會因大模型的加持做得更好。毫無疑問，百度不會在大模型和自動駕駛之間做二選一，而是全都要。

*題圖及文中配圖來源于網(wǎng)絡(luò)。