當前位置：人工智能實驗室> 車聯(lián)網(wǎng)/無人駕駛 > 對話任少卿：世界模型是自動駕駛與機器人的新范式

對話任少卿：世界模型是自動駕駛與機器人的新范式
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-05 19:41:17 瀏覽：1825次

導讀：和任少卿的對話，是從最基本的一個智能駕駛使用場景開始的在北上廣城市快速路的限時段公交車道，智能駕駛系統(tǒng)如何能像人類一樣，限制的時間段避開，非限制時段高效利用？在過去，AI系統(tǒng)會嚴格按照人類寫好的規(guī)則駕駛。但現(xiàn)在，端到端自動駕駛模型的...

和任少卿的對話，是從最基本的一個智能駕駛使用場景開始的

在北上廣城市快速路的限時段公交車道，智能駕駛系統(tǒng)如何能像人類一樣，限制的時間段避開，非限制時段高效利用？

在過去，AI系統(tǒng)會嚴格按照人類寫好的規(guī)則駕駛。但現(xiàn)在，端到端自動駕駛模型的范式之下，手寫規(guī)則的方法開始被剔除，意味著AI系統(tǒng)需要自己去學習“限時公交車道”的特殊路況和場景，這需要時間，也可能短期內無法直接滿足需求。

所以是不是智能汽車業(yè)內業(yè)外，過于迷信“端到端”了？

自動駕駛作為一個綜合工程，為什么要端到端？

端到端又為何會出現(xiàn)在此時此刻？其本質是什么？

上述問題，沒有人比任少卿更有發(fā)言權了。他既是世界級AI科學家，深度學習經(jīng)典成果ResNet作者之一，近十年來也躬身產(chǎn)業(yè)一線，見證和實踐自動駕駛技術從研發(fā)到上車，當前是蔚來智能駕駛副總裁、蔚來自動駕駛研發(fā)的負責人。

任少卿認為端到端是一種必然，類似造車會走向一體化的必然，有技術難度但不存在誰有獨家秘籍，甚至“被強調太多了”……在他分享的四大關鍵技術要素中，模型只是第一點數(shù)據(jù)、優(yōu)化機制和功能體驗，四位一體，缺一不可。

在他的視角里，AI也好，自動駕駛也好，這幾年有變化，但本質沒有變化。于是對于很多業(yè)內熱議的具體問題，他都有著從本質出發(fā)的回答：

原來不考慮端到端是高速NOA場景簡單。

AI發(fā)展本質就2件事：一是更好效果，二是更強泛化性、更通用。

不需要有擁抱端到端的建議，我覺得被強調得太多了。

世界模型是打開通用自動駕駛的方式。

如果L4追求的就是Robotaxi，那我覺得社會意義沒那么大。

L5實現(xiàn)后，變革的不光是汽車、交通，還會是整個城市組織模式。

智能輔助駕駛和無人駕駛，技術架構上不一樣的東西沒有那么多。

激光雷達是成本問題不是技術問題，純視覺只能說系統(tǒng)更簡單，兩種路線沒有優(yōu)劣高下之分。

L3會是自動駕駛里程碑，可能就是ChatGPT時刻。

城區(qū)能不能開，是當前智能駕駛第一梯隊的分水嶺要素。

自動駕駛是泛機器人領域

世界模型的框架也能做機器人

AI一步一步地從不如人，然后超過人，是AI發(fā)展的規(guī)律

我們希望從今年開始，每年能實質性地減少10%-20%的事故

重構是對于時空理解和對原始數(shù)據(jù)理解最深刻的表現(xiàn)形式

以下是對話實錄：

聊端到端任少卿：如果說要特別精確的識別，可能還要學習怎么識別文字。

任少卿：還沒加識別文字（的能力），現(xiàn)在更多的是以歷史的經(jīng)驗去看，歷史的經(jīng)驗里可能噪聲比較多。

現(xiàn)在系統(tǒng)其實一部分是靠歷史的經(jīng)驗，一部分是實際的（感知）。比如說旁邊如果有個車進去（公交車道）了，那系統(tǒng)可能考慮也進去。旁邊一直沒有車進去，系統(tǒng)就也不會進去。

我覺得這確實是一個核心的點，需要去解決。

智能車參考：這兩年大家都在聊端到端，很多玩家All In進去。

假設沒那么原教旨主義，就寫一條規(guī)則，告訴系統(tǒng)什么時間能走公交車道，從而解決這個問題不是也挺好嗎？為什么一定要把手寫的規(guī)則都剔除掉？

任少卿：舉個例子，比如說不同城市，北京（公交車道）可能相對來說還規(guī)則一些。大部分都是早上7點到 9 點，晚上5-7點在高峰期（不能走）。

但很多其他的城市，有各種各樣的規(guī)則。

比如說上海的71路公交車，什么時間都不讓你走，還專門給它搞紅燈，連紅燈都跟別人不一樣。

那這個問題，如果讓工程師一個一個去搞，搞不定。

所以第一個事情就是剛才說的，這種案例太多了。

再比如說做AEB ，原來其實是有一個法規(guī)清單和測試標準。按照測試標準，一個一個案例去搞。

比如去判斷一下前面一輛車跟我自車的角度。

做測試時，為了提高通過標準，減少誤剎，原來寫規(guī)則時的邏輯是：

這個車的角度發(fā)生抖動，或者這個車的角度大于某個度數(shù)就不剎。

但是實際場景中，車子各種各樣，甚至你前車可能就是一個奇形怪狀的車，檢測出來的Object框一直在晃。

那AEB在這種情況下，怎么去剎車？

如果讓人去寫這個規(guī)則的話，有很多的工作要去做，整體來說效率低。

原來為什么大家不考慮端到端？

比如三五年前，大家都在高速NOA的時候，因為場景簡單。

在高速上，就看前面三輛車：

本車前面那輛車，然后左邊車道一輛車，右邊車道一輛車，三輛車一起建模，然后寫個規(guī)則結束。

雖然也得寫好幾萬行的代碼，但是它畢竟場景簡單。

現(xiàn)在到了城區(qū)，還要做主動安全，想去處理各種各樣的復雜場景，比如說城區(qū)路口的場景，拐進來的兩輪車你都不知道什么角度、什么速度，什么樣的都有可能。

如果讓人一個一個規(guī)則去寫，從根本上來說，第一個是效率的問題，第二個是效果的問題。

我覺得這是自動駕駛要搞端到端的核心原因。

如果我們跳出自動駕駛的領域，還有一個原因就是，大家要做更統(tǒng)一的東西。

其實只有自動駕駛領域的人才會說端到端和非端到端，別的領域不說這事，基本看不到。

比如做語言模型的、做機器人的，就不會蹦出來說，我端到端了，我就厲害了。

那是因為自動駕駛它本身有歷史的原因。

自動駕駛的歷史比較長，在很多年前算法模型的能力沒有這么強，所以大家只能把這件事情變成一個流水線。

就跟造車一樣，比如說壓鑄件，之前工藝不行，就只能給它分成一小塊，先造出來，然后再焊。

其實自動駕駛跟這很像。

因為自動駕駛用自回歸模型用得比較早，早期不成熟，所以自動駕駛就有一項非端到端的事，也是因為它問題復雜。

到了今天大家覺得模型性能提升了，就把它合起來。

還是跟工廠一樣，工廠為什么用一體壓鑄，其實就是時間效率。

而且理論上自動駕駛開發(fā)，肯定比工廠更麻煩，因為工廠可以堆很多工人，但如果也堆很多工程師，其實更復雜。

所以端到端本質是用一個更統(tǒng)一的方式，去提升計劃效率，包括時間的效率，包括人的效率。

實際上再進一步說的話，從AI 的發(fā)展來看，其實深度學習就是這個邏輯。

最近10到15 年，所有AI 算法的發(fā)展，包括應用，本質上就是兩件事：

第一件事情是產(chǎn)生更好的效果，第二件事情是產(chǎn)生更好的泛化性。

產(chǎn)生更好的泛化性，就是用同一個方法解決更多領域的問題。

整個15 年的 AI就是不停地在做這兩件事情的循環(huán)。

第一件事情比較容易理解，原來一個任務，可能AI去做比人差很多，比如說大家現(xiàn)在用得最多的是人臉識別，至少對于一個陌生人的人臉識別，一開始AI沒有人做得好，后來跟人差不多，現(xiàn)在是絕對比人好。

其他任務其實也都這樣：

AI一步一步地從不如人，然后超過人，這是性能提升，是AI發(fā)展的第一個方向。

第二個發(fā)展方向，實際就是通用性。

比如說一個圖像識別的算法，和物體檢測的算法，分別用來判斷一張圖是什么類別和判斷這張圖里面有什么物體，開始都是不同的算法、不同的框架，后來這些東西就融合了。

再后來所有圖像類的任務基本上都融合了，現(xiàn)在說圖像類的任務跟語音類的任務也快融合了。

在自動駕駛上也是一樣，實際上是希望它最后變成所有智能體的任務，自動駕駛開車也好，機器人走路也好，機器狗爬山也好，所有任務都是用同樣一套框架去做，這也是端到端之后要做的事情。

智能車參考：所以Transformer是一個很重要的變量，帶來了效果上或者是算法能力上的提升，還帶來了什么？

任少卿：Transformer算是一個工具。

但是我想說AI 的發(fā)展，實際上大家都在追求這兩件事情，沒有transformer，可能也會有其他的（工具），但大家追求的這個方向實際上是沒有變的，就是想追求更好和更通用。

回到我們剛才說的這個事情上，自動駕駛的端到端實際上是某種程度上追求更好。

另外的就是什么樣的框架，除了自動駕駛外，相關的所有的智能體或者類機器人的方向，都能用同樣的方式去解決。

這個是我覺得一定會有人去做，大家想做的事。

智能車參考：在三年前我們講自動駕駛還是要講四個堆棧。那時候可能也有人說一定要做一個模型，但那個時候實現(xiàn)不了。

這兩年大家都覺得可以這樣做了，中間是什么關鍵的要素發(fā)生了變化？

任少卿：如果我們先不考慮算力的話，為了做一個任務，肯定是要有數(shù)據(jù)的。算法現(xiàn)在是要依賴數(shù)據(jù)，當然也有人在說要做一些小數(shù)據(jù)量的算法。

反正現(xiàn)在這一代的人工智能的算法，肯定都是 data onwards。

現(xiàn)在要解決的問題，針對一個任務，可以標注一些數(shù)據(jù)，但是沒有必要標注很大的量。

針對另外一個任務，又要標注很多數(shù)據(jù)，所以我覺得這里面第一個跨領域的核心點，實際上是怎么把這個數(shù)據(jù)的描述統(tǒng)一，以及把數(shù)據(jù)量拉上去。

但實際上為了統(tǒng)一，就要標得更復雜，數(shù)據(jù)量要拉上去就更難。

同時為了統(tǒng)一需要數(shù)據(jù)量更大，如果標注方法或者訓練方法本身沒有辦法去承擔更大的量的話，就是標不起更多的數(shù)據(jù)，量也拉不上去。

之前因為沒有辦法統(tǒng)一兩個領域的數(shù)據(jù)，也沒有辦法把這兩個領域的數(shù)據(jù)都搞到足夠大的量。

比如一個領域搞1, 000 張圖，另外一個領域搞 1, 000 張圖，獨立的分置就變簡單了。

那現(xiàn)在的狀態(tài)是什么呢？有這個數(shù)據(jù)的基礎，可以讓它不分置。

那不分置的基礎，一個是數(shù)據(jù)量增大，一個更根本的基礎，實際上就是數(shù)據(jù)標注，從人工標注變到自動化，以及從自動化變到完全不需要標注，這是非常大的進展。

所以回答這個問題，我們再總結一下。

原來的問題是要分置，我沒辦法做到統(tǒng)一，因為有兩個限制，一個數(shù)據(jù)，一個算力，所以我要分置。

現(xiàn)在就是說數(shù)據(jù)和算力都能支持，不要分置，合在一起搞。

數(shù)據(jù)的角度能支持合在一起搞的話，從要標注到自動標注再到不需要標注，自動標注跟不需要標注還不一樣，不需要標注是一個更好的狀態(tài)。

如果這個東西徹底不需要標注了，那你的算力又能頂住更大的數(shù)據(jù)量扔進去，就相當于把兩個東西合在一起做，這個是核心。

所以回到自動駕駛這件事情上，很重要一點就是要把這個標注給取消。

任少卿：自動駕駛這幾年變化很大，五年前可能標一個框幾毛錢。

前兩年，整個標注還需要花錢，但是它通過自動化標注的方式，每兩年可能效率提升100倍，三年可能效率提升了萬倍到百萬倍。

現(xiàn)在我們其實追求的，就是想不標注。

因為無論自動標注什么東西，雖然它效率提高了，原來可能 5 毛錢一個框，現(xiàn)在5 毛錢能標1萬個框，或者說能標 100 萬個框，但是畢竟還是要耗時間的。

現(xiàn)在就想不標注了，就是原始視頻直接進入（模型）。

智能車參考：現(xiàn)在用戶都會去關注，車企的智駕是不是端到端的系統(tǒng)。

多少有點詭異，因為端到端這個的事情它更大的意義是在于研發(fā)，在于廠商本身，對于用戶其實沒有那么大的意義。我不在乎我的這個車是不是端到端的系統(tǒng)，我覺得他能處理很多或體驗很好就行。

任少卿：我覺得挺有意思一件事，就是說這個事情本身也只存在于先鋒用戶，或者說這個早期體驗用戶里面。

我覺得這里面其實有兩點，首先用戶愿意去關注這些工作還挺好的。

就比如說做語言模型的相關用戶，他甚至關心你模型怎么訓練的一樣，大家關心關心這事也挺好。

第二個事情，也是因為我覺得最近半年功能上的熱點沒有那么多，因為你想去年年底到今年年初，大家也不是說沒在做端到端，沒在做模型化，只是說有一個可能，更貼近產(chǎn)品的所謂的城區(qū)開城的事，吸引到大家的注意力。

今年開始，頭部幾家開城開得差不多了、故事幾乎講完了。蔚來在4月開完全域全量智駕發(fā)布會后，這也不是個故事。尤其是對于早期領航用戶來說，討論的這些話題對他來說是有意思的，他才參與這個過程。

那現(xiàn)在討論啥呢？

現(xiàn)在不是只能討論端到端嘛？

那我覺得，再往后那是不是也許大家會討論點到點，討論 L3 ，只是說廠商還沒有去引導這個方向。

智能車參考：:端到端對于廠商研發(fā)的變革會有很大嗎？

有兩派的觀點，一派覺得車輛是一個系統(tǒng)性的工程，你不要迷信端到端。

有一派則認為這是新范式，得All in一樣擁抱。

你是怎么看？

任少卿：我覺得說的都沒有錯。

我們一直不是二極管邏輯，這本質上是大家用開發(fā)工具一樣，都是寫的代碼，或者說我都是編輯個視頻，或者說大家都寫文章。

拿文章舉例，那我們都是寫文章，那chatgpt 用不用好像也沒事。

用了后你可能也帶來一些額外的問題，但是用了之后如果用順手了，可能效率能更高一點。

說你不用ChatGPT就落后了，或者說你用了這個就太激進了這沒什么必要爭，對吧？

只是說大家挑自己順手的效率工具。

第二個從長期的角度來說，那可能會是個趨勢，只是說大家進入端到端的時間，用起來的時間和你自己的學習時間不一樣。

任少卿：這其實就是個模型化的事，大家現(xiàn)在過多地關注這個事。

模型化對于自動駕駛而言，絕對不是只是半年的事。

自動駕駛最早可能2013年就開始用深度學習，逐漸地在增多比例，只是說最近可能大家其他的話題也不多，所以就多說一說。

智能車參考：端到端是一個模型化的事。

后進入端到端的玩家能夠通過開源模型，再投入自己的數(shù)據(jù)，實現(xiàn)后發(fā)優(yōu)勢嗎？

任少卿：這就跟打魔獸或者打星際一樣，本質上就是你先爆兵還是先點科技的問題，一個意思。

當你點科技就意味著說你的生產(chǎn)力，你的錢，花在了科技上，那你爆出來的兵就少一點。

其實就是說你的功能少一點，或者說你的細節(jié)上，用戶體驗調整少一點。

智能車參考：所以你覺得還是不同的選擇的問題？

任少卿：但是這件事對于頭部玩家實際上是個長期的事，當然短期也要照顧。

所以說科技總得點，只是說你在什么時間點，有的早升級，有的晚升級。

那節(jié)奏的話就很難說了。

因為它跟你的種族相關，跟你的資源相關，跟你選擇英雄相關，跟你想打什么，出什么兵也相關，所以大家自然按自己的節(jié)奏來了，最后就看結果唄。

智能車參考：端到端對研發(fā)的要素會有什么樣的改變嗎？比如數(shù)據(jù)的自動化之類的。

任少卿：我覺得數(shù)據(jù)一直都是重點。

只是說大家這個重視度不一樣，但是我覺得這個方向是沒有變的，大家肯定是越來越重視。曲線有一點不一樣。

智能車參考：你有什么擁抱端到端的建議？

任少卿：我覺得不需要，就是強調端到端有點太多了，本質上就是AI的一個應用。

人工智能應用實際上就是兩個核心，第一個是基礎的能力：模型數(shù)據(jù)。

第二個是對于專業(yè)的應用領域的理解，就這么兩件事。一撥人可能更多的點的是通用技術棧，一撥人點的更多的是 domain knowledge。

智能車參考：所以其實算法、算力和數(shù)據(jù)，這三要素是沒有變化的。

任少卿：只是說現(xiàn)在模型的基礎，模型的變化使得它的通用性變得更強一些，那大家需要去升級自己的技術棧。

任少卿：我覺得好與不好一定是由用戶體驗定義的。

這跟技術是沒什么特別強關聯(lián)。只能說有的技術可能去做這件事情花的精力更少一些。

智能車參考：就現(xiàn)在來看，評價系統(tǒng)的好壞，更多的還是從數(shù)據(jù)層面，比如接管間隔時長。

任少卿：對，因為如果同樣一個用戶，接管的傾向是一樣的，那接管的比例或者接管的里程，是一個比較重要的參考。

但是不同的用戶其實也不一樣，因為有的用戶，你可能對他造成了驚嚇，或者說不安全感的，這個優(yōu)先級會更高一些，或者換句話說，有不安心的監(jiān)管和正常的監(jiān)管，就只是用戶覺得說沒什么不安全，也沒什么不安心，只是我覺得你這個效率低，可能需要分一下。

智能車參考：自動駕駛會不會犯類似“分不清9.11和9.9哪個大”的常識性錯誤？

任少卿：有的，其實是一樣的，語言模型里面叫幻覺，自動駕駛就叫Corner case。

什么叫Corner Case，或者說誤檢，漏檢。

比如說，語言模型突然輸出了一句莫名其妙的話，自動駕駛的感知模型突然間有一幀沒了，或突然間蹦出來一個實際上不存在的東西，其實都是類似的事。

所以自動駕駛解決這個問題，相對來說比較早了。

那更多的是，通過時序的切割機制,通過校驗機制等去解決。

實際上像語言模型里面管控承諾也是這樣， COT（思維鏈）的一方面的邏輯實際上就是讓系統(tǒng)自我校驗：

通過一個更復雜的輸出表達，然后自我去校驗。

現(xiàn)在也有什么MOE ，還有其他的一些方法，比如說實際應用端的后端的校驗，都是同樣的邏輯，所以整體來說就是模型訓練，性能對齊，主要是輸出一個跟人類偏好差不多東西。

第三個就是有錯的問題，通過多次的校驗，用神經(jīng)網(wǎng)絡，非神經(jīng)網(wǎng)絡的方法，再加上一些人力規(guī)則的方法去校驗這個事情，把錯的東西挑出來變成正確。比如你用的這些聊天軟件的，其實就是把錯的東西挑出來，跟你說這個東西我不要了。

世界模型智能車參考：進入系統(tǒng)的視頻數(shù)據(jù)，一方面是標注的真實數(shù)據(jù)，另外一方面就是世界模型的生成數(shù)據(jù)，有點像LLM中合成數(shù)據(jù)。

任少卿：如果要定義一個任務的話，最終要回答一個問題，這個問題就是你定義的任務有多通用。

從自回歸的角度來說，你定義的任務越通用越fundamental，從學術的角度意義越大，從應用的角度也是一樣。

10 年前大家說計算機視覺領域的三大 fundamental 的任務，圖像分類，檢測和分割。

大家想一想，去理解一個圖像，能對它進行分類，進行提框，找出里面的物體進行分割，確實是根本任務。

但是到了今天，這個fundamental的定義不夠了。我們需要一個更根本的問題。

語言問題定義的根本問題，是預測下一個token，下一個詞。

實際上對視覺也是一樣。

如果能定義一個更fundamental的任務解決問題，因為它更fundamental，所以在上面找應用，它覆蓋的范圍就更廣。

智能車參考：用視頻生成視頻，本質上也是對問題的窮舉？

任少卿：是的，作為一個基礎任務，最根本、最本質就是要定義這個東西。

所以現(xiàn)在的定義就是，視頻去生成視頻這件事情更本質，因為它能包含所有的其他可能性。

輸出視頻是一個分類，把中間的物體摳出來，那它就是可以做物體檢測的任務。

輸出的是一個分割的結果，就是可以做分割的任務。

輸出的是一個三維重建，換個角度的結果，就可以做三維重建的任務。

所以視頻生成視頻這件事情，實際上從問題的定義上來說是一個更fundamental 的問題。

而且我們認為，重建是對于時空理解和對原始數(shù)據(jù)理解最深刻的表現(xiàn)形式。

因為基本上原來的信息量，都需要重構出來，才能去做中間的事情。

任少卿：虛擬仿真實際上我覺得完全是一個另外的邏輯。

實際上是兩個方向。

一個方向，我們叫做計算機視覺，一個方向是計算機圖形學。

其實是分別干了兩件事，一個事情是理解世界，一個事情是再造世界，就是虛構一個視覺。

但是最近兩年兩個方向也越來越近了。從總體上來說，完全地理解這個世界是世界模型要干的事。

那現(xiàn)在也有一些用原始視頻的方式來仿真，但它本質上不是要完全理解這個事情，不是說給它一個輸入，就要把輸入完全理解，而是說要重構一個東西出來。

但重構的東西不見得是這個世界的全部。

所以仿真的問題是仿真不包含這個世界的全部信息。

比如說最早的仿真，拿游戲來舉例，游戲其實某種情況下就是仿真。

最早的仿真就是大家打紅白機游戲，有（像素化）粗的信息，但是很多精細的東西是沒有的。所以仿真一直的問題就是它不斷地逼近真實世界，但它離真實世界還有距離。

智能車參考：蔚來講世界模型的時候，用了類人腦的方式，將其劃分成兩個部分，這是為了方便聽眾理解，還是系統(tǒng)本身就是劃分成了兩塊？

任少卿：為了讓大家理解，我們會把它切得很開。

但實際上做的時候是耦合在一起做的，也不是完全分開。本質上其實也要想辦法，就是說有一些概念去處理。但是實際做的時候不會像跟大家說的時候分得這么開，分這么開是為了方便大家理解。

實際上我們講的時候，第一部分關于重構，其實也是重構成視頻。

那重構成視頻，某種程度上里面也包含時間的信息，只是說我們給大家講例子它不會那么長。

我們講第一部分的時候，重構可能就是一個很小的范圍，那講第二部分的時候，我們就可以更強調它的時間長，它的變化多，但是實際上它是耦合在一起的。

任少卿：我覺得挺好，最近實際上變化很大呀。

就是我為什么要去說世界模型這件事，會往這個方向走？

因為就是回到剛才那個話題，端到端、非端到端只是智能駕駛領域的一個大家討論的事。

從技術角度來說，實際上從更大的范圍之內，那自動駕駛和機器人與大語言模型的融合是什么樣的方式？

智能車參考：世界模型，就是你們給出的一個方式。

任少卿：對，它是一個更貼近通用的一個方式，自動駕駛能用，機器人能用。

那語言模型，后面的原生規(guī)模也會是類似的框架。

當然我們其實還有更激進的方式，就融合所有域，但是那個后面再說。

任少卿：很多工程問題，所以現(xiàn)在給大家講的世界模型，它會更貼近于下一個階段的機器人、自動駕駛，以及語言模型的基本框架。

任少卿：其實這里面的這三個東西，和大家實際上都在研發(fā)的語言模型，機器人框架，很類似。

里邊有三個關鍵詞，從右往左說，第一個是生成，這個生成的方式，它有很多的優(yōu)勢，你不用標數(shù)據(jù)了，你的學習效率更高，所以語言模型早就是生成了。

機器人的數(shù)據(jù)更少，它也只能生成它，它標也標不動，那自動駕駛往這個方向走也沒問題。

那自回歸本質上可以解決長時序的問題，所以語言模型long contacts也是類似的方式。自動駕駛和機器人要解決長時序的問題，也得用這種方式。

多元是什么呢？

多元就是這個multivariable input 和output(多模態(tài)輸入與輸出)，本質上是要解決多數(shù)據(jù)源的問題，那之后自動駕駛想用互聯(lián)網(wǎng)的數(shù)據(jù)，或者互聯(lián)網(wǎng)想用更多領域的數(shù)據(jù)，其實都要用類似的這種方式。

我們是希望通過這些框架，去打通跨領域的事。

智能駕駛四大關鍵技術要素智能車參考：現(xiàn)在NAD(蔚來智能駕駛)的迭代過程中，車主的反饋也是一個很重要的機制？

任少卿：比如說一個模型上車了之后，舉個簡單例子，模型這個時間點執(zhí)行不減速，那車主突然一腳踩下剎車，肯定就是有問題。

拿出來看看問題在哪，需不需要重新讓模型學一下。

智能車參考：現(xiàn)在都在做城區(qū)NOA，但每一家最后呈現(xiàn)的體驗不同，你覺得是什么因素決定的？

任少卿：可以認為有四大因素：

第一是模型，第二是數(shù)據(jù)，第三是優(yōu)化模型總是會出問題，出了問題之后怎么用其他的方式、基于優(yōu)化的方式去做聯(lián)動。

第四個是功能的多少，你 feature 有多少，實際上就是基于前面三塊，但并不是完全相關。

所以模型的角度實際上就是我們這次所說的核心。

每家其實會有不一樣，甚至說每家不一樣的點還不少，這是模型的角度。

第二個就是數(shù)據(jù)的角度，數(shù)據(jù)多還是少、頻率快還是慢。這方面其實車廠會有一些優(yōu)勢。

因為數(shù)據(jù)變化跟這些供應商比，車廠會更好一些。

對于我們來說，蔚來數(shù)據(jù)閉環(huán)做的，我覺得可能是全球最好。

第三個實際上就是說，模型輸出的結果也會有問題，那處理的方式，導致的效果更好還是效果更差？

效果好，其實有兩點，第一點是說不要誤殺它的結果。

第二個是，如果不是誤殺了模型的結果，模型做得不好的時候相對來說更絲滑：

不要出現(xiàn)這個模型前半段這么開的，后半段不是了，后半段輸出的軌跡不平緩。

比如說，系統(tǒng)突然打方向盤，雖然做對了沒撞墻，那對用戶來說肯定也不好，明顯有段落感，體驗不好。

第四個就是說基于以上有什么新的功能。

從功能的角度，從用戶體驗的角度來說，能不能做得更好。

這就包括用戶的監(jiān)控，跟用戶的交互，那往后的點到點、L3要做得怎么樣。

總結來看，技術能不能做到一個層級，這個事情很重要。

因為某種程度上來說，模型數(shù)據(jù)根本上是為了提高效率，這是第一點。

第二個是提升上限，但是實際上它并不能保證它的下限一定在提高，它有可能下限在下降。

所以后面包括融合模型和優(yōu)化方法，實際上就要保證下限能提回去或者提得更高，同時又不降低效率。

第四個就是前面都有了，需要讓用戶用得爽，需要讓用戶有更多的功能，因為前面這些都不涉及功能。

智能車參考：你自己現(xiàn)在會坐其他的車嗎？

你主要關注一些什么？

任少卿：我覺得分短期、長期吧。

從蔚來自己的價值體系，我一直說解放精力、減少事故，說白了實際上第一個就是讓用戶用得更舒心，用得時間更長，第二個就是更安全。

如果我們從這兩個角度來說，回溯前面十年自動駕駛的發(fā)展，從解放精力的角度來說，功能從ACC變成了LCC，變成了高速領航，再到現(xiàn)在做城區(qū)領航。

前面三個實際上都是相當于走完了1到N的階段，基本上已經(jīng)很成熟。

城區(qū)NOA從去年到今年可能早一些時候，走完了 0 到 1 的，還要走 1 到 n 的。1 到 n 當然需要一些時間，差不多要一年，就能比較成熟。但是這個是說已有的。

那下面從實際解放精力的角度，這個角度肯定還有新的0到1出現(xiàn)。

不是說前面的1 到n做完了，才做下面的 0 到 1 。比如說城區(qū)的，0到1，開始的時候高速還沒有完全成熟，其實還有再下一個節(jié)點。

現(xiàn)在大家會說，我在城區(qū)里面覆蓋更多的場景，比如做點到點；同時也會做L3，就是說讓人解放得更多，因為我們最終都是要解放精力。做點到點的意思是說能覆蓋的范圍更大，覆蓋的用戶時間更多。

那做L3，或者說脫手脫眼的這個功能的話，實際上就在原來已有的范圍之內，能讓解放的比例更高。

從減少事故的角度來說，主要是主動安全，一直在進步，覆蓋的場景在變多。

但是我們覺得這個還不是特別夠。

它相當于從大的層面上，比如說真實世界是張餅，原來只是餅的左邊有兩粒芝麻，我現(xiàn)在希望拿這個芝麻撒餅，差不多都能覆蓋到。

我最終還是希望主動安全能做到真正減少事故。

但從個體的角度來說，這件事情的不確定性很大。

因為可能今天剮蹭明天沒剮蹭，這個是有一些偶然因素的，但從群體的角度來說，所有的車主的車，今年產(chǎn)生一共多少次事故？

我們希望說，從今年開始，每年能實質性地往下走10%-20%。

對于個人用戶來說可能沒有這么明顯，但從一個群體的角度來說，進展會非常明顯。

實際上我們發(fā)現(xiàn)高速上開輔助駕駛的安全性，已經(jīng)是不開輔助駕駛的六點幾倍了。

但是因為我們最終的目標是解決全量車主在所有時間，不管在什么狀態(tài)下，實際上的事故總量的減少。

如果要做這件事情，實際上輔助駕駛在這里面的比例還是比較低的。更大的比例是人駕的狀態(tài)。就是需要減少人駕狀態(tài)的事故。有提醒有剎車，能真正降低全量事故的比例。

所以我們?yōu)槭裁聪茸龆说蕉说腁EB。

是因為我們發(fā)現(xiàn)全量事故里面將近30%左右的場景，是因為一輛車正在開，尤其是國內過路口的時候，一輛電瓶車從各種角度過來，行人從不同角度過來，更多的是這樣。

那原來的AEB功能，更多的是一輛車，如果是完全垂向接近的時候能剎車，當它帶點角度的時候，成功率就會下降很多。

寫規(guī)則搞不定這事，所以為什么上端到端去搞這些事？實際上我們希望這種場景先往下降，后面我們也會去上針對于通用障礙物更強的主動安全功能。

智能車參考：實際上還是整體系統(tǒng)基礎的技術能力不斷地在提升？

任少卿：瞄的目標也不一樣。

其實大家之前做的主動安全絕大多數(shù)的廠商包括供應商都是，做主端安全的目標是拿到5星，就是拿到比如說E-NCAP、 C-NCAP的 4 星或5 星成績，這是大家最主要的目標。

最近也多了一些評測機構又搞了一些新型的評測。大家可能也想拿個高分。

但是我們在這個基礎之上，更希望去做的是，能實質性地減少事故數(shù)。

NIOIN也說了，我們統(tǒng)計下來的數(shù)字，如果只是做這些標準場景的AEB，實際上在真實場景里面可能只能搞定 10%。

因為實際上 AEB 即使觸發(fā)，也不是100%能完全停下來。

只做法規(guī)清單的這些要求，可能最高才能解決10%的場景。但如果要再考慮一下有沒有響應、有沒有剎停，比例肯定會到一個比較低的個位數(shù)。那還剩 95% 以上的場景怎么解決呢？

L2+向L4升維智能車參考：L2+能通過端到端，堆數(shù)據(jù)、算力、傳感器，向L3和L4躍遷嗎？

任少卿：我覺得實際上分開看， L4 是什么，如果說L4是Robotaxi，讓車自己，或者讓私家車自己出去拉貨或者拉人，我覺得反正不太現(xiàn)實。

技術上可能某年某月能實現(xiàn)，但這件事情從社會的意義上也沒那么大。

本身交通運營中有人在這里面去提供服務去賺錢，這事挺好。

那私家車都去干這個事，然后呢？你怎么去平衡這些關系？所有的私家車如果都沒事就上街溜，那我覺得這路就沒法開了。

這根本是一件我覺得很莫名其妙的事。

智能車參考：你質疑這個底層的邏輯，或者它的社會價值。

任少卿：我是有疑問的。

很簡單，現(xiàn)在不要說所有的私家車了，有一半的私家車上路，這路就不用動了。

智能車參考：那未來Robotaxi隨叫隨到了，大家都不買車了，可能嗎？

任少卿：不可能。

這個事情其實我?guī)啄昵熬拖朊靼住?/p>

我買車之前也是這么覺得的。那時候我天天打車，但是實際上因為用打車軟件，比較好算。到了年底，算一下你今年花了多少錢？肯定沒有養(yǎng)車貴，所以我覺得好像不需要養(yǎng)輛車。

但是當我自己真的買車后，我覺得還是不一樣。因為我覺得網(wǎng)約車只能產(chǎn)生一個，比公交車，比地鐵可能更深化一些的出行手段。

但是有車是加大了你可到達的范圍。但是網(wǎng)約車是不解決這個問題的。自己有車之后，可能周末出去的空間范圍就會更大。

智能車參考：從技術上講，一輛車有一個虛擬的司機，任何時候、任何場景能自己去開，現(xiàn)在已經(jīng)能夠實現(xiàn)了嗎？

任少卿：那個定義實際上叫L5。

你看現(xiàn)在沒有人提L5，因為本質上說L3，是在某些限定場景，有一個虛擬司機其實都不算司機，因為系統(tǒng)可能會叫你立刻回去接管。

那L4是說在一些固定的場景，一些點到點，系統(tǒng)能開車。

剛才說的實際上是需要一個完全私家司機，他能去應對任何場景，這個叫L5，現(xiàn)在大家提都不提，因為它比較遠。

智能車參考：“比較遠”的原因你覺得是什么？

任少卿：我覺得是各種各樣的場景，還比較復雜。

L5更接近一個通用人工智能，同時我覺得需要解決各種各樣的復雜場景的 corner case，隨著技術進步慢慢弄。

對于價值點上來說，我覺得如果要實現(xiàn)L5并不只是一個技術上的問題。

因為如果有一個 L5 的話，我認為可能城市都會因此發(fā)生變化。

我舉個例子，如果真的有一個 L5 的車，我為什么還要住在城市里呢？

我希望下了班之后就上車，我上車該干嘛干嘛，該洗澡洗澡，該開會開會，該睡覺睡覺，該吃飯吃飯，然后我想下車的時候他就在一個風景很好的地方。比如說我晚上干完活，想出去溜達的時候，已經(jīng)在山里的湖邊了。

我為什么要住在城區(qū)里呢？

如果是L5出現(xiàn)，整個社會都會改變，它已經(jīng)不是單純的一個技術方式。

智能車參考：L5級自動駕駛相對來講，是更終極的目標，但為什么從業(yè)者又不把它當做一個目標？

任少卿：我覺得沒有說不能把它當成一個目標，只是大家覺得這個事還比較遠。

如果從長期的角度，我覺得它總有一天會實現(xiàn)。只是說現(xiàn)在從商業(yè)，從技術角度來說大家并不是說，我今天就是瞄了這個事，然后我就不干別的了。

因為從量產(chǎn)的角度，從賺錢的角度來說，單獨商業(yè)模式的角度L2、L3、 L4 都是成立的。那就相當于心理路徑上，你有一個點在那，就先做這個。

智能車參考：有人說，自動駕駛分有人和無人這兩條路，會越分越開。你認同嗎？

任少卿：沒有，因為我覺得他們說這是兩條路，沒看到是兩條路，現(xiàn)在做L5又是什么路呢？

現(xiàn)在不還是用同樣的邏輯在做？

智能車參考：就比如說我們做有人的這個智能輔助駕駛，根本上還是為了輔助人，所以最后一定有個車主作為兜底，或者車主作為最后的一道把關。

而做無人的，他從系統(tǒng)設計開始，到整個過程和結束，他就一定是要把人的因素給剔除出去的。所以可能會導致這兩個，大家最后設計的時候，一個是面向了舒適，一個是面向了車主的體驗，一個是面向了安全，就是我絕對不能任何情況下我都不保證說是這個人要去接管的。

任少卿：我覺得宏觀上可以這么說，但是這個事情如果我們這么說，其實就很難得到一個結論，還是要拆到微觀上到底有多少東西是不一樣。

那主要從現(xiàn)在這個技術，我覺得不一樣的東西沒有這么多�；蛘哂植皇钦f主要的部分是不一樣的，主要的部分反而是相對比較像，這個是問題。

智能車參考：所以你覺得這些要素的構成，沒有長出兩個不同的東西。

任少卿：它當然有不同，但是你要看它的比例，它的比例上這個絕大多數(shù)是比較類似的東西。

激光雷達裝不裝，看成本考量任少卿：本質上智能駕駛是一個冗余的系統(tǒng)，這套系統(tǒng)設計上，你愿意為冗余花多少代價。

智能車參考：用不用激光雷達，你覺得是技術問題還是還是成本問題？

任少卿：我覺得就是從成本和落地，如果今天激光雷達一個50萬美金，那可能Robotaxi也不會上。如果今天激光雷達，還是一個1萬美金，那量產(chǎn)車也不會上，那就是因為它今天便宜了，那量產(chǎn)車也上了。

任少卿：比如說我們拿醫(yī)療舉例子，那為啥不拿一個攝像頭去盯人看CT？為啥非得搞個 CT 出來。

同樣的邏輯，本質上就是說產(chǎn)出和你的投入能不能算得過來。

其實某種程度上，如果我們估計激光雷達的性能不變的話，投入就是越來越低。

特斯拉決定現(xiàn)在這套傳感器的時候，應該已經(jīng)在 10 年到 15 年之前，那時候不可能(用激光雷達)。如果我換到馬斯克的位置上，我都已經(jīng)產(chǎn)了 100 萬、 200 萬輛車，現(xiàn)在上個激光雷達，我前面的車怎么辦。

智能車參考：所以你覺得，從商業(yè)的那個維度上，馬斯克必須要一條路走到底？

任少卿：他沒有辦法，他怎么選擇呢？比如說即使他今天覺得激光雷達好，同時現(xiàn)在激光雷達便宜了，原來可能覺得原來激光雷達很貴，那我不上。

那現(xiàn)在便宜了，如果說激光雷達就是 200 塊錢，他依然會面臨問題，他上還是不上，就雖然他從 ROI的角度來說他已經(jīng)完全能算得過來了，但是問題是說他上了之后，他前面的車怎么辦，以及整體的用戶口碑怎么辦。

智能車參考：如果說一開始就確定了激光雷達的冗余方案，現(xiàn)在又要把激光雷達拿掉，用視覺的方案，它在技術上有什么不一樣？

任少卿：技術上完全是一樣的。

因為現(xiàn)在模型很多都是一體化的。

原來是訓練數(shù)據(jù)是攝像頭、激光雷達都進去，出來結果�，F(xiàn)在把激光雷達結束，代碼上改了，就這么簡單。

智能車參考：所以，現(xiàn)在用激光雷達還是用戶的一個心智問題？

任少卿：這其實是個成本的問題，就是斌哥說的那句我們其實越來越認同。就是一個氣囊，你多裝幾個，有的車裝 10 個，有的車裝 18 個，那你裝幾個？

你當然是便宜的車，你裝 18 個，這可能不太現(xiàn)實，那你貴的車多裝點。

這跟這個大家在車上的抗扭剛度，你用的這個材料，比如說防撞梁的厚度其實都類似，對吧？就是相當于說大家都知道安全好，那我這個加得多好，但是問題是你怎么平衡你的成本和收益？

原來可能十年前，奔馳的S級上也有激光雷達的，只是說一個激光雷達可能要十幾萬，對吧？那它就不是一個民用車的配置。

只是說現(xiàn)在它越來越便宜了，所以你越來越多的車有，但是它畢竟還沒便宜到說一個3萬塊錢的車也能裝的成本，所以它自然就是有的車有的車沒有罷了。

智能車參考：拋開成本的角度，去講技術的體驗，有激光雷達和純視覺的方式，不同方式間你覺得現(xiàn)在差別大嗎？

任少卿：我們很難去定義大與小這個事嘛。就是說怎么說大與��？

比如說一個 30 萬車的座椅和 20 萬車的座椅大還是��？差異大還是小？我真的沒辦法回答這個問題，那有些人覺得說那我就是想買更好的，那你就去買更好。

那有人覺得說，還是需要，相對來說性價比更高一點，或者相對來說這個價格更低一些。

智能車參考：就是個人選擇和廠商選擇的問題，因為選擇，所以相信？

任少卿：是，因為本質上這個事情就客觀存在。

比如說十幾萬的車，你現(xiàn)在市場上沒有哪家有激光雷達的，對吧？

那50 萬以上的新車可能就全都有，就是這么一個現(xiàn)實的情況，對吧？

那這個我們說它是好是壞，這些東西我覺得沒有意義。

任少卿：只能說它的系統(tǒng)更簡單。那你當然是說你的東西少，你就更簡單了。

那跟造車一樣，你說有的車，上面這個密密麻麻裝 20 個麥克風，跟裝兩個麥克風，哪個系統(tǒng)更簡單？一定是裝兩個麥克風的系統(tǒng)更簡單，這不廢話嘛。

一定是裝20 個麥克風，還想把它的性能發(fā)揮出來，要更麻煩，比如蔚來車上裝了7.1.4沉浸聲音響，那一開始上線的時候硬件是裝上去了，沒有音源，那還得去搞音源，那么又花一堆時間搞音源。

那當然復雜了。

那你如果不裝這玩意，那你就隨便該用什么放用什么放唄。

其實是類似的邏輯，你說激光雷達和攝像頭進去了，你必然這個系統(tǒng)并不是完全對齊的，那你需要有更復雜的軟件，去解決這個問題。

人也是一樣啊，我前兩天看那個關于人腦的書，就是我們的腦耳朵和眼睛的延時是不一樣，那你的大腦也需要去處理這個問題，就是耳朵是更快，眼睛是更慢，但是我們平時完全感覺不到這件事情是因為大腦去做了這個處理。

但是在某些場景上，某些場景下它是有區(qū)別的，比如說就是短跑發(fā)令的時候，都是用槍，不是用光，對吧？但是我們說你光的傳遞速度一定比槍快、比聲音快，你為啥不用光呢？是因為他腦子里面光傳得更慢，就視覺信號傳得更慢。

智能車參考：所以你不會面臨這樣的挑戰(zhàn)或者是質疑：

你們不用純視覺，所以技術沒有用純視覺的好？

任少卿：樂道就是純視覺，更多的我們不認為說它是一個技術的原因，而是因為它就是產(chǎn)品定義的問題，那你需要讓用戶用一個合理的價格去買到一個對它來說性價比更高的事情，所以為什么說我們樂道用純視覺？因為我們希望它的價格更便宜，對吧？所以我們就是說需要在這方面去降本。

智能車參考：有算力成本下降的原因嗎？即芯片的算力成本，下降的速度比激光雷達要更快，所以可以用更大的算力去承載視覺方案。

任少卿：會有一個取舍。

比如你如果說在一個方案上你都想往下降 3, 000 塊錢，那你到底是砍激光雷達，還是別的傳感器，或者砍芯片？

你當然都是會有這樣的一個平衡。比如說我們樂道的方案，其實我們就會面臨，如果我把激光雷達加上去，可能要把芯片做得更小，對吧？

那我們從系統(tǒng)上的評估來說，我可能還是維持這個單 orin的芯片，然后把激光雷達去了，然后再加一個我們自己定制的毫米波雷達，自己定制的比這個傳統(tǒng)的毫米波雷達稍微好一些，但是實際上就是原來可能前兩年的市面上的一般的毫米波雷達是要更便宜，性能我們通過前融合的方式去提高。那最終產(chǎn)生一個，這樣的一個bom成本下，那最好的體驗。

智能車參考：假設你有朋友要買車，然后他最看重智駕能力，一個車有激光雷達比如蔚來，一個沒有激光雷達比如樂道，你的建議是什么？

任少卿：看你愿意出多少錢，就很簡單，就是有錢就上蔚來。

本質上我覺得這個事情很難給消費者建議，因為大家的預算都是根據(jù)自己的實際情況來，對吧？

對于消費者來說，你多5萬塊錢，那對于這樣一個 20 萬的車還是一個不小的差別，所以我覺得大家還是按照自己的預算來就好。

我們其實要做的就相當于說在同樣的價錢上，把體驗的性價比做的更高，比如說樂道L60，這樣一個車，20萬塊錢左右。

然后空間大，還能換電，同時這個自動駕駛也能去開城區(qū)NOA。那我們就說這樣的一個功能和這樣的一個價格，它是性價比更高了。

智能車參考：樂道和蔚來不會說因為價錢的不同，所以智駕體驗就要低一些？

任少卿：智能駕駛這個能力，我們肯定是說每一個平臺，我肯定都希望說在它的硬件基礎上做到最好，但是我們本身應該怎么做，它本身有硬件的差距，這個大家也得客觀承認。有的多花錢，有的少花錢。

L3是自動駕駛的iPhone 4時刻嗎？智能車參考：:你覺得我們智能駕駛有ChatGPT或者說iPhone時刻嗎？有這種可以期待的節(jié)點嗎？

任少卿：我覺得其實之前也有挺多節(jié)點，比如說你可能回到兩三年前，大家覺得說中國的這個城區(qū)NOA能推得這么快嗎？好像也不太可能，也沒想到過，對吧？

高速NOA現(xiàn)在這么成熟，如果回到五年前也沒想到過。

所以我覺得它有一個里程碑級別的特別具體的點。

比如說我們剛才回憶說，第一次高速NOA或者說城區(qū)NOA第一次開通，那其實如果回想起來也是很重要的時間點，只是說，可能增量也會更多一些。

后面可能等到哪一天正式 L3 量產(chǎn)了，那也是一個（里程碑）。甚至說我覺得十年之后回憶，比如說百度robotaxi出圈，那可能現(xiàn)在這個時間點也是一個。

智能車參考：站在未來，現(xiàn)在我們很難去定義一個時刻？

任少卿：這么想嘛，就是說 iPhone 4 發(fā)布的時候，誰能想到iPhone從iPhone 4 之后就，越來越不行了，從變革的角度看的話，對吧？誰能想到說 iPhone 4 是最大的一代變革？我當年買iPhone4的時候，沒覺得是這樣。

智能車參考：所以是不是意味著比如說L3，大概可能是自動駕駛的iPhone 4時刻？

任少卿：不知道。

我覺得這只能說，本質上如果之后自動駕駛發(fā)展，確實越來越慢了，那就是這樣。

但如果之后越來越快了，可能又蹦出來一次（iPhone 4時刻）。

那你站在 iPhone 3 的時候，你怎么知道后面有沒有出現(xiàn)iPhone 4？

還是說另外一個平行時空iPhone 3是個頂峰，然后后面就越來越慢了。

因為這個東西確認的不是你自己做的好與壞，而是后面的人，后面的是給你個評價，對吧？

后面做的這些哥們兒，他是不是比你厲害？

如果這些哥們兒實際上都沒你厲害，那你就最強了，對吧？那你沒法預測，因為這是后人的事情。

智能車參考：說我們?yōu)槭裁匆欢ㄒ鯨3？

任少卿：:沒啥，我覺得對于輔助駕駛你需要一個更強的使用，是對于用戶的解放。

對于用戶的價值也很清楚，就是說對女生來說，那我能不能上車化個妝？

對男人來說，那我想要說能不能上車打局游戲，就這么簡單的事，那就怎么滿足用戶吧。

智能車參考：所以L3相對來講，是你們內部比較明確的一個實現(xiàn)目標？

任少卿：肯定是需要，但它叫什么都行。我只是說 L3 其實不是我們內部常規(guī)的叫法。

我們內部是不拿這些東西說概念的，就是說你能不能讓用戶去打電話，讓用戶上車開播，讓用戶上周打游戲，對吧？類似這樣的。那再下一個是能不能讓用戶上車睡覺。

但我們從來我們不打算做讓用戶上車睡覺的事，覺得離我們比較遠。

所以現(xiàn)在可能考慮，下一個階段讓用戶上車吃個飯，上車打個游戲。

智能車參考：每一個任務都有這種場景性的定義。

任少卿：對，因為你說不定你到底給用戶產(chǎn)生了啥價值。對 toc產(chǎn)品公司來說，你一定是要給用戶產(chǎn)生一個具體的價值。

否則說你就跟用戶說這個多好，但是到底能讓他干啥，說不清楚，沒意義。

回應李斌“靈魂之問”時，在回應什么？智能車參考：你回答斌哥的靈魂之問，認為蔚來絕對是智駕第一梯隊。你的依據(jù)是什么？

你怎么去判斷這個梯隊？

任少卿：我覺得每個人的定義不一樣，我也不知道啥叫第一梯隊，只在我的這個印象中，或者在我的這個邏輯里面，那現(xiàn)在你就要做幾件事：

第一個是說城區(qū)能開，因為這是 0-1 的階段，對吧？

其實大家能看到，0-1一個階段完成，然后剩下的城區(qū)實際上就是進入優(yōu)化的階段，那優(yōu)化其實每家可能有些優(yōu)化多一點，那個點優(yōu)化少一點，我覺得這個也屬于比較焦灼，然后不是一個特別具體的階段。

大家說的現(xiàn)在關心的比較多的端到端模型化的事，但是我覺得這都是屬于更偏底層的事，那更偏上層的事，那這個說點到點，然后那其實我們現(xiàn)在說了應該也可以很快適配。

然后這個 L3、L4，其實都沒上車，但是我們入選了L3的第一批試點。

然后這個L4我們不算L4，我們不叫它L4，但是從用戶的角度來說是可以讓你下車的，這應該后面也會上，就換電站，離車的換電，實際上從技術手段上來說它不是個L4，但是從用戶體驗上是。從這個減少精力的角度來說，從減少事故的角度來說，我覺得那我們其實265算是一個比較大的版本

因為我們的最終目的就是要減少事故，我們265因為現(xiàn)在時間還比較短，大概發(fā)出去兩周，我們實際上從 265 的版本的報案數(shù)據(jù)已經(jīng)明顯比 260 要少，是一個能看到的比例，我覺得在這個點上實際上我們是走上了一個更正確的道路，就不要老是貼小視頻說我到底有多強。

因為每家都能貼出來小視頻。其實說真的就每家都能貼出來，但這個事更多的還是一個營銷手段。

我覺得還是希望從技術角度來說，希望說我們確實真正地減少事故，這個事情是確定的，同樣能證明的事。

你像斌哥說的，中國現(xiàn)在一年可能因為交通事故死亡幾萬人，這個是我們主動安全要做的。

其實我們也在跟一些部委在考慮一些其他的方式，那么進一步減少事故。

我覺得這些東西本質上回歸價值，回歸用戶體驗，對吧？

那我覺得在這些點上其實我們都是某種程度從已有的東西上有，那從遠期的東西上我們覺得思考得可能更全面一些，就逐漸給大家交付。

智能車參考：所以歸根結底，城區(qū)NOA，能不能開，是檢驗能力比較核心的一個標準？

任少卿:只是一個標準，我覺得反正也不能說是核心的標準，只是一個標準。

剩下就剛才說的這個模型能力，然后以及之后的這個新的價值體現(xiàn)，新的這些價值體現(xiàn)可能就更偏創(chuàng)造性一些，前面的這些就是開城的，這就更偏一個既有的東西。

模型這一塊更偏于底層的，然后新的這些功能就更偏向價值怎么創(chuàng)造。

所以反正三個方面放一起看，一個是過去，或者對于頭部就是過去，那對于模型這一塊可能就是最近。

那后面這些可能就是將來，當然它也可能也不會特別長。逐步地，短到中期，再到長期。

智能車參考：把用戶駕駛的個性化習慣和體驗，加進去，是不是更符合智能駕駛的體驗？。任少卿：對，那其實最終是剛才說的第四個部分，功能。

怎么做得更好？

我覺得也確實我們需要去進一步提高效率，比如說之前在交互上好一些，但是上次說的這些可能還是有一些缺失，就比如說我們265版本上給旁邊車讓主駕位的，那這個可能就不同的用戶就很不一樣的反饋，所以他這個后面版本可能也需要進一步地去能讓用戶更多的選擇吧。

有的就覺得說我給主駕讓出來，我自己可能下車位置小一些，可以接受，挺好。那有的用戶就覺得說這就挺偏了。

智能車參考：所以智駕做到真正的因人而異，對齊AI助手，更個性化還是有差距的。

任少卿：:對，反正就是可能大家都會面臨的問題，第一個說機器能搞定，然后要對齊人類的預期，后面可能還要千人千面。所以就是我覺得千人千面這個現(xiàn)在都還是一個比較高的要求了，都還做不到。

自動駕駛與機器人智能車參考：現(xiàn)在好多機器人創(chuàng)業(yè)公司，說要打通虛擬世界跟物理世界，和打通不同領域有什么不一樣？

任少卿：那個是另外一個工程模型。

我說打通不同領域，就是說打通不同應用。就比如說自動駕駛和機器人和大語言模型這些東西的融合，就他得徹底用同樣一套框架去作用。

因為這里面其實有個最根本的，就是機器人這玩意，為啥之前做不動，以及現(xiàn)在還有啥問題？

最終其實大家很容易理解，實際上自動駕駛是一個特殊的機器，這是第一層，第二層的話是自動駕駛是所有機器人應用里面最大的一個應用之一。啥意思呢？就是說機器人的應用非常的復雜。

那自動駕駛是里面價值最大的，其實大家發(fā)現(xiàn)說之前的自動駕駛，或者直到現(xiàn)在自動駕駛，為了做它的這個研發(fā)成本是非常非常高，對吧？

那如果機器人用跟現(xiàn)在的自動駕駛同樣一代技術棧去做，沒有任何一個機器人的應用能撐得起來這個投入。

這是原來做不了的原因，是因為投不起。

如果說做自動駕駛，因為它前期的商業(yè)場景很大，所以比如說一個自動駕駛公司一年燒10個億人民幣，那一個機器人公司能做到嗎？他做不了。

但是我們就認為說你長期再往后走，那自動駕駛也是個泛機器人領域，所以那能不能用同樣一套框架，用更高的這個可共享度，然后用更低的成本去用同樣一套框架做所有的機器人，就泛機器人能力這個事情。我們覺得一定是能做的。

那只是說要找到相應的技術的這個方式，本質上前面說的這些世界模型，我們覺得自己的框架他也能去做機器人。

任少卿：主要是我覺得從技術的維度上來說，這件事情它一定是這么個搞法實現(xiàn)的。

否則的話那機器人怎么辦，對吧？

就是兩種方式，第一個機器人別做了，第二個機器人探索出來一套它統(tǒng)一的框架。那如果機器人探索出來它統(tǒng)一的框架，它一定能回來做自動駕駛。因為它本身就很像。但是從這個角度來說，因為這些方式肯定都是要用大量的數(shù)據(jù)的。

那在自動駕駛上把這樣的一套充分認知的框架，做出來的可能性更大，因為它的數(shù)據(jù)量更大了。

當機器人覺得還是要分三層，我們有很多事情沒講，我們認為它實際上有三層的能力，第一層能力叫做概念認知，第二層叫時空認知，第三層叫做運動的，或者說叫交互。

第一層就是說概念認知實際上就是大于模型解讀。第二層時空認知的話就是剛才我們說的這些。

第三層說這個運動能力實際上某種程度上看，就是怎么去控制輪子，怎么去控制腿，怎么去用只手，或者怎么去拿一個工具出來，拿個小刀去把它用起來。三個東西簡化一下，把這個分開，但是也有融在一起做，但是通用來說這個第二層的這個能力，就是這個時空認知的這個能力是一個很通用的能力。

任少卿：其實我覺得在整個產(chǎn)業(yè)上，你從技術的角度來說，自動駕駛前面幾年技術都沒什么特別大的變化，最近這半年一年倒是變化挺大。

很多的變化也不來自自動駕駛領域，來自于我們前面說的這些其他領域的東西。

智能車參考：可能最后還是會追求變成一個通用的模型，打造一個像人一樣的這種智能體？

任少卿：是這樣的。剩下的問題是怎么把它打造出來。做機器人這些公司也挺好玩。

反正這些東西，現(xiàn)在都是相互交互越來越多，我覺得做智能駕駛也不能只關注智能駕駛。

聯(lián)系作者

在經(jīng)過廣泛征集、專業(yè)推薦，以及智能車參考垂直社群的萬人票選后，智能車2023年度評選結果正式發(fā)布。涵蓋三類獎項：

在汽車工業(yè)迎來百年未有之大變局時，我們希望能以此提供智能維度的參考和注腳。

其中，十大智能車技術方案是：

完

相關熱詞： 對話任少卿世界模型自動駕駛機器人的新范式范

上一篇：怎么用 AI 輔助閱讀書籍？

下一篇：沈向洋：人工智能的顛覆性力量逐步顯化，須打造負責任的AI

AiLab云推薦

對話任少卿：世界模型是自動駕駛與機器人的新范式
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-05 19:41:17 瀏覽：1825次

相關內容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內容

在線客服

熱門欄目HotCates

關于我們

版權聲明

對話任少卿：世界模型是自動駕駛與機器人的新范式 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-05 19:41:17 瀏覽：1825次

相關內容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內容

在線客服

熱門欄目HotCates

關于我們

版權聲明

對話任少卿：世界模型是自動駕駛與機器人的新范式
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-05 19:41:17 瀏覽：1825次