展會(huì)信息港展會(huì)大全

清華AIR張亞勤:預(yù)訓(xùn)練、生成式大模型,將帶來(lái)自動(dòng)駕駛技術(shù)范式新變革
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2023-10-12 17:58:26   瀏覽:4835次  

導(dǎo)讀:2023年10月11日,中國(guó)工程院院士、清華大學(xué)教授、清華智能產(chǎn)業(yè)研究院(AIR)院長(zhǎng)張亞勤現(xiàn)場(chǎng)出席毫末智行舉辦的第九屆HAOMO AI DAY,發(fā)表了題為《智能駕駛新進(jìn)展Big Model, Generative Al and Intelligent Driving》的主題演講,分享了他對(duì)生成式AI大模型應(yīng)用...

2023年10月11日,中國(guó)工程院院士、清華大學(xué)教授、清華智能產(chǎn)業(yè)研究院(AIR)院長(zhǎng)張亞勤現(xiàn)場(chǎng)出席毫末智行舉辦的第九屆HAOMO AI DAY,發(fā)表了題為《智能駕駛新進(jìn)展Big Model, Generative Al and Intelligent Driving》的主題演講,分享了他對(duì)生成式AI大模型應(yīng)用于自動(dòng)駕駛技術(shù)的最新思考,以及介紹了清華AIR在構(gòu)建Real2Sim2Real基礎(chǔ)模型平臺(tái)、自動(dòng)駕駛仿真平臺(tái)等最新成果。

以下是張亞勤院士的演講全文:

這么美麗的天氣,這么漂亮的地方,很高興參加HAOMO AI DAY,也感謝張凱董事長(zhǎng)和維灝的邀請(qǐng)。

今天是第九屆HAOMO AI DAY,首先我要祝賀毫末在不到4年的時(shí)間里取得了很大的成績(jī),特別是走出一條自己的路。我印象當(dāng)中毫末是最先在自動(dòng)駕駛方面發(fā)布了生成式大模型DriveGPT,也很快地走向規(guī)模化,在這么短的時(shí)間就能夠成為自動(dòng)駕駛領(lǐng)域的領(lǐng)軍企業(yè)。

今天我想談一下在智能駕駛方面新的進(jìn)展,這些年我一直用同樣的題目,但是每一次會(huì)發(fā)現(xiàn)里面的內(nèi)容都完全不同,特別是最近生成式AI出來(lái)之后,對(duì)自動(dòng)駕駛有了很大的推進(jìn)。

我們一直講新的“四化”網(wǎng)聯(lián)化、智能化、共享化、電動(dòng)化,其中最重要的是兩化電動(dòng)化、智能化。電動(dòng)化可以理解成是新能源,現(xiàn)在中國(guó)已經(jīng)是全球最活躍、最大的新能源市場(chǎng),不管是在用戶規(guī);蛘叱隹谝(guī)模都是全球第一,這是新汽車的上半常下半場(chǎng)最重要的是智能駕駛,未來(lái)5-10年全球競(jìng)爭(zhēng)的熱點(diǎn)和制高點(diǎn)就是自動(dòng)駕駛。人工智能是自動(dòng)駕駛核心的技術(shù)驅(qū)動(dòng)力,毫末從一開始成立就以AI作為公司的技術(shù)引擎,所以HAOMO AI DAY十分重要。

為什么這么多的企業(yè)都在做智能駕駛?包括傳統(tǒng)汽車廠商、新勢(shì)力、高科技企業(yè)都在進(jìn)入自動(dòng)駕駛市場(chǎng)?其實(shí),這里面有很多的技術(shù)挑戰(zhàn),首先從AI的角度來(lái)看,自動(dòng)駕駛是高度復(fù)雜的,需要很多算力、新算法,是最具有挑戰(zhàn)的AI垂直領(lǐng)域問題,其次,自動(dòng)駕駛也是目前看到的聚生智能、邊緣智能、自主智能的交集。剛剛毫末的測(cè)試視頻里可以看到自動(dòng)駕駛面對(duì)這么多的復(fù)雜場(chǎng)景和變化,確實(shí)有很多的挑戰(zhàn)。

但是,我認(rèn)為自動(dòng)駕駛是完全可以實(shí)現(xiàn)的,其中有一些關(guān)鍵的問題,有一些是市場(chǎng)的因素,有一些是非市場(chǎng)的力量。市場(chǎng)的因素包括技術(shù)是否可行?用戶有沒有真正需求?產(chǎn)業(yè)生態(tài)及商業(yè)模式。非市場(chǎng)因素也很重要,需要行業(yè)有技術(shù)突破,也需要有政府產(chǎn)業(yè)方面的支持,以及與政策法規(guī)突破。

在技術(shù)方面,一開始很多人在講無(wú)人駕駛是否可行,特別是L4以上是否可行?我從一開始認(rèn)為就是可行的。最近看到一些數(shù)據(jù),無(wú)人駕駛比有人駕駛安全10倍左右,在去年我還在講是3倍,今年已經(jīng)到了10倍。這說(shuō)明技術(shù)突破已經(jīng)完成。在商業(yè)化路線圖上,目前也有各種各樣的方式,有一些是用單車智能,有一些車路協(xié)同,還有漸進(jìn)式、跳躍式的路線,開源、封閉的路線,不同企業(yè)都在探索不同的路線圖,沒有說(shuō)哪一個(gè)是完全正確的,產(chǎn)業(yè)在用不同的方式嘗試自動(dòng)駕駛。我知道毫末選擇了漸進(jìn)式,我覺得這些都很好,大家用不同的方式去探索。

最近在AI方面有很多新的突破。我們看到新的算法、新的框架,特別是預(yù)訓(xùn)練、多模態(tài)、多監(jiān)督學(xué)習(xí)、大模型成為主流。在Transformer之前,ResNeT曾經(jīng)是作為非常廣泛應(yīng)用的視覺算法框架,我之所以特別提到ResNeT,這個(gè)算法其實(shí)是中國(guó)的年輕科學(xué)家在中國(guó)完成的,因此中國(guó)科學(xué)家對(duì)于人工智能有著很大的貢獻(xiàn)。我聽到很多的說(shuō)法,認(rèn)為AI的核心主要是從歐洲來(lái)的,基本的理論是從那里來(lái)的,但是中國(guó)科學(xué)家在人工智能領(lǐng)域也做出了很多的貢獻(xiàn)。

大模型很重要的一點(diǎn)是要突破技術(shù)限制。過去六、七十年中主要有三個(gè)重要的理論:摩爾定律、馮諾依曼架構(gòu)、香農(nóng)三定律,現(xiàn)在那這三個(gè)理論都在被突破。如果不突破,大模型不可能實(shí)現(xiàn),這其中需要有新的傳感方式,新的感知方式,需要有新的計(jì)算機(jī)體系架構(gòu)的突破,包括芯片新框架等,現(xiàn)在主流的Transformer和CNN卷積神經(jīng)網(wǎng)絡(luò)也都不一樣。目前,數(shù)字技術(shù)產(chǎn)業(yè)主要還是基于硅片的計(jì)算,未來(lái)可能會(huì)有生物科學(xué)、光計(jì)算、量子計(jì)算。

當(dāng)前,很重要的一點(diǎn)就是大模型帶來(lái)生成式的AI,過去AI講的是分類,也就是判別式的AI,F(xiàn)在可以完全生成新的內(nèi)容創(chuàng)意、數(shù)據(jù)的創(chuàng)意,也可以在場(chǎng)景方面有很多新的創(chuàng)意。下面我稍微講一下在這方面的工作。

大模型走向了新方向。首先是多模態(tài),不僅僅是自然語(yǔ)言、圖像、視頻,也包括傳感信號(hào)、激光雷達(dá)等從所有車機(jī)發(fā)出的物理感知、生物感知信號(hào)。大家看到GPT-4大模型就是多模態(tài)的,其功能很強(qiáng)大,不過效率很低,大致比人大腦的計(jì)算和決策效率至少要低1000倍,所以還需要有新的算法,我覺得5年之后就會(huì)有新的算法出現(xiàn)。其次是自主智能,可以去自動(dòng)的完成任務(wù),包括邊緣計(jì)算,把很復(fù)雜的大模型怎么樣放在手機(jī)、汽車、機(jī)器人邊緣上,還有具身智能和物理世界連在一塊,我認(rèn)為自動(dòng)駕駛是最重要的具身智能場(chǎng)景。未來(lái)是腦機(jī)智能階段,大模型將面臨怎么樣用到生物的世界、生命的世界,怎樣讓人和腦更好的連接。

新技術(shù)架構(gòu)都會(huì)用到大模型,就像新的AI操作系統(tǒng)一樣,上面會(huì)有很多垂直的模型,包括做自動(dòng)駕駛或者其他像生命科學(xué)垂直的模型。

我這里再簡(jiǎn)單講一下清華智能產(chǎn)業(yè)研究院(AIR),這是我從百度退休之后創(chuàng)立的人工智能產(chǎn)業(yè)研究院,3年的時(shí)間發(fā)展速度很快,也很幸運(yùn)能夠找到一批有很深產(chǎn)業(yè)背景,同時(shí)有很深學(xué)術(shù)造詣的科學(xué)家和企業(yè)CTO,F(xiàn)在差不多加上博士后、學(xué)生有300人左右,自動(dòng)駕駛是其中的一個(gè)方向,大概有100人左右。

每一次講到AIR研究院,都會(huì)想起25年前我回國(guó)創(chuàng)立微軟亞洲研究院。下個(gè)月會(huì)慶祝微軟亞洲研究院25周年,這個(gè)研究院本身相當(dāng)?shù)某晒。我剛剛講的大模型就是在微軟研究院所開發(fā)的,希望能夠打造面向中國(guó)產(chǎn)業(yè)的研究院。

我們?cè)趶氖赂鞣N研究的時(shí)候希望有一個(gè)大的框架,比如智能駕駛方面要先確定一些技術(shù)路線。首先我認(rèn)為多模態(tài)的感知很重要,從原多尺度、多維的數(shù)據(jù)很重要。因?yàn)樽鰺o(wú)人駕駛、智能駕駛,機(jī)器人的優(yōu)勢(shì)首先就是要求數(shù)據(jù)比較多,這個(gè)數(shù)據(jù)優(yōu)勢(shì)不能仍掉,所以我不同意馬斯克所說(shuō)的只用攝像頭,我們需要用更多的數(shù)據(jù)源。其次是現(xiàn)在很多的自動(dòng)駕駛會(huì)用到很多高精地圖,但是我們認(rèn)為未來(lái)是輕地圖,不能完全依賴于地圖。

自動(dòng)駕駛達(dá)到最后的安全、可靠階段一定是端到端方式實(shí)現(xiàn)的,這個(gè)也非常難,這里面有更詳細(xì)的技術(shù)因素,包括生成式AI、強(qiáng)化學(xué)習(xí)、大語(yǔ)言模型,我們有兩個(gè)平臺(tái):數(shù)據(jù)大模型平臺(tái)、仿真平臺(tái)。

AIR也提出了自己的自動(dòng)駕駛基礎(chǔ)模型。首先模型提出了怎么樣獲取不同數(shù)據(jù),包括真實(shí)世界數(shù)據(jù)和仿真數(shù)據(jù)。數(shù)據(jù)要經(jīng)過受控管道進(jìn)行清理,然后再經(jīng)過兩個(gè)大模型:感知模型、決策模型,包括在一些云端和車端的關(guān)鍵場(chǎng)所做出決策,有一些模塊是提供信息,有一些是統(tǒng)計(jì)的,也有一些是基于規(guī)則的模塊。

我在里面專門把“強(qiáng)化學(xué)習(xí)”拿出來(lái),因?yàn)閺?qiáng)化學(xué)習(xí)我從百度開始的時(shí)候就在用到的,但是很難用。因?yàn)樽詣?dòng)駕駛安全性很重要,用起來(lái)相當(dāng)困難,但是我認(rèn)為這個(gè)是我們唯一真正達(dá)到更高安全的方式,強(qiáng)化學(xué)習(xí)可以學(xué)到新的東西,現(xiàn)在泛化的方式要靠強(qiáng)化學(xué)習(xí)去學(xué)習(xí),最近也有很多新的進(jìn)展。怎么樣把強(qiáng)化學(xué)習(xí)用到很多模擬和決策,用到真正駕駛的行為當(dāng)中。左邊模型是垂直大數(shù)據(jù),怎么樣用強(qiáng)化學(xué)習(xí)去調(diào)整模型。

另外是生成式AI怎么樣能用到仿真、決策當(dāng)中?這里面有一個(gè)小的例子,大模型和深度學(xué)習(xí)都有透明度的問題,所以我們也做了這方面的研究,我到底為什么做這個(gè)決定?左轉(zhuǎn)、右轉(zhuǎn)、剎車,告訴我看到什么東西了,以及我為什么要做這個(gè)決定,它可以引導(dǎo)怎么樣做決定。這個(gè)是用真實(shí)數(shù)據(jù)、仿真數(shù)據(jù)、垂直模型、大模型生成語(yǔ)意深度場(chǎng)景,包括交通和行人的信息。

另外是人腦和機(jī)器的融合,我們要去研究一下人是怎么開車的。人有的時(shí)候決策很好,有的時(shí)候決策不好,把這些信息通過傳感器收集起來(lái)。一方面在很長(zhǎng)時(shí)間人和機(jī)器要共駕,無(wú)人駕駛要慢慢理解人的駕駛。另一方面把模型用到算法當(dāng)中,改善算法的效率。

最后,我們非常高興能和毫末在技術(shù)方面有深度的合作,這個(gè)合作是關(guān)于怎么樣把強(qiáng)化學(xué)習(xí)用到認(rèn)知決策里面?怎么樣用真實(shí)的數(shù)據(jù)和實(shí)車場(chǎng)景用強(qiáng)化學(xué)習(xí)把它融合起來(lái),當(dāng)前,強(qiáng)化學(xué)習(xí)有很多的問題,在線或者離線的方式,包括函數(shù)定義的問題、策略模糊性的問題,所以我們做了很多這樣的研究。過去一年多,在國(guó)際頂會(huì)發(fā)表了很多的論文,同時(shí)也有專利,最重要的是現(xiàn)在開始用到車?yán)锩,剛剛看到物流的小車已?jīng)開始用這些算法。

總結(jié)一下,如果看智能駕駛和自動(dòng)駕駛經(jīng)歷的不同階段,一開始的時(shí)候更多是用激光雷達(dá)和硬件驅(qū)動(dòng),更多是基于人工的規(guī)則。2.0是軟件和算法的驅(qū)動(dòng),這個(gè)階段有更多的傳感器,也要靠機(jī)器學(xué)習(xí)和規(guī)則,F(xiàn)在走到3.0的時(shí)代,就是大模型的驅(qū)動(dòng),這個(gè)階段有多傳感器用到端與端的算法,也會(huì)用到強(qiáng)化學(xué)習(xí),可以更大程度地實(shí)現(xiàn)自動(dòng)駕駛在真實(shí)的世界落地。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港