MM1313亚洲精品无码久久,承德露露,精品国产一级在线观看

自動(dòng)駕駛獨(dú)角獸如此“造假”，LeCun都服了

來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2023-10-07 08:42:06 瀏覽：4633次

導(dǎo)讀：明敏發(fā)自凹非寺量子位 | 公眾號(hào) QbitAI 你以為這是個(gè)平平無(wú)奇的自動(dòng)駕駛視頻？ NO、NO、NO這其實(shí)是完全由AI從頭生成的。沒(méi)有一幀是真的。不同路況、各種天氣， 20多種情況都能模擬，效果以假亂真。世界模型再次立大功了！這不LeCun看了都激情轉(zhuǎn)發(fā)。...

明敏發(fā)自凹非寺

量子位 | 公眾號(hào) QbitAI

你以為這是個(gè)平平無(wú)奇的自動(dòng)駕駛視頻？

NO、NO、NO……這其實(shí)是完全由AI從頭生成的。

沒(méi)有一幀是“真的”。

不同路況、各種天氣，20多種情況都能模擬，效果以假亂真。

世界模型再次立大功了！這不LeCun看了都激情轉(zhuǎn)發(fā)。

如上效果，由GAIA-1的最新版本帶來(lái)。

它規(guī)模達(dá)90億參數(shù)，用4700小時(shí)駕駛視頻訓(xùn)練，實(shí)現(xiàn)了輸入視頻、文本或操作生成自動(dòng)駕駛視頻的效果。

帶來(lái)的最直接好處就是能更好預(yù)測(cè)未來(lái)事件，20多種場(chǎng)景都能模擬，從而進(jìn)一步提升了自動(dòng)駕駛的安全性、還降低了成本。

其主創(chuàng)團(tuán)隊(duì)直言，這能夠改變自動(dòng)駕駛的游戲規(guī)則！

所以GAIA-1是如何實(shí)現(xiàn)的？

規(guī)模越大效果越好

GAIA-1是一個(gè)多模態(tài)生成式世界模型。

它利用視頻、文本和動(dòng)作作為輸入，生成逼真的駕駛場(chǎng)景視頻，同時(shí)可以對(duì)自主車(chē)輛的行為以及場(chǎng)景特征進(jìn)行細(xì)粒度控制。

而且可以僅通過(guò)文本提示來(lái)生成視頻。

其模型原理有點(diǎn)像大語(yǔ)言模型的原理，就是預(yù)測(cè)下一個(gè)token。

模型可以利用向量量化表示將視頻幀離散，然后預(yù)測(cè)未來(lái)場(chǎng)景，就轉(zhuǎn)換成了預(yù)測(cè)序列中的下一個(gè)token。然后再利用擴(kuò)散模型從世界模型的語(yǔ)言空間里生成高質(zhì)量視頻。

具體步驟如下：

第一步簡(jiǎn)單理解，就是對(duì)各種輸入進(jìn)行重新編碼和排列組合。

利用一個(gè)專(zhuān)門(mén)的編碼器對(duì)各種輸入進(jìn)行編碼，不同輸入投射到共用表示里。文本和視頻編碼器對(duì)輸入分離、嵌入，操作（action）表示則被單獨(dú)投射到共用表示里。

這些編碼的表示具有時(shí)間一致性。

在進(jìn)行排列之后，關(guān)鍵部分世界模型登常

作為一個(gè)自回歸Transformer，它能預(yù)測(cè)序列中的下一組圖像token。而且它不僅考慮了之前的圖像token，還要兼顧文本和操作的上下文信息。

這就使得模型生成內(nèi)容，不僅保持了圖像一致性，而且和預(yù)測(cè)文本、動(dòng)作也能保持一致。

團(tuán)隊(duì)介紹，GAIA-1中的世界模型規(guī)模為65億參數(shù)，在64塊A100上訓(xùn)練15天而成。

最后再利用視頻解碼器、視頻擴(kuò)散模型，將這些token轉(zhuǎn)換回視頻。

這一步關(guān)乎視頻的語(yǔ)義質(zhì)量、圖像準(zhǔn)確性和時(shí)間一致性。

GAIA-1的視頻解碼器規(guī)模達(dá)26億參數(shù)規(guī)模，利用32臺(tái)A100訓(xùn)練15天而來(lái)。

值得一提的是，GAIA-1不僅和大語(yǔ)言模型原理相似，同時(shí)也呈現(xiàn)出了隨著模型規(guī)模擴(kuò)大、生成質(zhì)量提升的特點(diǎn)。

團(tuán)隊(duì)將此前6月發(fā)布早期版本和最新效果進(jìn)行了對(duì)比。

后者規(guī)模為前者的480倍。

可以直觀看到視頻在細(xì)節(jié)、分辨率等方面都有明顯提升。

而從實(shí)際應(yīng)用方面出發(fā)，GAIA-1也帶來(lái)了影響，其主創(chuàng)團(tuán)隊(duì)表示，這會(huì)改變自動(dòng)駕駛的規(guī)則。

原因來(lái)自三方面：

安全

綜合訓(xùn)練數(shù)據(jù)

長(zhǎng)尾場(chǎng)景

首先安全方面，世界模型能夠通過(guò)模擬未來(lái)，讓AI有能力意識(shí)到自己的決定，這對(duì)自動(dòng)駕駛的安全性來(lái)說(shuō)很關(guān)鍵。

其次，訓(xùn)練數(shù)據(jù)對(duì)于自動(dòng)駕駛來(lái)說(shuō)也非常關(guān)鍵。生成的數(shù)據(jù)更加安全、便宜，而且還能無(wú)限擴(kuò)展。

最后，它還能解決目前自動(dòng)駕駛面臨的最大挑戰(zhàn)之一長(zhǎng)尾場(chǎng)景。生成式AI可以兼顧更多邊緣場(chǎng)景，比如在大霧天氣行駛遇到了橫穿馬路的路人。這能更進(jìn)一步提升自動(dòng)駕駛的能力。

Wayve是誰(shuí)？

GAIA-1來(lái)自英國(guó)自動(dòng)駕駛初創(chuàng)公司Wayve。

Wayve成立于2017年，投資方有微軟等，估值已經(jīng)達(dá)到了獨(dú)角獸。

創(chuàng)始人為現(xiàn)任CEO亞歷克斯肯德?tīng)柡桶敔柹常ü竟倬W(wǎng)領(lǐng)導(dǎo)層頁(yè)已無(wú)其信息），兩人都是來(lái)自劍橋大學(xué)的機(jī)器學(xué)習(xí)博士。

技術(shù)路線上，和特斯拉一樣，Wayve主張利用攝像頭的純視覺(jué)方案，很早就拋棄高精地圖，堅(jiān)定的走“即時(shí)感知”路線。

前不久，該團(tuán)隊(duì)發(fā)布的另一個(gè)大模型LINGO-1也引發(fā)轟動(dòng)。

這個(gè)自動(dòng)駕駛模型能夠在行車(chē)過(guò)程中，實(shí)時(shí)生成解說(shuō)，更進(jìn)一步提高了模型可解釋性。

今年3月，比爾蓋茨還曾試乘過(guò)過(guò)Wayve的自動(dòng)駕駛汽車(chē)。

論文地址：

https://arxiv.org/abs/2309.17080

參考鏈接：

[1]https://twitter.com/ylecun/status/1709810114340024400

[2]https://wayve.ai/thinking/scaling-gaia-1/

相關(guān)熱詞： 自動(dòng) 駕駛獨(dú)角如此造假 LeCun 服了

自動(dòng)駕駛獨(dú)角獸如此“造假”，LeCun都服了
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2023-10-07 08:42:06 瀏覽：4633次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門(mén)排行

推薦內(nèi)容

在線客服

熱門(mén)欄目HotCates

關(guān)于我們

版權(quán)聲明

自動(dòng)駕駛獨(dú)角獸如此“造假”，LeCun都服了 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2023-10-07 08:42:06 瀏覽：4633次