當(dāng)前位置：人工智能實驗室> 人工智能動態(tài) > 圖靈獎得主楊立昆：生成式AI有點過時了

圖靈獎得主楊立昆：生成式AI有點過時了
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-08-22 09:02:44 瀏覽：15468次

導(dǎo)讀：我不認(rèn)為存在通用人工智能這樣的概念，人工智能是非常專業(yè)的。整理｜吳瑩圖片來源｜視覺中國近日，Meta首席人工智能科學(xué)家、2018年圖靈獎獲得者楊立昆（Yann LeCun）在麻省理工學(xué)院發(fā)表了他對AI大模型發(fā)展的最新看法。楊立昆認(rèn)為目前的機(jī)器學(xué)習(xí)能力比...

“我不認(rèn)為存在通用人工智能這樣的概念，人工智能是非常專業(yè)的。”

整理｜吳瑩

圖片來源｜視覺中國

近日，Meta首席人工智能科學(xué)家、2018年圖靈獎獲得者楊立昆（Yann LeCun）在麻省理工學(xué)院發(fā)表了他對AI大模型發(fā)展的最新看法。

楊立昆認(rèn)為目前的機(jī)器學(xué)習(xí)能力比起人類還差得遠(yuǎn)，機(jī)器學(xué)習(xí)并沒有人類學(xué)習(xí)的那種推理和計劃能力，這一缺失導(dǎo)致我們無法做出和人類智力相當(dāng)?shù)娜斯ぶ悄�。同時，他認(rèn)為現(xiàn)在的LLMs（Large Language Models，大型語言模型）是兩年前的研究成果，已經(jīng)過時了，現(xiàn)在更新的AI學(xué)習(xí)方式應(yīng)該是自監(jiān)督學(xué)習(xí)（self-supervised learning）。

最后，他還指出應(yīng)該要打造目標(biāo)驅(qū)動型人工智能，放棄那些生成式訓(xùn)練方式，盡快研究出有推理能力，能進(jìn)行復(fù)雜計劃分層規(guī)劃的人工智能。并提出不存在通用人工智能的概念，人工智能都是很專業(yè)的。

演講的精彩觀點：

1.自監(jiān)督學(xué)習(xí)可以被看作是機(jī)器學(xué)習(xí)的一種“理想狀態(tài)”，模型直接從無標(biāo)簽數(shù)據(jù)中自行學(xué)習(xí)，無需標(biāo)注數(shù)據(jù)。

2.開放的創(chuàng)新讓我們在人工智能開發(fā)過程中獲益頗豐，為這些技術(shù)帶來可見性、審查和信任是我們努力的目標(biāo)。

3.我認(rèn)為未來人工智能和機(jī)器學(xué)習(xí)研究面臨著三個挑戰(zhàn)。第一是學(xué)習(xí)世界的表征和預(yù)測模型。解決這個問題的方法就是自監(jiān)督學(xué)習(xí)。第二是學(xué)習(xí)推理。基本上與人類的潛意識相對應(yīng)，可以做到下意識的反應(yīng)，不需要過多地思考。第三是學(xué)會分層制定行動計劃�？梢酝ㄟ^大量復(fù)雜的動作來實現(xiàn)目標(biāo)。

4.大多數(shù)人類知識都是非語言的。我們在一歲之前學(xué)到的一切都與語言無關(guān)。除非擁有以視覺形式提供直接感官信息的系統(tǒng)，否則我們將無法創(chuàng)造出達(dá)到人類智力水平的人工智能。

5.最終，我們想要做的是使用自監(jiān)督學(xué)習(xí)和JEPA架構(gòu)來構(gòu)建之前提到的那種可以預(yù)測世界和進(jìn)行計劃推理的系統(tǒng)，這些系統(tǒng)是分層的，可以預(yù)測世界上將要發(fā)生的事情。

6.我不認(rèn)為存在通用人工智能這樣的概念，人工智能是非常專業(yè)的。

以下為楊立昆在麻省理工學(xué)院的演講（有刪改）:

比起人類，機(jī)器學(xué)習(xí)還差得遠(yuǎn)

我們應(yīng)該意識到，與人類、動物的學(xué)習(xí)行為相比，機(jī)器學(xué)習(xí)真的很糟糕。人類和動物能夠了解世界是如何運作的，可以對任務(wù)進(jìn)行推理和計劃，他們的行為是由目標(biāo)所驅(qū)動的，而機(jī)器學(xué)習(xí)卻做不到這一點。不過隨著自監(jiān)督學(xué)習(xí)的應(yīng)用，生物世界和機(jī)器學(xué)習(xí)之間的差距正在縮校自監(jiān)督學(xué)習(xí)已經(jīng)在文本、自然語言理解、圖像、視頻、3D模型、語音、蛋白質(zhì)折疊等領(lǐng)域的機(jī)器學(xué)習(xí)中占據(jù)了主導(dǎo)地位。

自監(jiān)督學(xué)習(xí)可以被看作是機(jī)器學(xué)習(xí)的一種“理想狀態(tài)”，模型直接從無標(biāo)簽數(shù)據(jù)中自行學(xué)習(xí)，無需標(biāo)注數(shù)據(jù)。它在自然語言理解中的使用方式是，獲取一段文本，通過刪除一些單詞（例如用空白標(biāo)記替換它們）來掩蓋它的一部分錯誤，然后訓(xùn)練一些神經(jīng)網(wǎng)絡(luò)來預(yù)測丟失的單詞，只需測量缺失部分的重建誤差。在這個過程中，系統(tǒng)允許你存儲或表示語法、語義等內(nèi)容，然后可以使用這些內(nèi)容去進(jìn)行下一步的任務(wù)，例如翻譯或主題分類等。

這種做法在文本訓(xùn)練中效果非常好，因為文本的不確定性更高，無法準(zhǔn)確預(yù)測文本中哪個單詞會出現(xiàn)在特定位置，但可以做到的是預(yù)測字典中所有單詞的某種概率分布，可以輕松計算該單詞分布的概率，并很好地處理預(yù)測中的不確定性。

自回歸語言模型是我們最近經(jīng)常聽到的學(xué)習(xí)方式，它的運作方式與自監(jiān)督學(xué)習(xí)類似。其實這是剛才提到的自監(jiān)督學(xué)習(xí)方法的一個特例。將一系列標(biāo)記、單詞轉(zhuǎn)化成向量，然后訓(xùn)練一個系統(tǒng)來預(yù)測序列中的最后一個標(biāo)記。一旦有了一個經(jīng)過訓(xùn)練就可以生成下一個標(biāo)記的系統(tǒng)，基本上就可以用自回歸、遞歸的方式來預(yù)測下一個標(biāo)記，這就是自回歸預(yù)測。這使得系統(tǒng)可以一個接一個地預(yù)測標(biāo)記并生成文本，它們從文本中捕獲的知識量相當(dāng)驚人，這些系統(tǒng)通常擁有數(shù)十億甚至千億個參數(shù)，需要使用1萬億~2萬億個代幣進(jìn)行訓(xùn)練，有時甚至更多。

此類模型的出現(xiàn)已有很長的歷史，比如Blenderbot、Galacica、Llama 1和Llama 2、Google的Lambda和Bard、DeepMind的Chinchilla，當(dāng)然還有OpenAI的ChatGPT。這些模型都非常適合作為寫作的輔助工具，但它們對潛在表達(dá)的了解確實有限，因為它們純粹是從文本中接受訓(xùn)練。

我們剛推出了一個Llama 2的開源大模型，目前有70億、130億和700億參數(shù)的三個版本，并且可以免費商用。目前這個模型已經(jīng)用2萬億個代幣進(jìn)行了預(yù)訓(xùn)練，上下文長度為4096，某些版本已經(jīng)針對對話內(nèi)容進(jìn)行了微調(diào)，在許多基準(zhǔn)測試中，它與其他系統(tǒng)（無論是開源還是閉源）相比都具有優(yōu)勢。它的本質(zhì)特征是開放性，我們與模型一起發(fā)布了一份多人簽名的文本。該文本記載了我們?nèi)斯ぶ悄苎芯恐械膭?chuàng)新方法。開放的創(chuàng)新讓我們在人工智能開發(fā)過程中獲益頗豐，為這些技術(shù)帶來可見性、審查和信任是我們努力的目標(biāo)。

人工智能很強(qiáng)大，以至于人們在猶豫是否需要嚴(yán)格的控制和監(jiān)管它，還有對于選擇開源還是閉源的探討也十分激烈。的確風(fēng)險肯定是存在的，但大量證據(jù)表明開源軟件實際上比專有軟件更安全。而且AI和LLMs的好處如此之大，如果我們對此保密的話，無疑是搬起石頭砸自己的腳，Meta絕對站在開放研究這一邊。基于LLMs的培訓(xùn)非常昂貴，因此我們不需要擁有25個不同的專有LLMs，我們需要一些開源的模型，以便人們可以在它們之上構(gòu)建微調(diào)的產(chǎn)品。

未來我們與數(shù)字世界的所有交互都將通過人工智能系統(tǒng)中的虛擬助手來調(diào)節(jié)。它將成為人類知識的寶庫，我們不用再詢問谷歌或者進(jìn)行文獻(xiàn)搜索，只需要與我們的人工智能助手去交談，或許還會參考一下原始材料，但總體還是會通過人工智能系統(tǒng)去獲得我們所需要的信息。它將成為每一個人都可以使用的基礎(chǔ)設(shè)施，所以基礎(chǔ)設(shè)施必須是開源的。在互聯(lián)網(wǎng)發(fā)展的歷史中，微軟和微軟系統(tǒng)公司等供應(yīng)商之間曾為提供互聯(lián)網(wǎng)的軟件基礎(chǔ)設(shè)施而展開過一場競爭，所有供應(yīng)商都失去了當(dāng)今運行互聯(lián)網(wǎng)的Linux、Apache、Chrome、Firefox、JavaScript，這都是開源的。

人類的知識如此龐雜，這需要數(shù)百萬人以眾包的方式作出貢獻(xiàn)。這些系統(tǒng)是所有人類知識的存儲庫，類似于維基百科，維基百科不能由專有公司創(chuàng)建，它必須集成全世界人民的智慧，因此，基于AI的系統(tǒng)也會出現(xiàn)同樣的情況，開源人工智能是不可避免的，我們只是邁出了第一步。

“今天看到的LLMs模型將在3～5年內(nèi)消失”

對于人工智能領(lǐng)域的研究人員來說，LLMs革命發(fā)生在兩年前，其實已經(jīng)有點過時了。不過對于最近幾個月才接觸ChatGPT的公眾來說，這還是很新鮮的。其實也能發(fā)現(xiàn)這個模型并沒有那么好用，它們沒有真正給出與事實一致的答案，還會產(chǎn)生幻覺甚至胡言亂語，并且無法考慮最近的信息，因為它們是根據(jù)近兩年的信息進(jìn)行訓(xùn)練的。所以需要通過RHF（一種量化方法）來調(diào)試它，但是RHF也沒辦法做到那么完美。人工智能不會講道理，也不能做計劃，而人類是可以做到這些的。

我們很容易被它們的流暢性所蒙蔽，以為它們很聰明，其實智力非常有限，它們與物質(zhì)現(xiàn)實沒有任何聯(lián)系，完全不知道這個世界是如何運轉(zhuǎn)的。還有它們基本上是通過構(gòu)建來獲得答案的，即一個系統(tǒng)在自回歸后生成一個標(biāo)記，如果生成的任何一個標(biāo)記都有概率讓你偏離正確答案的范圍，這些概率就會累積。長度為n的標(biāo)記串，P（正確的概率）=（1-e錯誤的概率）n，因此正確的概率隨著生成的序列長度呈指數(shù)下降，如果不進(jìn)行重新設(shè)計，這是無法修復(fù)的。這確實是自回歸預(yù)測的一個本質(zhì)缺陷。

不久前，我們和雅各布布朗尼（Jacob Browning）合著了一篇論文，發(fā)表在一本名為《Noema》的哲學(xué)雜志上，這篇文章從根本上指出了現(xiàn)有大模型技術(shù)的局限性。其中談到了這樣一個事實：大多數(shù)人類知識都是非語言的。我們在一歲之前學(xué)到的一切都與語言無關(guān)。除非擁有以視覺形式提供直接感官信息的系統(tǒng)，否則我們將無法創(chuàng)造出達(dá)到人類智力水平的人工智能。其實無論是來自認(rèn)知科學(xué)，還是經(jīng)典人工智能子領(lǐng)域的研究論文，都指出了LLMs確實無法計劃的事實，它們沒有真正的思考能力，也沒有和人類一樣的推理和計劃能力。

所以我認(rèn)為未來人工智能和機(jī)器學(xué)習(xí)研究面臨著三個挑戰(zhàn)。第一是學(xué)習(xí)世界的表征和預(yù)測模型。解決這個問題的方法就是自監(jiān)督學(xué)習(xí)。第二是學(xué)習(xí)推理。基本上與人類的潛意識相對應(yīng)，可以做到下意識的反應(yīng)，不需要過多地思考。第三是學(xué)會分層制定行動計劃。可以通過大量復(fù)雜的動作來實現(xiàn)目標(biāo)。

我之前寫了一篇愿景論文，“A path towards autonomous machine intelligence”（《通往自主機(jī)器智能的道路》）現(xiàn)在我將這篇論文稱之為《目標(biāo)驅(qū)動人工智能》。它是圍繞著所謂的認(rèn)知架構(gòu)的想法構(gòu)建的，是一個不同模塊相互交互組成的體系結(jié)構(gòu)，為系統(tǒng)提供了對世界狀態(tài)的感知模塊。根據(jù)對世界狀態(tài)的感知預(yù)測與已有的記憶相結(jié)合，可以對世界未來要發(fā)生的事情做出有效預(yù)測。

世界的狀態(tài)用來初始化你的世界模型，然后將初始配置與想象的動作序列結(jié)合起來，提供給世界模型，再將結(jié)果給予目標(biāo)函數(shù)。這就是我為什么稱之為目標(biāo)驅(qū)動。你無法越過該系統(tǒng)，因為它是硬連線來優(yōu)化這些目標(biāo)的，除非你修改目標(biāo)，否則無法讓它產(chǎn)生有效內(nèi)容。

世界模型有多個操作步驟，例如，你采取兩個操作，然后在你的世界模型中運行它們兩次，以便你可以分兩步預(yù)測將要發(fā)生的情況。當(dāng)然世界是不確定性的，當(dāng)潛在變量在一組中變化，或從分布中對它們進(jìn)行采樣時，會得到多個預(yù)測，當(dāng)然這使得規(guī)劃過程變得復(fù)雜，最終我們真正想要的是某種分層操作的方法。

例如，假設(shè)我坐在紐約大學(xué)的辦公室里，想要前往巴黎，我的第一步是乘坐交通工具前往機(jī)場，第二步是趕飛機(jī)去巴黎。我的第一個目標(biāo)是去機(jī)場，該目標(biāo)可以分解為兩個子目標(biāo)，第一是到街上打出租去機(jī)場，我怎么去街上呢？需要從椅子上站起來走出大樓，而在這之前，我需要調(diào)動我身體的肌肉從椅子上站起來，這樣我們一直在做分層規(guī)劃，甚至這種規(guī)劃是不假思索，下意識進(jìn)行的。但是我們現(xiàn)在的AI系統(tǒng)是無法自發(fā)學(xué)做到這一點的。我們需要的是一個能夠?qū)W習(xí)世界狀態(tài)的系統(tǒng)，這將使它們能夠?qū)?fù)雜的任務(wù)分解成更簡單層次的任務(wù)。我認(rèn)為這對于人工智能研究來說是一個巨大的挑戰(zhàn)。

我們今天看到的LLMs模型將在3~5年內(nèi)消失，會出現(xiàn)新的可以做分層計劃，也能做推理的模型，使用命令讓答案轉(zhuǎn)換為流暢的文本。這樣我們就會得到既流暢又真實的東西。做這件事可能會失敗，但我認(rèn)為這應(yīng)該是要去努力的方向。

如果我們有這樣的系統(tǒng)，除了訓(xùn)練成本模型之外，我們將不需要任何的RHF或人類反饋，也不需要在全球范圍內(nèi)對系統(tǒng)進(jìn)行微調(diào)以確保安全，只需要設(shè)定一個目標(biāo)，使其產(chǎn)生的所有輸出都是安全的，我們不需要為此重新訓(xùn)練整個編碼器和所有內(nèi)容，這實際上會大大簡化訓(xùn)練，降低訓(xùn)練的成本。

當(dāng)我們觀察嬰兒時，會發(fā)現(xiàn)嬰兒出生后的幾個月中主要是通過觀察來獲取對這個世界的背景認(rèn)識，當(dāng)他們可以實際對世界采取行動時，才會一點點通過互動獲取知識。他們學(xué)習(xí)的大多是直觀的物理知識，比如重力慣性、動量守恒等，嬰兒需要大約9個月的時間才能真正明白，不受支撐的物體會掉落。顯然他們不會像LLMs那樣需要1萬億代幣來訓(xùn)練他們，人類不會接觸到那么多的文本信息。任何10歲的孩子都可以學(xué)會在幾分鐘內(nèi)清理餐桌，但我們沒有可以做到這一點的機(jī)器人。有些事情對人類來說似乎很容易，但對于AI來說卻很困難，反之亦然，AI在許多專有任務(wù)上都比人類強(qiáng)得多。

我們還沒有找到機(jī)器能夠像人類那樣理解世界的機(jī)制。而解決這個問題的方法，就是自監(jiān)督學(xué)習(xí)，通過這種方式來填補空白。如果我們訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)來進(jìn)行視頻預(yù)測，可以看到系統(tǒng)生成的預(yù)測非常模糊，這是因為系統(tǒng)經(jīng)過訓(xùn)練只能進(jìn)行一次預(yù)測，并且無法準(zhǔn)確預(yù)測視頻中將要發(fā)生的情況。它預(yù)測了一種模糊的混亂，這是所有未來可能發(fā)生結(jié)果的平均值。如果你使用類似的系統(tǒng)來預(yù)測自然視頻，效果是一樣的，都是一些模糊的預(yù)測。因此我們的解決方案是聯(lián)合預(yù)測嵌入架構(gòu)（JEPA），JEPA背后的主要思想是放棄預(yù)測需要生成的想法。現(xiàn)在最流行的就是生成式AI，但我認(rèn)為應(yīng)該放棄它，這已經(jīng)不是一個很流行的解決方案了。

生成式模型是一種輸入x來假設(shè)視頻或者文本的初始片段，通過編碼器和預(yù)測器運行它，然后嘗試預(yù)測變量y。而衡量系統(tǒng)性能的誤差基本上是預(yù)測y和實際y之間的某種差異度量。聯(lián)合預(yù)測嵌入架構(gòu)，不會嘗試預(yù)測y，而是預(yù)測y的表示，因此x和y都會通過計算表示的編碼器，然后你執(zhí)行表示空間中的預(yù)測。這樣做的優(yōu)點是y的編碼器可能具有不變的屬性，可以將多種方式映射到同一個結(jié)果中。因此如果有難以預(yù)測的事情，編碼器可能會消除這種難預(yù)測的點，從而使預(yù)測問題變得更容易。例如，假設(shè)你正在路上開著一輛自動駕駛汽車，這里的預(yù)測模型想要預(yù)測道路上其他汽車將要做什么。但路邊可能有樹，今天有風(fēng)，所以樹上的葉子正在以某種混亂的方式移動。樹后面有一個池塘，池塘上也因為風(fēng)的緣故泛起了漣漪。這些漣漪和樹葉的運動就很難預(yù)測，因為它們很混亂，但這些信息也非常豐富，可能就蘊藏著我們想要的答案。因此如果你使用該生成模型預(yù)測的話，就不得不投入大量資源來嘗試所有與任務(wù)有關(guān)的細(xì)節(jié)預(yù)測，成本就比較高。而JEPA可以選擇從場景中消除這些細(xì)節(jié)，只保留相對容易預(yù)測的y細(xì)節(jié)，例如其他汽車的運動，這樣對結(jié)果的預(yù)測就簡單多了。當(dāng)然，如果你想使用生成式模型也是可以的，但如果你想要的是了解世界然后能夠進(jìn)行規(guī)劃，就需要一個聯(lián)合預(yù)測嵌入架構(gòu)了。

我們?nèi)绾斡?xùn)練這樣的系統(tǒng)

實驗證明，想在圖像而不是文本的上下文中使用自監(jiān)督學(xué)習(xí)，唯一有效的就是聯(lián)合預(yù)測嵌入架構(gòu)。如果你訓(xùn)練一個系統(tǒng)，給它一對圖像，比方說x和y或視頻片段，然后告訴它計算x和y相同的表示，系統(tǒng)就會崩潰，它將產(chǎn)生恒定的sx和sy，然后完全忽略x和y。該如何糾正這個問題？必須將自己置于基于能量的模型背景下，基于能量的學(xué)習(xí)可以被看作是預(yù)測、分類或決策任務(wù)的概率估計的替代方法。基于能量的模型不需要根據(jù)概率建模來解釋它們的作用，而是根據(jù)捕獲變量之間依賴性的能量函數(shù)來解釋。假設(shè)你的數(shù)據(jù)集有兩個變量x和y，基于能量的模型捕獲x和y之間的依賴關(guān)系的方式是計算一個能量函數(shù)，這是一個具有標(biāo)量輸出的隱式函數(shù)，它將x和y作為輸入，并為其提供一個數(shù)據(jù)密度更高的區(qū)域。如果你具有這個能量景觀的函數(shù)，可以計算這個能量景觀，那么該函數(shù)將捕獲x和y之間的依賴關(guān)系，你可以從y推斷x，在不是函數(shù)的x和y之間進(jìn)行映射，有多個與單個x兼容的y，所以它可捕獲多模態(tài)。

我們?nèi)绾斡?xùn)練這樣的系統(tǒng)？有兩類方法：

一是對比方法。更改能量函數(shù)的參數(shù)，以便能量在數(shù)據(jù)點上取較低的值，與在那些對比點上取較高的值進(jìn)行比對。早在20世紀(jì)90年代初，我就為這個方法的誕生作出了貢獻(xiàn)，但我現(xiàn)在不喜歡它了，因為在高維空間中，為了使能量函數(shù)呈現(xiàn)正確的形狀，必須保證生成對比點的數(shù)量呈指數(shù)增長。

這可不是什么好事，所以我更喜歡另一種方法，正則化方法，通過某種正則化器最小化可以吸收低能量的空間體積，以便系統(tǒng)可以通過改變能量函數(shù)的參數(shù)，使數(shù)據(jù)點的能量變低。這樣數(shù)據(jù)點會被收縮包裹在低能量區(qū)域，更有效率一些。問題是我們?nèi)绾巫龅竭@一點，這就需要放棄生成式AI模型、概率模型、對比方法、強(qiáng)化學(xué)習(xí)，因為它們的效率都太低了。有一種新的方法是VICReg（Variance-Invariance-Covariance Regularization，一種自監(jiān)督學(xué)習(xí)方式）。這是一種通用的方法，可以應(yīng)用于圖像識別、分割等各種應(yīng)用的聯(lián)合預(yù)測嵌入架構(gòu)情況，效果非常好，不會讓你厭煩細(xì)節(jié)，可以使用自監(jiān)督學(xué)習(xí)方法來預(yù)訓(xùn)練卷積網(wǎng)絡(luò)，然后砍掉擴(kuò)展器，粘上一個線性分類器，對其進(jìn)行訓(xùn)練、監(jiān)督并測量性能。通過這種方式，可以在ImageNet上獲得非常好的性能，特別是對于分布外學(xué)習(xí)和遷移學(xué)習(xí)來說，性能尤其好。這種方法有一個修改版，名為VICRegL，去年在NeurIPS上發(fā)布。

幾周前，我們在CVPR（IEEE國際計算機(jī)視覺與模式識別會議）上推出了一種名為Image JEPA（計算機(jī)視覺模型）的新方法，它使用掩蔽和轉(zhuǎn)換器架構(gòu)來學(xué)習(xí)圖像中的特征。這種方法的優(yōu)點除了屏蔽之外，不需要任何數(shù)據(jù)增強(qiáng)。因此，它不需要真正知道你正在操作的數(shù)據(jù)類型，效果非常好。我們巴黎的同事提出了另一套方法，稱之為DINO（自監(jiān)督學(xué)習(xí)方法之一），它在ImageNet上為人們提供了超過80%的結(jié)果，它完全受監(jiān)督，沒有微調(diào)，也沒有任何數(shù)據(jù)增強(qiáng)，這是相當(dāng)驚人的。

最終，我們想要做的是使用自監(jiān)督學(xué)習(xí)和JEPA架構(gòu)來構(gòu)建之前提到的那種可以預(yù)測世界和進(jìn)行計劃推理的系統(tǒng)，這些系統(tǒng)是分層的，可以預(yù)測世界上將要發(fā)生的事情。通過視頻訓(xùn)練系統(tǒng)的一些早期結(jié)果，通過對視頻中的連續(xù)幀和扭曲圖像進(jìn)行訓(xùn)練來學(xué)習(xí)圖像和視頻的良好表示。

目標(biāo)驅(qū)動是指我們將制定能夠驅(qū)動系統(tǒng)行為的目標(biāo)，使其耐用且安全。為了讓它發(fā)揮作用，我們正在努力做一些事情，從視頻中進(jìn)行自監(jiān)督學(xué)習(xí)。我們正在使用這些JEPA架構(gòu)，但我們還沒有最終的配方。我們可以用它來構(gòu)建由目標(biāo)驅(qū)動的推理和計劃的LLMs，希望可以構(gòu)建出能夠分層規(guī)劃的學(xué)習(xí)系統(tǒng)，就像動物和人類一樣。我們還有很多問題需要解決，用正則化、潛變量來處理不確定性的JEPA、存在不確定性時的規(guī)劃算法、用逆強(qiáng)化學(xué)習(xí)來模擬的學(xué)習(xí)成本模塊……

我們?nèi)匀蝗鄙龠_(dá)到人類水平人工智能的基本概念，我們?nèi)鄙購囊曨l等復(fù)雜模式中學(xué)習(xí)感知模型的基本技術(shù)。也許在未來，我們能夠構(gòu)建可以規(guī)劃答案以滿足目標(biāo)的系統(tǒng)。我不認(rèn)為存在通用人工智能這樣的概念，人工智能是非常專業(yè)的。所以讓我們努力去嘗試創(chuàng)造達(dá)到人類水平的智能，建造具有與人類相同技能和學(xué)習(xí)能力的人工智能。毫無疑問，在未來某個時刻，機(jī)器將在人類智能的所有領(lǐng)域超越人類。我們可能不想受到這種威脅，但每個人都將得到比我們更智能的系統(tǒng)的幫助。不用擔(dān)心，人工智能不會脫離我們的控制，就像我們大腦的新皮質(zhì)無法逃脫我們基底神經(jīng)節(jié)的控制一樣。