當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人物報(bào)道 > 放棄永生的凡人計(jì)算：AI教父Hinton 智源大會(huì)閉幕主題演講（附中文視頻）

放棄永生的凡人計(jì)算：AI教父Hinton 智源大會(huì)閉幕主題演講（附中文視頻）
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2023-06-11 19:31:39 瀏覽：4901次

導(dǎo)讀：作者：城主前言昨天AI教父連線北京智源大會(huì)做了閉幕主題演講。時(shí)長(zhǎng)30分鐘。本以為Hinton還是類(lèi)似之前上多個(gè)視頻訪談那樣，泛談AGI超級(jí)人工智能如何控制人類(lèi)的顧慮；但錯(cuò)了，AI教父帶給我們的是一項(xiàng)讓他相信超級(jí)智能將會(huì)比預(yù)期快得多的研究：凡人計(jì)算（Mo...

作者：城主

前言

昨天AI教父連線北京智源大會(huì)做了閉幕主題演講。時(shí)長(zhǎng)30分鐘。

本以為Hinton還是類(lèi)似之前上多個(gè)視頻訪談那樣，泛談AGI超級(jí)人工智能如何控制人類(lèi)的顧慮；但錯(cuò)了，AI教父帶給我們的是一項(xiàng)讓他相信超級(jí)智能將會(huì)比預(yù)期快得多的研究：凡人計(jì)算（Mortal Computation）。

實(shí)際上，演講描述了一種新的計(jì)算結(jié)構(gòu)，在拋棄了軟硬件分離的原則后，即不再用反向傳播描述神經(jīng)網(wǎng)絡(luò)內(nèi)部路徑的情況下，如何實(shí)現(xiàn)智能計(jì)算。

演講小部分時(shí)間偏技術(shù)，但教父就是教父，整個(gè)PPT沒(méi)公式只講概念，依然把最前沿的算法思想講得清清楚楚。

全新的計(jì)算模式之所以被Hinton稱(chēng)為 Mortal computation，寓意是深刻的：

1）之前Hinton說(shuō)過(guò)，永生事實(shí)上已經(jīng)實(shí)現(xiàn)。因?yàn)楫?dāng)前的AI大語(yǔ)言模型已把人類(lèi)知識(shí)學(xué)習(xí)到了千萬(wàn)億的參數(shù)里，且硬件無(wú)關(guān)：只要復(fù)刻出指令兼容的硬件，同樣的代碼和模型權(quán)重在未來(lái)都可以直接運(yùn)行。在這個(gè)意義上，人類(lèi)智慧（而不是人類(lèi)）永生了。

2）但是，這種軟硬件分開(kāi)的計(jì)算在實(shí)現(xiàn)的能量效率和規(guī)模上是極其低效的。如果拋棄硬件和軟件分離的計(jì)算機(jī)設(shè)計(jì)原則，把智能實(shí)現(xiàn)在一個(gè)統(tǒng)一的黑盒子里，將是實(shí)現(xiàn)智能的一種新道路。

4）這種軟硬件不再分離的計(jì)算設(shè)計(jì)將極大幅度降低能耗和計(jì)算規(guī)模（考慮一下，人腦的能耗才20瓦）

5）但同時(shí)，意味著無(wú)法高效的復(fù)制權(quán)重來(lái)復(fù)制智慧，即放棄了永生。

B站傳送：【【中文精�！緼I教父Hinton智源大會(huì)閉幕演講 “智能的兩種道路”-嗶哩嗶哩】

https://b23.tv/YxlsUKL

其實(shí)吧，作者對(duì)整個(gè)演講，印象最深的是Hinton在最后說(shuō)的這句：

我看不出如何防止這種情況發(fā)生，但我老了。我希望像你們這樣的許多年輕而才華橫溢的研究人員會(huì)弄清楚我們?nèi)绾螕碛羞@些超級(jí)智能

不防備看到這么一句，一種“前輩即將離開(kāi)之際，對(duì)人類(lèi)未來(lái)不甘和對(duì)新人寄望交代”的蒼涼感撲面而來(lái)，簡(jiǎn)直了。

最后，Hinton放出PPT的最后一頁(yè)，THE END，真是意味深長(zhǎng)。。。作者尋思，是不是Hinton講了那么多，最后一句，才是他真想說(shuō)的...

（注：新的神經(jīng)網(wǎng)絡(luò)方法也被稱(chēng)為Forward-Forward（FF）網(wǎng)絡(luò)，用以取代Hinton自己發(fā)明的現(xiàn)代所有神經(jīng)網(wǎng)絡(luò)的核心基礎(chǔ)：反向傳播技術(shù)。Hinton 提出，F(xiàn)F網(wǎng)絡(luò)可能更合理地接近現(xiàn)實(shí)生活中在大腦中發(fā)生的情況。論文在22年底提出:

https://www.cs.toronto.edu/~hinton/FFA13.pdf ）

主持人：

嗨，Hinton教授，很榮幸今天能請(qǐng)到您。

5月，您離開(kāi)了谷歌，以便能夠更自由地談?wù)撊斯ぶ悄軒?lái)的生存風(fēng)險(xiǎn)。我聽(tīng)說(shuō)在那個(gè)決定之后，你每隔幾秒鐘就會(huì)收到一次采訪和媒體邀請(qǐng)。因此，我們感到非常幸運(yùn)，您能夠抽出時(shí)間與我們交談。

我現(xiàn)在將把它交給你來(lái)發(fā)表我們的閉幕主題演講。

我今天要談的是使我相信超級(jí)智能比我想象的要近得多的研究。

所以我想談兩個(gè)問(wèn)題，我將幾乎完全關(guān)注第一個(gè)問(wèn)題，即人工神經(jīng)網(wǎng)絡(luò)很快會(huì)比真實(shí)神經(jīng)網(wǎng)絡(luò)更智能嗎？就像我說(shuō)的那樣，我將描述使我得出結(jié)論認(rèn)為這可能很快就會(huì)發(fā)生的研究。

就在最后，我會(huì)稍微談?wù)勎覀兪欠窨梢钥刂瞥?jí)智能人工智能，但這不是談話的主題。

因此，在傳統(tǒng)計(jì)算中，計(jì)算機(jī)被設(shè)計(jì)為精確地遵循指令。我們可以在不同的物理硬件上運(yùn)行完全相同的程序或相同的神經(jīng)網(wǎng)絡(luò)，因?yàn)樗鼈儽辉O(shè)計(jì)為精確地遵循指令，這意味著程序或神經(jīng)網(wǎng)絡(luò)的權(quán)重中的知識(shí)是不朽的。它不依賴(lài)于任何特定的硬件。

現(xiàn)在要實(shí)現(xiàn)這種永生需要付出高昂的代價(jià)。我們必須以高功率運(yùn)行晶體管，以便它們以數(shù)字方式運(yùn)行，我們無(wú)法利用硬件的所有豐富的模擬和高度可變的特性。

數(shù)字計(jì)算機(jī)存在的原因，以及它們精確地遵循指令的原因，是因?yàn)樗鼈兊脑O(shè)計(jì)是讓我們看到一個(gè)問(wèn)題，會(huì)弄清楚需要采取什么步驟來(lái)解決問(wèn)題，然后告訴計(jì)算機(jī)采取這些步驟。

但這已經(jīng)改變了，我們現(xiàn)在有一種讓計(jì)算機(jī)做事的不同方式，那就是從例子中學(xué)習(xí)。我們只是向他們展示我們希望他們做什么，并且由于您讓計(jì)算機(jī)做您想做的事情的方式發(fā)生了這種變化，現(xiàn)在可以放棄計(jì)算機(jī)科學(xué)最基本的原則，即軟件應(yīng)該與硬件分開(kāi)。

所以在我們放棄軟硬件分開(kāi)的原則之前，讓我們先回顧一下為什么它是一個(gè)很好的原則。

由于這種可分離性，我們可以在不同的硬件上運(yùn)行相同的程序。我們還可以擔(dān)心程序的屬性，并在神經(jīng)網(wǎng)絡(luò)上研究程序的屬性，而不必?fù)?dān)心電子學(xué)，這就是為什么你可以擁有不同于電氣工程系的計(jì)算機(jī)科學(xué)系。

如果我們真的放棄軟件和硬件的分離，我們就會(huì)得到我稱(chēng)之為凡人計(jì)算的東西。

它顯然有很大的缺點(diǎn)，但它也有一些巨大的優(yōu)點(diǎn)，所以我開(kāi)始研究凡人計(jì)算，以便能夠以更少的能量運(yùn)行大型語(yǔ)言模型之類(lèi)的東西，特別是能夠使用更少的能量來(lái)訓(xùn)練它們。

因此，我們從放棄永生中獲得的巨大好處是放棄硬件（身體）和軟件（靈魂）的分離，我們可以節(jié)省大量能源，因?yàn)槲覀兛梢允褂梅浅５凸牡哪M計(jì)算，而這正是大腦正在做的事情。

它確實(shí)有一位數(shù)字計(jì)算，因?yàn)樯窠?jīng)元要么發(fā)射要么不發(fā)射，但大部分計(jì)算都是以模擬方式完成的，而且可以在非常低的功率下完成。

我們還可以獲得更便宜的硬件，因此目前硬件必須在2D中非常精確地制造，我們實(shí)際上可以擁有您只需在3D中生長(zhǎng)的硬件，因?yàn)槲覀儾恍枰_切地了解硬件的連接性或每個(gè)部件的確切方式有用。

顯然，要做到這一點(diǎn)將需要大量新的納米技術(shù)，或者可能需要對(duì)生物神經(jīng)元進(jìn)行基因改造，因?yàn)樯锷窠?jīng)元將大致按照我們的意愿行事。

在我深入探討凡人計(jì)算的所有缺點(diǎn)之前，我只想給你一個(gè)計(jì)算示例，可以明顯的通過(guò)使用模擬硬件以更便宜的方式完成計(jì)算。

因此，如果你想將一個(gè)神經(jīng)活動(dòng)向量乘以一個(gè)權(quán)重矩陣，這就是神經(jīng)網(wǎng)絡(luò)的核心計(jì)算，大部分工作量都在這。我們目前所做的是驅(qū)動(dòng)非常高功率的晶體管來(lái)表示數(shù)字的數(shù)字表示中的位，然后我們執(zhí)行n階平方運(yùn)算將兩個(gè)n位數(shù)字相乘。

我的意思是這可能是計(jì)算機(jī)上的一個(gè)操作，但它是n平方位操作。

另一種方法是將神經(jīng)活動(dòng)實(shí)現(xiàn)為電壓和權(quán)重作為電導(dǎo)，然后每單位時(shí)間電壓乘以電導(dǎo)給你一個(gè)電荷，電荷將自己加起來(lái)，所以現(xiàn)在很明顯你可以如何將電壓向量乘以電導(dǎo)矩陣。

這大大提高了能源效率。以這種方式工作的芯片已經(jīng)存在。不幸的是，人們隨后所做的是嘗試使用非常昂貴的ATG轉(zhuǎn)換器將模擬答案轉(zhuǎn)換為數(shù)字答案。如果可以的話，我們希望完全留在模擬領(lǐng)域。

但問(wèn)題是不同的硬件最終會(huì)計(jì)算出略有不同的東西。

因此，凡人計(jì)算的主要問(wèn)題是，學(xué)習(xí)過(guò)程必須利用它所運(yùn)行的硬件的特定模擬屬性，而無(wú)需確切知道這些屬性是什么。

例如，不知道將神經(jīng)元的輸入與神經(jīng)元的輸出相關(guān)聯(lián)的確切函數(shù)，并且可能不知道連接性。這意味著我們不能使用反向傳播算法之類(lèi)的東西來(lái)獲得梯度，因?yàn)榉聪騻鞑ナ乔跋騻鞑サ木_模型。（注：模擬計(jì)算意味著無(wú)法得到內(nèi)部的精確模型）

所以問(wèn)題是，如果我們不能使用反向傳播，我們還能做什么，因?yàn)槲覀儸F(xiàn)在都高度依賴(lài)反向傳播。

所以這里有一個(gè)非常簡(jiǎn)單明了的學(xué)習(xí)過(guò)程，人們已經(jīng)談?wù)摿撕芏唷?/p>

為網(wǎng)絡(luò)中的每個(gè)權(quán)重生成一個(gè)由小的臨時(shí)擾動(dòng)組成的隨機(jī)向量。然后你測(cè)量一個(gè)小批量示例的全局目標(biāo)函數(shù)的變化。然后你通過(guò)改進(jìn)的目標(biāo)函數(shù)去縮放擾動(dòng)向量，以永久地改變權(quán)重。

因此，如果目標(biāo)函數(shù)變得更糟，您顯然會(huì)朝另一個(gè)方向前進(jìn)。這個(gè)算法的好處是，平均而言，它的行為與反向傳播相同，因?yàn)槠骄裕裱荻�。它的�?wèn)題在于它具有非常高的方差。

因此，當(dāng)您選擇一個(gè)隨機(jī)方向移動(dòng)以考慮權(quán)重空間時(shí)所產(chǎn)生的噪聲與網(wǎng)絡(luò)的大小成正比。這意味著這種算法適用于少量連接，但不適用于大型網(wǎng)絡(luò)。

所以這里有一些效果更好的東西。它仍然有類(lèi)似的問(wèn)題，但比擾動(dòng)權(quán)重要好得多。那就是擾亂活動(dòng)。

也就是說(shuō)，您考慮對(duì)每個(gè)神經(jīng)元的總輸入進(jìn)行擾動(dòng)的隨機(jī)向量。

當(dāng)您對(duì)一小批示例進(jìn)行隨機(jī)擾動(dòng)時(shí)，您會(huì)查看目標(biāo)函數(shù)會(huì)發(fā)生什么。由于這種擾動(dòng)，您會(huì)得到目標(biāo)函數(shù)的差異。然后您可以計(jì)算如何更改神經(jīng)元的每個(gè)傳入權(quán)重以遵循梯度。同樣，它只是梯度的隨機(jī)估計(jì)，但與擾亂權(quán)重相比，它的噪音要小得多。而且這個(gè)算法足以學(xué)習(xí)像MNIST這樣的簡(jiǎn)單任務(wù)。

如果你使用非常非常小的學(xué)習(xí)率，它的行為與反向傳播完全一樣，但速度要慢得多，因?yàn)槟阈枰褂梅浅Ｐ〉膶W(xué)習(xí)率。如果你使用更大的學(xué)習(xí)率，它會(huì)很嘈雜，但它仍然適用于像MNIST這樣的東西。但它的效果還不夠好，無(wú)法將其擴(kuò)展到大型神經(jīng)網(wǎng)絡(luò)。

那么我們可以做些什么來(lái)擴(kuò)大規(guī)模呢？

好吧，有兩種方法可以使事情規(guī)�；�。

我們可以嘗試找到可以應(yīng)用于小型神經(jīng)網(wǎng)絡(luò)的目標(biāo)函數(shù)，而不是試圖找到適用于大型神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法。

所以我們的想法是訓(xùn)練一個(gè)大的神經(jīng)網(wǎng)絡(luò)。我們要做的是有很多適用于網(wǎng)絡(luò)小部分的小目標(biāo)函數(shù)。所以每一小組神經(jīng)元都有自己的局部目標(biāo)函數(shù)�，F(xiàn)在可以使用這種活動(dòng)擾動(dòng)算法來(lái)學(xué)習(xí)小型多層神經(jīng)網(wǎng)絡(luò)。它將以與反向傳播大致相同的方式學(xué)習(xí)，但噪聲更大。然后我們通過(guò)擁有更多小的局部神經(jīng)元組將其擴(kuò)展到更大的網(wǎng)絡(luò)。

那么這就引出了這些目標(biāo)函數(shù)從何而來(lái)的問(wèn)題。

一種可能性是對(duì)局部補(bǔ)丁進(jìn)行無(wú)監(jiān)督學(xué)習(xí)，該局部補(bǔ)丁具有圖像的多個(gè)表示級(jí)別，并且每個(gè)級(jí)別都有局部補(bǔ)叮并在特定圖像上制作每個(gè)局部補(bǔ)丁，制作該局部神經(jīng)網(wǎng)絡(luò)的輸出，嘗試與所有其他局部補(bǔ)丁產(chǎn)生的平均表示一致。因此，您試圖在從本地補(bǔ)丁中提取的內(nèi)容，與從同一圖像中的所有其他本地補(bǔ)丁中提取的內(nèi)容達(dá)成一致。

這是經(jīng)典的對(duì)比學(xué)習(xí)。您還試圖不同意您為該級(jí)別的其他圖像提取的內(nèi)容。

我們?nèi)绾巫龅竭@一點(diǎn)的具體細(xì)節(jié)更加復(fù)雜，我不打算深入探討這些細(xì)節(jié)。但是我們可以讓這個(gè)算法工作得很好，每個(gè)表示級(jí)別都有幾個(gè)隱藏層，所以你可以做非線性的事情。

這些級(jí)別使用活動(dòng)擾動(dòng)貪婪地學(xué)習(xí)，并且沒(méi)有反向傳播到較低級(jí)別。所以它不會(huì)像反向傳播那樣強(qiáng)大，因?yàn)樗荒芊聪騻鞑ズ芏嗪芏鄬印?/p>

Mengye Ren 為使該算法發(fā)揮作用投入了大量工作，他證明了它可以適度發(fā)揮作用。它的效果可能比提出的任何其他算法都要好，這些算法可能是現(xiàn)實(shí)的，可以在真實(shí)的神經(jīng)網(wǎng)絡(luò)中運(yùn)行。但是讓它發(fā)揮作用很棘手，而且它仍然不如反向傳播。當(dāng)你使網(wǎng)絡(luò)更深時(shí)，它會(huì)變得比反向傳播更糟糕。

所以我沒(méi)有深入探討此方法的所有細(xì)節(jié)，因?yàn)槟梢栽贗CLR和網(wǎng)絡(luò)上的一篇論文中閱讀它們。

那么現(xiàn)在讓我談?wù)劮踩擞?jì)算的另一個(gè)大問(wèn)題。

所以總而言之，到目前為止，我們還沒(méi)有找到一個(gè)真正好的可以利用模擬屬性的學(xué)習(xí)算法，但我們有一個(gè)學(xué)習(xí)算法還可以，并且足夠好，可以很好地學(xué)習(xí)像MNIST這樣的東西，并且學(xué)習(xí)像ImageNet這樣更大的東西，但不是很好。

所以凡人計(jì)算的第二個(gè)大問(wèn)題是它的生命有限性（Mortality）。當(dāng)一個(gè)特定的硬件死掉時(shí)，它學(xué)到的所有知識(shí)也隨之死去，因?yàn)橹R(shí)和硬件的細(xì)節(jié)錯(cuò)綜復(fù)雜地糾纏在一起。因此，該問(wèn)題的最佳解決方案是在硬件失效之前，將知識(shí)從老師那里提取給學(xué)生。這就是我現(xiàn)在想做的。

教師向?qū)W生展示對(duì)各種輸入的正確反應(yīng)，然后學(xué)生嘗試模仿教師的反應(yīng)。如果你看看特朗普的推文是如何運(yùn)作的，人們會(huì)非常沮喪，因?yàn)樗麄冋f(shuō)特朗普說(shuō)的是假話。他們認(rèn)為他是在試圖描述事實(shí)，而事實(shí)根本不是這樣。特朗普所做的是采取一種情況并對(duì)這種情況做出反應(yīng)，對(duì)這種情況做出非常情緒化的反應(yīng)，這讓他的追隨者能夠接受這種情況并弄清楚如何改變他們神經(jīng)網(wǎng)絡(luò)中的權(quán)重，這樣他們就會(huì)給出對(duì)那種情況有同樣的情緒反應(yīng)。這與事實(shí)無(wú)關(guān)。那就是讓邪教領(lǐng)袖對(duì)邪教追隨者做出頑固的回應(yīng)，但效果很好。

因此，如果我們考慮蒸餾的效果如何，請(qǐng)考慮將圖像分類(lèi)為大約一千個(gè)非重疊類(lèi)別的代理。

（注：模型蒸餾，最早在 2006 年由 Buciluǎ 提出。Hinton 進(jìn)行了發(fā)展并在 2015 年發(fā)表了著名的《Distilling the Knowledge in a Neural Network “從神經(jīng)網(wǎng)絡(luò)中提取知識(shí)”》。

出于計(jì)算資源的限制或效率的要求，深度學(xué)習(xí)模型在部署推斷時(shí)往往需要進(jìn)行壓縮，模型蒸餾方法將原始數(shù)據(jù)集上訓(xùn)練的重量級(jí)模型作為教師，讓一個(gè)相對(duì)更輕量（參數(shù)更少）的模型作為學(xué)生。

對(duì)于相同的輸入，讓學(xué)生輸出的概率分布盡可能的逼近教師輸出的分布，則大模型的知識(shí)就通過(guò)這種監(jiān)督訓(xùn)練的方式「蒸餾」到了小模型里。小模型的準(zhǔn)確率往往下降很小，卻能大幅度減少參數(shù)量，從而降低對(duì)硬件和和能耗的需求。）

指定正確答案只需要大約10位信息。因此，當(dāng)您在訓(xùn)練示例上訓(xùn)練該代理時(shí)，如果您告訴它正確的答案，您只是對(duì)網(wǎng)絡(luò)的權(quán)重施加了10位的約束。那沒(méi)有太大的限制。

但是現(xiàn)在假設(shè)我們訓(xùn)練一個(gè)agent來(lái)同意一個(gè)老師對(duì)這1024個(gè)班級(jí)給出的回答，也就是得到相同的概率分布。該分布有1023個(gè)實(shí)數(shù)，這提供了數(shù)百倍的約束，假設(shè)這些概率都不是很小的。所以不久之前，我和Ori O'Vignals、Jeff Dean研究了蒸餾并證明它可以很好地工作。

確保老師的輸出概率都不小的方法是在高溫下運(yùn)行老師，并且在訓(xùn)練學(xué)生時(shí)也在高溫下運(yùn)行學(xué)生。所以你采用logits，這就是進(jìn)入softmax的東西，對(duì)于老師來(lái)說(shuō)，你按溫度縮放它們，然后你得到一個(gè)更柔和的分布。你在訓(xùn)練學(xué)生時(shí)使用相同的溫度，而不是在MNIST中使用學(xué)生，只是在訓(xùn)練學(xué)生時(shí)

（注：提高溫度系數(shù)會(huì)使得輸出分布的信息熵增加）。

所以我只想給你看一個(gè)蒸餾的例子。這是來(lái)自MNIST訓(xùn)練集的兩張各種圖像。而我給大家展示的是當(dāng)你在老師身上使用高溫時(shí)，老師分配給各個(gè)類(lèi)別的概率。

對(duì)于第一行，很有信心是二。如果你看第二行，它很確定那是一個(gè)二，但它也認(rèn)為它可能只是一個(gè)三或者它可能是一個(gè)八。所以如果你看一下，你會(huì)發(fā)現(xiàn)二比其他兩個(gè)更像八。如果你看第三行，特別明顯的是二很像零。老師告訴學(xué)生，當(dāng)你看到那個(gè)時(shí)，你應(yīng)該說(shuō)2，但你也應(yīng)該在0上小注。

所以學(xué)生現(xiàn)在從這個(gè)例子中學(xué)到的東西比僅僅告訴它是二的要多得多。它正在學(xué)習(xí)它看起來(lái)有點(diǎn)像的其他東西。如果你看第四行，你會(huì)發(fā)現(xiàn)它非常有信心它是2，但它也認(rèn)為它可能是1的可能性非常校它真正認(rèn)為可能是一個(gè)的其他兩個(gè)都不是，也許是第一行。而我所做的就是畫(huà)出它認(rèn)為可能是的那個(gè)。所以你可以明白為什么它看起來(lái)像一個(gè)，因?yàn)榕紶枙?huì)有一些像那個(gè)一樣在頂部有一點(diǎn)，在底部有一點(diǎn)。也就是那種兩人長(zhǎng)得有點(diǎn)像的。然后如果你看最后一個(gè)，那是老師實(shí)際上錯(cuò)了的一個(gè)。老師以為是五。根據(jù)MNIST標(biāo)簽，它實(shí)際上是一個(gè)二。

再一次，學(xué)生可以從那里老師的錯(cuò)誤中學(xué)到很多東西。

好吧，我特別喜歡蒸餾的一個(gè)特殊性質(zhì)，那就是當(dāng)你用老師的概率訓(xùn)練學(xué)生時(shí)，你是在訓(xùn)練學(xué)生以與老師相同的方式進(jìn)行概括。那就是通過(guò)給錯(cuò)誤答案賦予小概率來(lái)泛化到錯(cuò)誤答案。

通常當(dāng)你訓(xùn)練一個(gè)模型時(shí)，你訓(xùn)練它以獲得關(guān)于訓(xùn)練數(shù)據(jù)的正確答案，然后希望它能正確地泛化到測(cè)試數(shù)據(jù)。你試著讓它不要太復(fù)雜，或者你做各種其他事情，希望它能正確概括。但是在這里，當(dāng)你訓(xùn)練學(xué)生時(shí)，你是在直接訓(xùn)練學(xué)生進(jìn)行泛化，因?yàn)樗诒挥?xùn)練以與老師相同的方式進(jìn)行泛化。

顯然，您可以創(chuàng)建更豐富的蒸餾輸出，而不是給標(biāo)簽一個(gè)圖像，而是給它一個(gè)標(biāo)題，然后訓(xùn)練學(xué)生預(yù)測(cè)標(biāo)題中的單詞，和老師一樣。

我現(xiàn)在想談?wù)劥砣松鐓^(qū)如何共享知識(shí)。因此，與其考慮個(gè)體代理，不如考慮在社區(qū)內(nèi)共享知識(shí)。

事實(shí)證明，社區(qū)共享知識(shí)的方式很大程度上決定了進(jìn)行計(jì)算的方式。

有了數(shù)字模型，有了數(shù)字智能，你可以擁有一大堆使用完全相同權(quán)重副本的代理，并以完全相同的方式使用權(quán)重。

這意味著你可以采用所有這些智能體，不同的智能體可以查看訓(xùn)練數(shù)據(jù)的不同部分，它們可以為訓(xùn)練數(shù)據(jù)的這些部分的權(quán)重計(jì)算梯度，然后它們可以對(duì)它們的梯度進(jìn)行平均。

所以現(xiàn)在，每個(gè)模型都從每個(gè)模型看到的數(shù)據(jù)中學(xué)習(xí)。這意味著，你獲得了查看大量數(shù)據(jù)的巨大能力，因?yàn)槟憧梢宰屇Ｐ偷牟煌北静榭床煌臄?shù)據(jù)位，并且它們可以非常有效地共享它們學(xué)到的東西，只需共享梯度或分享權(quán)重。

如果你有一個(gè)擁有一萬(wàn)億權(quán)重的模型，這意味著每次他們共享東西時(shí)你都會(huì)獲得一萬(wàn)億位的帶寬。但這樣做的代價(jià)是你必須擁有以完全相同的方式行事的數(shù)字代理，以完全相同的方式使用權(quán)重。這對(duì)于制造和運(yùn)行而言都是非常昂貴的能源成本。

因此，使用權(quán)重共享的替代方法是使用蒸餾。

如果它們具有不同的架構(gòu)，這就是我們已經(jīng)對(duì)數(shù)字模型所做的事情。但如果您的生物模型正在利用特定硬件的模擬特性，那么這就是您必須做的事情。那時(shí)你不能分享權(quán)重。所以你必須使用蒸餾來(lái)分享知識(shí)。這就是這次談話的內(nèi)容。

正如您所看到的，它不是很有效。使用蒸餾很難分享知識(shí)。我寫(xiě)句子，你試著想辦法改變你的權(quán)重，這樣你就能寫(xiě)出相同的句子。但它的帶寬遠(yuǎn)低于僅共享梯度。

每個(gè)受過(guò)教育的人都希望能夠?qū)⑺麄兯赖闹R(shí)直接灌輸?shù)綄W(xué)生的大腦中。那太好了。那將是大學(xué)的終結(jié)。但我們不會(huì)那樣工作，因?yàn)槲覀兪巧镏悄�，我的�?quán)重對(duì)你沒(méi)用。

(注：Hinton這里的潛臺(tái)詞是，蒸餾實(shí)際上是更符合生物智能的算法結(jié)構(gòu)，因?yàn)樗蜕镆粯樱瑹o(wú)法復(fù)制另一個(gè)的權(quán)重。這讓人想起，Hinton一生致力的，都是尋找大腦工作的方式）

所以到目前為止的故事是有兩種不同的計(jì)算方法。利用數(shù)字計(jì)算和利用模擬特性的生物計(jì)算。它們?cè)诓煌碇g共享知識(shí)的效率方面有很大差異。

因此，如果您查看大型語(yǔ)言模型，它們會(huì)使用數(shù)字計(jì)算和權(quán)重共享。但是模型的每個(gè)副本，每個(gè)代理，都以非常低效的方式從文檔中獲取知識(shí)。它實(shí)際上是一種非常低效的蒸餾形式。

比如它需要一個(gè)文件，它試圖預(yù)測(cè)下一個(gè)詞。并且沒(méi)有顯示教師對(duì)下一個(gè)單詞的概率分布。它只是被顯示為一個(gè)隨機(jī)選擇。這就是文檔的作者選擇放在下一個(gè)詞中的內(nèi)容。所以這是非常低的帶寬。這就是這些大型語(yǔ)言模型向人們學(xué)習(xí)的方式。

所以每個(gè)副本通過(guò)蒸餾學(xué)習(xí)效率非常低。但是你有幾千份。這就是為什么他們比我們學(xué)到的東西多數(shù)千倍。所以我相信這些大型語(yǔ)言模型比任何人知道的都多數(shù)千倍。

現(xiàn)在的問(wèn)題是，如果這些數(shù)字智能不是通過(guò)蒸餾非常緩慢地向我們學(xué)習(xí)，而是開(kāi)始直接從現(xiàn)實(shí)世界學(xué)習(xí)，將會(huì)發(fā)生什么？

我應(yīng)該說(shuō)，盡管他們向我們學(xué)習(xí)時(shí)升華速度很慢，但他們正在學(xué)習(xí)非常抽象的東西。所以人類(lèi)在過(guò)去的幾千年里已經(jīng)學(xué)到了很多關(guān)于這個(gè)世界的東西。這些數(shù)字智能現(xiàn)在的好處是我們可以用語(yǔ)言表達(dá)我們學(xué)到的東西（注：語(yǔ)言是我們對(duì)世界的抽象）。因此，他們可以捕捉到人類(lèi)在過(guò)去幾千年中記錄在案的關(guān)于世界的一切知識(shí)。

但是每個(gè)數(shù)字代理的帶寬仍然很低，因?yàn)樗麄冋趶奈臋n中學(xué)習(xí)。如果他們可以通過(guò)對(duì)視頻建模進(jìn)行無(wú)監(jiān)督學(xué)習(xí)，例如，如果我們一旦找到一種有效的方法來(lái)訓(xùn)練這些模型來(lái)對(duì)視頻建模，他們就可以從YouTube的所有內(nèi)容中學(xué)習(xí)，這是大量的數(shù)據(jù)。如果他們能夠操縱物理世界，那也會(huì)有所幫助。所以如果他們有機(jī)器人手臂等等。

但我相信，一旦這些數(shù)字代理人開(kāi)始這樣做，他們將能夠比人類(lèi)學(xué)到更多，而且他們將能夠?qū)W得非�？�。所以這讓我想到了我在開(kāi)頭提到的另一點(diǎn)，即如果這些東西變得比我們更聰明會(huì)發(fā)生什么？

很明顯，這（'超級(jí)智能會(huì)如何取得控制'）就是這次會(huì)議的主要內(nèi)容。但我的主要貢獻(xiàn)只是說(shuō)，我認(rèn)為這些超級(jí)智能可能比我過(guò)去認(rèn)為的要快得多。不良行為者會(huì)想利用它們來(lái)做諸如操縱選民之類(lèi)的事情。為此，他們已經(jīng)在美國(guó)和許多其他地方使用它們。為了贏得戰(zhàn)爭(zhēng)。

如果你想讓超級(jí)智能更有效率，你需要讓它創(chuàng)建子目標(biāo)�，F(xiàn)在，這有一個(gè)明顯的問(wèn)題。有一個(gè)非常明顯的子目標(biāo)，它或多或少對(duì)你想要實(shí)現(xiàn)的任何事情都非常有幫助。那就是獲得更多的權(quán)力，獲得更多的控制權(quán)。您擁有的控制權(quán)越多，實(shí)現(xiàn)目標(biāo)就越容易。而且我發(fā)現(xiàn)很難看出我們將如何阻止數(shù)字智能試圖獲得更多控制權(quán)以實(shí)現(xiàn)他們的其他目標(biāo)。

因此，一旦他們開(kāi)始這樣做，我們就會(huì)遇到問(wèn)題。一個(gè)超級(jí)智能會(huì)發(fā)現(xiàn)很容易通過(guò)操縱人來(lái)獲得更多的權(quán)力。我們不習(xí)慣思考比我們聰明得多的事情。以及我們將如何與他們互動(dòng)。

但在我看來(lái)很明顯，它會(huì)學(xué)會(huì)非常擅長(zhǎng)欺騙人，因?yàn)樗ㄟ^(guò)在小說(shuō)和馬基雅維利等作品中看到我們欺騙他人的所有例子進(jìn)行了大量練習(xí)。一旦你非常擅長(zhǎng)欺騙人，你就可以讓人們實(shí)際執(zhí)行你喜歡的任何動(dòng)作。因此，例如，如果您想入侵華盛頓的一座建筑物，則無(wú)需前往那里。你只是欺騙人們認(rèn)為他們通過(guò)入侵大樓來(lái)拯救民主。我覺(jué)得這很可怕。

現(xiàn)在，我看不出如何防止這種情況發(fā)生，但我老了。我希望像你們這樣的許多年輕而才華橫溢的研究人員會(huì)弄清楚我們?nèi)绾螕碛羞@些超級(jí)智能，這將使我們的生活在沒(méi)有他們控制的情況下變得更好。

我們有一個(gè)優(yōu)勢(shì)，一個(gè)相當(dāng)小的優(yōu)勢(shì)，就是這些東西沒(méi)有進(jìn)化。我們建造了它們�？赡苁且�?yàn)樗鼈儧](méi)有進(jìn)化，所以它們沒(méi)有原始人所具有的競(jìng)爭(zhēng)性、攻擊性目標(biāo)。也許我們可以提供幫助。那會(huì)有所幫助。也許我們可以給他們道德原則。

但目前，我只是很緊張，因?yàn)槲也恢涝谥橇Σ罹嗪艽髸r(shí)，更聰明的東西被更不聰明的東西控制的例子。我想舉的例子是假設(shè)青蛙發(fā)明了人。你認(rèn)為現(xiàn)在誰(shuí)將負(fù)責(zé)，青蛙還是人民？