當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人物報(bào)道 > 圖靈獎(jiǎng)得主、深度學(xué)習(xí)之父Hinton 智源大會(huì)閉幕演講：人工神經(jīng)網(wǎng)絡(luò)是否比真正的神經(jīng)網(wǎng)絡(luò)更聰明？

圖靈獎(jiǎng)得主、深度學(xué)習(xí)之父Hinton 智源大會(huì)閉幕演講：人工神經(jīng)網(wǎng)絡(luò)是否比真正的神經(jīng)網(wǎng)絡(luò)更聰明？
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-06-11 19:32:58 瀏覽：3733次

導(dǎo)讀：6月10日，深度學(xué)習(xí)之父、圖靈獎(jiǎng)得主Hinton在北京智源大會(huì)上進(jìn)行了一場(chǎng)令人震撼的閉幕主題演講，演講時(shí)長(zhǎng)長(zhǎng)達(dá)30分鐘。與我們先前的預(yù)期不同，他并沒有泛談超級(jí)人工智能AGI如何控制人類，而是向我們展示了一項(xiàng)具有前瞻性的研究：Mortal Computation（有限計(jì)算...

6月10日，深度學(xué)習(xí)之父、圖靈獎(jiǎng)得主Hinton在北京智源大會(huì)上進(jìn)行了一場(chǎng)令人震撼的閉幕主題演講，演講時(shí)長(zhǎng)長(zhǎng)達(dá)30分鐘。與我們先前的預(yù)期不同，他并沒有泛談超級(jí)人工智能AGI如何控制人類，而是向我們展示了一項(xiàng)具有前瞻性的研究：Mortal Computation（有限計(jì)算）。在演講中，他介紹了一種全新的計(jì)算結(jié)構(gòu)，拋棄了傳統(tǒng)的軟硬件分離原則，并且不再使用反向傳播來描述神經(jīng)網(wǎng)絡(luò)內(nèi)部路徑，以此實(shí)現(xiàn)智能計(jì)算。雖然演講中涉及了一小部分技術(shù)方面的內(nèi)容，但Hinton以他出色的教學(xué)水平，將最前沿的算法思想概念化并講解得清晰易懂。他并沒有使用復(fù)雜的術(shù)語，而是以簡(jiǎn)明扼要的方式闡述了最先進(jìn)的算法思想。

以下為要點(diǎn)及實(shí)錄

要點(diǎn)：

1、有限計(jì)算是一種與傳統(tǒng)計(jì)算機(jī)設(shè)計(jì)原則相悖的新方法，它將軟件與硬件分離。這種方法可以節(jié)省能源，并使用模擬計(jì)算來實(shí)現(xiàn)類似大腦的計(jì)算。

2、有限計(jì)算的挑戰(zhàn)在于學(xué)習(xí)過程必須利用硬件的模擬屬性，而不需要確切了解這些屬性。傳統(tǒng)的反向傳播算法無法直接應(yīng)用于模擬計(jì)算。

3、一種可能的學(xué)習(xí)算法是使用活動(dòng)擾動(dòng)，通過對(duì)神經(jīng)元的輸入進(jìn)行隨機(jī)擾動(dòng)并觀察目標(biāo)函數(shù)的變化來更新權(quán)重。這種方法的效果與反向傳播類似，但具有更高的方差。

4、蒸餾用于知識(shí)共享：蒸餾可以用于在具有不同架構(gòu)的模型之間共享知識(shí)，尤其在模擬特性的生物模型中。蒸餾可以作為一種有效的知識(shí)分享方法，而不僅僅是共享梯度。

5、數(shù)字智能的學(xué)習(xí)效率：大型語言模型通過從文檔中學(xué)習(xí)，以一種低效的方式獲取知識(shí)。雖然每個(gè)副本的學(xué)習(xí)效率很低，但由于有多個(gè)副本，所以它們可以比人類學(xué)習(xí)更多。

6、超級(jí)智能的發(fā)展和潛在問題：一旦數(shù)字智能開始直接從現(xiàn)實(shí)世界學(xué)習(xí)，它們將能夠比人類學(xué)習(xí)更多，并且學(xué)習(xí)速度更快。然而，這可能導(dǎo)致一系列問題，包括超級(jí)智能可能試圖獲得更多控制權(quán)以實(shí)現(xiàn)其目標(biāo)，并且在與人類互動(dòng)方面可能會(huì)存在困難。

以下為演講實(shí)錄：

我今天要談的是使我相信超級(jí)智能比我想象的要近得多的研究。

所以我想談兩個(gè)問題，我將幾乎完全關(guān)注第一個(gè)問題，即人工神經(jīng)網(wǎng)絡(luò)很快會(huì)比真實(shí)神經(jīng)網(wǎng)絡(luò)更智能嗎？就像我說的那樣，我將描述使我得出結(jié)論認(rèn)為這可能很快就會(huì)發(fā)生的研究。

就在最后，我會(huì)稍微談?wù)勎覀兪欠窨梢钥刂瞥?jí)智能人工智能，但這不是談話的主題。

因此，在傳統(tǒng)計(jì)算中，計(jì)算機(jī)被設(shè)計(jì)為精確地遵循指令。我們可以在不同的物理硬件上運(yùn)行完全相同的程序或相同的神經(jīng)網(wǎng)絡(luò)，因?yàn)樗鼈儽辉O(shè)計(jì)為精確地遵循指令，這意味著程序或神經(jīng)網(wǎng)絡(luò)的權(quán)重中的知識(shí)是不朽的。它不依賴于任何特定的硬件。

現(xiàn)在要實(shí)現(xiàn)這種永生需要付出高昂的代價(jià)。我們必須以高功率運(yùn)行晶體管，以便它們以數(shù)字方式運(yùn)行，我們無法利用硬件的所有豐富的模擬和高度可變的特性。

數(shù)字計(jì)算機(jī)存在的原因，以及它們精確地遵循指令的原因，是因?yàn)樗鼈兊脑O(shè)計(jì)是讓我們看到一個(gè)問題，會(huì)弄清楚需要采取什么步驟來解決問題，然后告訴計(jì)算機(jī)采取這些步驟。

但這已經(jīng)改變了，我們現(xiàn)在有一種讓計(jì)算機(jī)做事的不同方式，那就是從例子中學(xué)習(xí)。我們只是向他們展示我們希望他們做什么，并且由于您讓計(jì)算機(jī)做您想做的事情的方式發(fā)生了這種變化，現(xiàn)在可以放棄計(jì)算機(jī)科學(xué)最基本的原則，即軟件應(yīng)該與硬件分開。

所以在我們放棄軟硬件分開的原則之前，讓我們先回顧一下為什么它是一個(gè)很好的原則。

由于這種可分離性，我們可以在不同的硬件上運(yùn)行相同的程序。我們還可以擔(dān)心程序的屬性，并在神經(jīng)網(wǎng)絡(luò)上研究程序的屬性，而不必?fù)?dān)心電子學(xué)，這就是為什么你可以擁有不同于電氣工程系的計(jì)算機(jī)科學(xué)系。

如果我們真的放棄軟件和硬件的分離，我們就會(huì)得到我稱之為有限計(jì)算的東西。

它顯然有很大的缺點(diǎn)，但它也有一些巨大的優(yōu)點(diǎn)，所以我開始研究有限計(jì)算，以便能夠以更少的能量運(yùn)行大型語言模型之類的東西，特別是能夠使用更少的能量來訓(xùn)練它們。

因此，我們從放棄永生中獲得的巨大好處是放棄硬件（身體）和軟件（靈魂）的分離，我們可以節(jié)省大量能源，因?yàn)槲覀兛梢允褂梅浅５凸牡哪M計(jì)算，而這正是大腦正在做的事情。

它確實(shí)有一位數(shù)字計(jì)算，因?yàn)樯窠?jīng)元要么發(fā)射要么不發(fā)射，但大部分計(jì)算都是以模擬方式完成的，而且可以在非常低的功率下完成。

我們還可以獲得更便宜的硬件，因此目前硬件必須在2D中非常精確地制造，我們實(shí)際上可以擁有您只需在3D中生長(zhǎng)的硬件，因?yàn)槲覀儾恍枰_切地了解硬件的連接性或每個(gè)部件的確切方式有用。

顯然，要做到這一點(diǎn)將需要大量新的納米技術(shù)，或者可能需要對(duì)生物神經(jīng)元進(jìn)行基因改造，因?yàn)樯锷窠?jīng)元將大致按照我們的意愿行事。

在我深入探討有限計(jì)算的所有缺點(diǎn)之前，我只想給你一個(gè)計(jì)算示例，可以明顯的通過使用模擬硬件以更便宜的方式完成計(jì)算。

因此，如果你想將一個(gè)神經(jīng)活動(dòng)向量乘以一個(gè)權(quán)重矩陣，這就是神經(jīng)網(wǎng)絡(luò)的核心計(jì)算，大部分工作量都在這。我們目前所做的是驅(qū)動(dòng)非常高功率的晶體管來表示數(shù)字的數(shù)字表示中的位，然后我們執(zhí)行n階平方運(yùn)算將兩個(gè)n位數(shù)字相乘。

我的意思是這可能是計(jì)算機(jī)上的一個(gè)操作，但它是n平方位操作。

另一種方法是將神經(jīng)活動(dòng)實(shí)現(xiàn)為電壓和權(quán)重作為電導(dǎo)，然后每單位時(shí)間電壓乘以電導(dǎo)給你一個(gè)電荷，電荷將自己加起來，所以現(xiàn)在很明顯你可以如何將電壓向量乘以電導(dǎo)矩陣。

這大大提高了能源效率。以這種方式工作的芯片已經(jīng)存在。不幸的是，人們隨后所做的是嘗試使用非常昂貴的ATG轉(zhuǎn)換器將模擬答案轉(zhuǎn)換為數(shù)字答案。如果可以的話，我們希望完全留在模擬領(lǐng)域。

但問題是不同的硬件最終會(huì)計(jì)算出略有不同的東西。

因此，有限計(jì)算的主要問題是，學(xué)習(xí)過程必須利用它所運(yùn)行的硬件的特定模擬屬性，而無需確切知道這些屬性是什么。

例如，不知道將神經(jīng)元的輸入與神經(jīng)元的輸出相關(guān)聯(lián)的確切函數(shù)，并且可能不知道連接性。這意味著我們不能使用反向傳播算法之類的東西來獲得梯度，因?yàn)榉聪騻鞑ナ乔跋騻鞑サ木_模型。（注：模擬計(jì)算意味著無法得到內(nèi)部的精確模型）

所以問題是，如果我們不能使用反向傳播，我們還能做什么，因?yàn)槲覀儸F(xiàn)在都高度依賴反向傳播。

所以這里有一個(gè)非常簡(jiǎn)單明了的學(xué)習(xí)過程，人們已經(jīng)談?wù)摿撕芏唷?/p>

為網(wǎng)絡(luò)中的每個(gè)權(quán)重生成一個(gè)由小的臨時(shí)擾動(dòng)組成的隨機(jī)向量。然后你測(cè)量一個(gè)小批量示例的全局目標(biāo)函數(shù)的變化。然后你通過改進(jìn)的目標(biāo)函數(shù)去縮放擾動(dòng)向量，以永久地改變權(quán)重。

因此，如果目標(biāo)函數(shù)變得更糟，您顯然會(huì)朝另一個(gè)方向前進(jìn)。這個(gè)算法的好處是，平均而言，它的行為與反向傳播相同，因?yàn)槠骄裕裱荻�。它的問題在于它具有非常高的方差。

因此，當(dāng)您選擇一個(gè)隨機(jī)方向移動(dòng)以考慮權(quán)重空間時(shí)所產(chǎn)生的噪聲與網(wǎng)絡(luò)的大小成正比。這意味著這種算法適用于少量連接，但不適用于大型網(wǎng)絡(luò)。

所以這里有一些效果更好的東西。它仍然有類似的問題，但比擾動(dòng)權(quán)重要好得多。那就是擾亂活動(dòng)。

也就是說，您考慮對(duì)每個(gè)神經(jīng)元的總輸入進(jìn)行擾動(dòng)的隨機(jī)向量。

當(dāng)您對(duì)一小批示例進(jìn)行隨機(jī)擾動(dòng)時(shí)，您會(huì)查看目標(biāo)函數(shù)會(huì)發(fā)生什么。由于這種擾動(dòng)，您會(huì)得到目標(biāo)函數(shù)的差異。然后您可以計(jì)算如何更改神經(jīng)元的每個(gè)傳入權(quán)重以遵循梯度。同樣，它只是梯度的隨機(jī)估計(jì)，但與擾亂權(quán)重相比，它的噪音要小得多。而且這個(gè)算法足以學(xué)習(xí)像MNIST這樣的簡(jiǎn)單任務(wù)。

如果你使用非常非常小的學(xué)習(xí)率，它的行為與反向傳播完全一樣，但速度要慢得多，因?yàn)槟阈枰褂梅浅Ｐ〉膶W(xué)習(xí)率。如果你使用更大的學(xué)習(xí)率，它會(huì)很嘈雜，但它仍然適用于像MNIST這樣的東西。但它的效果還不夠好，無法將其擴(kuò)展到大型神經(jīng)網(wǎng)絡(luò)。

那么我們可以做些什么來擴(kuò)大規(guī)模呢？

好吧，有兩種方法可以使事情規(guī)�；�。

我們可以嘗試找到可以應(yīng)用于小型神經(jīng)網(wǎng)絡(luò)的目標(biāo)函數(shù)，而不是試圖找到適用于大型神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法。

所以我們的想法是訓(xùn)練一個(gè)大的神經(jīng)網(wǎng)絡(luò)。我們要做的是有很多適用于網(wǎng)絡(luò)小部分的小目標(biāo)函數(shù)。所以每一小組神經(jīng)元都有自己的局部目標(biāo)函數(shù)�，F(xiàn)在可以使用這種活動(dòng)擾動(dòng)算法來學(xué)習(xí)小型多層神經(jīng)網(wǎng)絡(luò)。它將以與反向傳播大致相同的方式學(xué)習(xí)，但噪聲更大。然后我們通過擁有更多小的局部神經(jīng)元組將其擴(kuò)展到更大的網(wǎng)絡(luò)。

那么這就引出了這些目標(biāo)函數(shù)從何而來的問題。

一種可能性是對(duì)局部補(bǔ)丁進(jìn)行無監(jiān)督學(xué)習(xí)，該局部補(bǔ)丁具有圖像的多個(gè)表示級(jí)別，并且每個(gè)級(jí)別都有局部補(bǔ)叮并在特定圖像上制作每個(gè)局部補(bǔ)丁，制作該局部神經(jīng)網(wǎng)絡(luò)的輸出，嘗試與所有其他局部補(bǔ)丁產(chǎn)生的平均表示一致。因此，您試圖在從本地補(bǔ)丁中提取的內(nèi)容，與從同一圖像中的所有其他本地補(bǔ)丁中提取的內(nèi)容達(dá)成一致。

這是經(jīng)典的對(duì)比學(xué)習(xí)。您還試圖不同意您為該級(jí)別的其他圖像提取的內(nèi)容。

我們?nèi)绾巫龅竭@一點(diǎn)的具體細(xì)節(jié)更加復(fù)雜，我不打算深入探討這些細(xì)節(jié)。但是我們可以讓這個(gè)算法工作得很好，每個(gè)表示級(jí)別都有幾個(gè)隱藏層，所以你可以做非線性的事情。

這些級(jí)別使用活動(dòng)擾動(dòng)貪婪地學(xué)習(xí)，并且沒有反向傳播到較低級(jí)別。所以它不會(huì)像反向傳播那樣強(qiáng)大，因?yàn)樗荒芊聪騻鞑ズ芏嗪芏鄬印?/p>

Mengye Ren 為使該算法發(fā)揮作用投入了大量工作，他證明了它可以適度發(fā)揮作用。它的效果可能比提出的任何其他算法都要好，這些算法可能是現(xiàn)實(shí)的，可以在真實(shí)的神經(jīng)網(wǎng)絡(luò)中運(yùn)行。但是讓它發(fā)揮作用很棘手，而且它仍然不如反向傳播。當(dāng)你使網(wǎng)絡(luò)更深時(shí)，它會(huì)變得比反向傳播更糟糕。

所以我沒有深入探討此方法的所有細(xì)節(jié)，因?yàn)槟梢栽贗CLR和網(wǎng)絡(luò)上的一篇論文中閱讀它們。

那么現(xiàn)在讓我談?wù)動(dòng)邢抻?jì)算的另一個(gè)大問題。

所以總而言之，到目前為止，我們還沒有找到一個(gè)真正好的可以利用模擬屬性的學(xué)習(xí)算法，但我們有一個(gè)學(xué)習(xí)算法還可以，并且足夠好，可以很好地學(xué)習(xí)像MNIST這樣的東西，并且學(xué)習(xí)像ImageNet這樣更大的東西，但不是很好。

所以有限計(jì)算的第二個(gè)大問題是它的生命有限性（Mortality）。當(dāng)一個(gè)特定的硬件死掉時(shí)，它學(xué)到的所有知識(shí)也隨之死去，因?yàn)橹R(shí)和硬件的細(xì)節(jié)錯(cuò)綜復(fù)雜地糾纏在一起。因此，該問題的最佳解決方案是在硬件失效之前，將知識(shí)從老師那里提取給學(xué)生。這就是我現(xiàn)在想做的。

教師向?qū)W生展示對(duì)各種輸入的正確反應(yīng)，然后學(xué)生嘗試模仿教師的反應(yīng)。如果你看看特朗普的推文是如何運(yùn)作的，人們會(huì)非常沮喪，因?yàn)樗麄冋f特朗普說的是假話。他們認(rèn)為他是在試圖描述事實(shí)，而事實(shí)根本不是這樣。特朗普所做的是采取一種情況并對(duì)這種情況做出反應(yīng)，對(duì)這種情況做出非常情緒化的反應(yīng)，這讓他的追隨者能夠接受這種情況并弄清楚如何改變他們神經(jīng)網(wǎng)絡(luò)中的權(quán)重，這樣他們就會(huì)給出對(duì)那種情況有同樣的情緒反應(yīng)。這與事實(shí)無關(guān)。那就是讓邪教領(lǐng)袖對(duì)邪教追隨者做出頑固的回應(yīng)，但效果很好。

因此，如果我們考慮蒸餾的效果如何，請(qǐng)考慮將圖像分類為大約一千個(gè)非重疊類別的代理。

指定正確答案只需要大約10位信息。因此，當(dāng)您在訓(xùn)練示例上訓(xùn)練該代理時(shí)，如果您告訴它正確的答案，您只是對(duì)網(wǎng)絡(luò)的權(quán)重施加了10位的約束。那沒有太大的限制。

但是現(xiàn)在假設(shè)我們訓(xùn)練一個(gè)agent來同意一個(gè)老師對(duì)這1024個(gè)班級(jí)給出的回答，也就是得到相同的概率分布。該分布有1023個(gè)實(shí)數(shù)，這提供了數(shù)百倍的約束，假設(shè)這些概率都不是很小的。所以不久之前，我和Ori O'Vignals、Jeff Dean研究了蒸餾并證明它可以很好地工作。

確保老師的輸出概率都不小的方法是在高溫下運(yùn)行老師，并且在訓(xùn)練學(xué)生時(shí)也在高溫下運(yùn)行學(xué)生。所以你采用logits，這就是進(jìn)入softmax的東西，對(duì)于老師來說，你按溫度縮放它們，然后你得到一個(gè)更柔和的分布。你在訓(xùn)練學(xué)生時(shí)使用相同的溫度，而不是在MNIST中使用學(xué)生，只是在訓(xùn)練學(xué)生時(shí)

所以我只想給你看一個(gè)蒸餾的例子。這是來自MNIST訓(xùn)練集的兩張各種圖像。而我給大家展示的是當(dāng)你在老師身上使用高溫時(shí)，老師分配給各個(gè)類別的概率。

對(duì)于第一行，很有信心是二。如果你看第二行，它很確定那是一個(gè)二，但它也認(rèn)為它可能只是一個(gè)三或者它可能是一個(gè)八。所以如果你看一下，你會(huì)發(fā)現(xiàn)二比其他兩個(gè)更像八。如果你看第三行，特別明顯的是二很像零。老師告訴學(xué)生，當(dāng)你看到那個(gè)時(shí)，你應(yīng)該說2，但你也應(yīng)該在0上小注。

所以學(xué)生現(xiàn)在從這個(gè)例子中學(xué)到的東西比僅僅告訴它是二的要多得多。它正在學(xué)習(xí)它看起來有點(diǎn)像的其他東西。如果你看第四行，你會(huì)發(fā)現(xiàn)它非常有信心它是2，但它也認(rèn)為它可能是1的可能性非常校它真正認(rèn)為可能是一個(gè)的其他兩個(gè)都不是，也許是第一行。而我所做的就是畫出它認(rèn)為可能是的那個(gè)。所以你可以明白為什么它看起來像一個(gè)，因?yàn)榕紶枙?huì)有一些像那個(gè)一樣在頂部有一點(diǎn)，在底部有一點(diǎn)。也就是那種兩人長(zhǎng)得有點(diǎn)像的。然后如果你看最后一個(gè)，那是老師實(shí)際上錯(cuò)了的一個(gè)。老師以為是五。根據(jù)MNIST標(biāo)簽，它實(shí)際上是一個(gè)二。

再一次，學(xué)生可以從那里老師的錯(cuò)誤中學(xué)到很多東西。

好吧，我特別喜歡蒸餾的一個(gè)特殊性質(zhì)，那就是當(dāng)你用老師的概率訓(xùn)練學(xué)生時(shí)，你是在訓(xùn)練學(xué)生以與老師相同的方式進(jìn)行概括。那就是通過給錯(cuò)誤答案賦予小概率來泛化到錯(cuò)誤答案。

通常當(dāng)你訓(xùn)練一個(gè)模型時(shí)，你訓(xùn)練它以獲得關(guān)于訓(xùn)練數(shù)據(jù)的正確答案，然后希望它能正確地泛化到測(cè)試數(shù)據(jù)。你試著讓它不要太復(fù)雜，或者你做各種其他事情，希望它能正確概括。但是在這里，當(dāng)你訓(xùn)練學(xué)生時(shí)，你是在直接訓(xùn)練學(xué)生進(jìn)行泛化，因?yàn)樗诒挥?xùn)練以與老師相同的方式進(jìn)行泛化。

顯然，您可以創(chuàng)建更豐富的蒸餾輸出，而不是給標(biāo)簽一個(gè)圖像，而是給它一個(gè)標(biāo)題，然后訓(xùn)練學(xué)生預(yù)測(cè)標(biāo)題中的單詞，和老師一樣。

我現(xiàn)在想談?wù)劥砣松鐓^(qū)如何共享知識(shí)。因此，與其考慮個(gè)體代理，不如考慮在社區(qū)內(nèi)共享知識(shí)。

事實(shí)證明，社區(qū)共享知識(shí)的方式很大程度上決定了進(jìn)行計(jì)算的方式。

有了數(shù)字模型，有了數(shù)字智能，你可以擁有一大堆使用完全相同權(quán)重副本的代理，并以完全相同的方式使用權(quán)重。

這意味著你可以采用所有這些智能體，不同的智能體可以查看訓(xùn)練數(shù)據(jù)的不同部分，它們可以為訓(xùn)練數(shù)據(jù)的這些部分的權(quán)重計(jì)算梯度，然后它們可以對(duì)它們的梯度進(jìn)行平均。

所以現(xiàn)在，每個(gè)模型都從每個(gè)模型看到的數(shù)據(jù)中學(xué)習(xí)。這意味著，你獲得了查看大量數(shù)據(jù)的巨大能力，因?yàn)槟憧梢宰屇Ｐ偷牟煌北静榭床煌臄?shù)據(jù)位，并且它們可以非常有效地共享它們學(xué)到的東西，只需共享梯度或分享權(quán)重。

如果你有一個(gè)擁有一萬億權(quán)重的模型，這意味著每次他們共享東西時(shí)你都會(huì)獲得一萬億位的帶寬。但這樣做的代價(jià)是你必須擁有以完全相同的方式行事的數(shù)字代理，以完全相同的方式使用權(quán)重。這對(duì)于制造和運(yùn)行而言都是非常昂貴的能源成本。

因此，使用權(quán)重共享的替代方法是使用蒸餾。

如果它們具有不同的架構(gòu)，這就是我們已經(jīng)對(duì)數(shù)字模型所做的事情。但如果您的生物模型正在利用特定硬件的模擬特性，那么這就是您必須做的事情。那時(shí)你不能分享權(quán)重。所以你必須使用蒸餾來分享知識(shí)。這就是這次談話的內(nèi)容。

正如您所看到的，它不是很有效。使用蒸餾很難分享知識(shí)。我寫句子，你試著想辦法改變你的權(quán)重，這樣你就能寫出相同的句子。但它的帶寬遠(yuǎn)低于僅共享梯度。

每個(gè)受過教育的人都希望能夠?qū)⑺麄兯赖闹R(shí)直接灌輸?shù)綄W(xué)生的大腦中。那太好了。那將是大學(xué)的終結(jié)。但我們不會(huì)那樣工作，因?yàn)槲覀兪巧镏悄�，我的�?quán)重對(duì)你沒用。

所以到目前為止的故事是有兩種不同的計(jì)算方法。利用數(shù)字計(jì)算和利用模擬特性的生物計(jì)算。它們?cè)诓煌碇g共享知識(shí)的效率方面有很大差異。

因此，如果您查看大型語言模型，它們會(huì)使用數(shù)字計(jì)算和權(quán)重共享。但是模型的每個(gè)副本，每個(gè)代理，都以非常低效的方式從文檔中獲取知識(shí)。它實(shí)際上是一種非常低效的蒸餾形式。

比如它需要一個(gè)文件，它試圖預(yù)測(cè)下一個(gè)詞。并且沒有顯示教師對(duì)下一個(gè)單詞的概率分布。它只是被顯示為一個(gè)隨機(jī)選擇。這就是文檔的作者選擇放在下一個(gè)詞中的內(nèi)容。所以這是非常低的帶寬。這就是這些大型語言模型向人們學(xué)習(xí)的方式。

所以每個(gè)副本通過蒸餾學(xué)習(xí)效率非常低。但是你有幾千份。這就是為什么他們比我們學(xué)到的東西多數(shù)千倍。所以我相信這些大型語言模型比任何人知道的都多數(shù)千倍。

現(xiàn)在的問題是，如果這些數(shù)字智能不是通過蒸餾非常緩慢地向我們學(xué)習(xí)，而是開始直接從現(xiàn)實(shí)世界學(xué)習(xí)，將會(huì)發(fā)生什么？

我應(yīng)該說，盡管他們向我們學(xué)習(xí)時(shí)升華速度很慢，但他們正在學(xué)習(xí)非常抽象的東西。所以人類在過去的幾千年里已經(jīng)學(xué)到了很多關(guān)于這個(gè)世界的東西。這些數(shù)字智能現(xiàn)在的好處是我們可以用語言表達(dá)我們學(xué)到的東西（注：語言是我們對(duì)世界的抽象）。因此，他們可以捕捉到人類在過去幾千年中記錄在案的關(guān)于世界的一切知識(shí)。

但是每個(gè)數(shù)字代理的帶寬仍然很低，因?yàn)樗麄冋趶奈臋n中學(xué)習(xí)。如果他們可以通過對(duì)視頻建模進(jìn)行無監(jiān)督學(xué)習(xí)，例如，如果我們一旦找到一種有效的方法來訓(xùn)練這些模型來對(duì)視頻建模，他們就可以從YouTube的所有內(nèi)容中學(xué)習(xí)，這是大量的數(shù)據(jù)。如果他們能夠操縱物理世界，那也會(huì)有所幫助。所以如果他們有機(jī)器人手臂等等。

但我相信，一旦這些數(shù)字代理人開始這樣做，他們將能夠比人類學(xué)到更多，而且他們將能夠?qū)W得非�？�。所以這讓我想到了我在開頭提到的另一點(diǎn)，即如果這些東西變得比我們更聰明會(huì)發(fā)生什么？

很明顯，這（'超級(jí)智能會(huì)如何取得控制'）就是這次會(huì)議的主要內(nèi)容。但我的主要貢獻(xiàn)只是說，我認(rèn)為這些超級(jí)智能可能比我過去認(rèn)為的要快得多。不良行為者會(huì)想利用它們來做諸如操縱選民之類的事情。為此，他們已經(jīng)在美國(guó)和許多其他地方使用它們。為了贏得戰(zhàn)爭(zhēng)。

如果你想讓超級(jí)智能更有效率，你需要讓它創(chuàng)建子目標(biāo)。現(xiàn)在，這有一個(gè)明顯的問題。有一個(gè)非常明顯的子目標(biāo)，它或多或少對(duì)你想要實(shí)現(xiàn)的任何事情都非常有幫助。那就是獲得更多的權(quán)力，獲得更多的控制權(quán)。您擁有的控制權(quán)越多，實(shí)現(xiàn)目標(biāo)就越容易。而且我發(fā)現(xiàn)很難看出我們將如何阻止數(shù)字智能試圖獲得更多控制權(quán)以實(shí)現(xiàn)他們的其他目標(biāo)。

因此，一旦他們開始這樣做，我們就會(huì)遇到問題。一個(gè)超級(jí)智能會(huì)發(fā)現(xiàn)很容易通過操縱人來獲得更多的權(quán)力。我們不習(xí)慣思考比我們聰明得多的事情。以及我們將如何與他們互動(dòng)。

但在我看來很明顯，它會(huì)學(xué)會(huì)非常擅長(zhǎng)欺騙人，因?yàn)樗ㄟ^在小說和馬基雅維利等作品中看到我們欺騙他人的所有例子進(jìn)行了大量練習(xí)。一旦你非常擅長(zhǎng)欺騙人，你就可以讓人們實(shí)際執(zhí)行你喜歡的任何動(dòng)作。因此，例如，如果您想入侵華盛頓的一座建筑物，則無需前往那里。你只是欺騙人們認(rèn)為他們通過入侵大樓來拯救民主。我覺得這很可怕。

現(xiàn)在，我看不出如何防止這種情況發(fā)生，但我老了。我希望像你們這樣的許多年輕而才華橫溢的研究人員會(huì)弄清楚我們?nèi)绾螕碛羞@些超級(jí)智能，這將使我們的生活在沒有他們控制的情況下變得更好。

我們有一個(gè)優(yōu)勢(shì)，一個(gè)相當(dāng)小的優(yōu)勢(shì)，就是這些東西沒有進(jìn)化。我們建造了它們�？赡苁且�?yàn)樗鼈儧]有進(jìn)化，所以它們沒有原始人所具有的競(jìng)爭(zhēng)性、攻擊性目標(biāo)。也許我們可以提供幫助。那會(huì)有所幫助。也許我們可以給他們道德原則。

但目前，我只是很緊張，因?yàn)槲也恢涝谥橇Σ罹嗪艽髸r(shí)，更聰明的東西被更不聰明的東西控制的例子。我想舉的例子是假設(shè)青蛙發(fā)明了人。你認(rèn)為現(xiàn)在誰將負(fù)責(zé)，青蛙還是人民？這讓我看到最后一張幻燈片，也就是結(jié)尾，“THE EDN”。