展會(huì)信息港展會(huì)大全

圖靈獎(jiǎng)得主、深度學(xué)習(xí)之父Hinton 智源大會(huì)閉幕演講:人工神經(jīng)網(wǎng)絡(luò)是否比真正的神經(jīng)網(wǎng)絡(luò)更聰明?
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-06-11 19:32:58   瀏覽:3733次  

導(dǎo)讀:6月10日,深度學(xué)習(xí)之父、圖靈獎(jiǎng)得主Hinton在北京智源大會(huì)上進(jìn)行了一場(chǎng)令人震撼的閉幕主題演講,演講時(shí)長(zhǎng)長(zhǎng)達(dá)30分鐘。與我們先前的預(yù)期不同,他并沒有泛談超級(jí)人工智能AGI如何控制人類,而是向我們展示了一項(xiàng)具有前瞻性的研究:Mortal Computation(有限計(jì)算...

6月10日,深度學(xué)習(xí)之父、圖靈獎(jiǎng)得主Hinton在北京智源大會(huì)上進(jìn)行了一場(chǎng)令人震撼的閉幕主題演講,演講時(shí)長(zhǎng)長(zhǎng)達(dá)30分鐘。與我們先前的預(yù)期不同,他并沒有泛談超級(jí)人工智能AGI如何控制人類,而是向我們展示了一項(xiàng)具有前瞻性的研究:Mortal Computation(有限計(jì)算)。在演講中,他介紹了一種全新的計(jì)算結(jié)構(gòu),拋棄了傳統(tǒng)的軟硬件分離原則,并且不再使用反向傳播來描述神經(jīng)網(wǎng)絡(luò)內(nèi)部路徑,以此實(shí)現(xiàn)智能計(jì)算。雖然演講中涉及了一小部分技術(shù)方面的內(nèi)容,但Hinton以他出色的教學(xué)水平,將最前沿的算法思想概念化并講解得清晰易懂。他并沒有使用復(fù)雜的術(shù)語,而是以簡(jiǎn)明扼要的方式闡述了最先進(jìn)的算法思想。

以下為要點(diǎn)及實(shí)錄

要點(diǎn):

1、有限計(jì)算是一種與傳統(tǒng)計(jì)算機(jī)設(shè)計(jì)原則相悖的新方法,它將軟件與硬件分離。這種方法可以節(jié)省能源,并使用模擬計(jì)算來實(shí)現(xiàn)類似大腦的計(jì)算。

2、有限計(jì)算的挑戰(zhàn)在于學(xué)習(xí)過程必須利用硬件的模擬屬性,而不需要確切了解這些屬性。傳統(tǒng)的反向傳播算法無法直接應(yīng)用于模擬計(jì)算。

3、一種可能的學(xué)習(xí)算法是使用活動(dòng)擾動(dòng),通過對(duì)神經(jīng)元的輸入進(jìn)行隨機(jī)擾動(dòng)并觀察目標(biāo)函數(shù)的變化來更新權(quán)重。這種方法的效果與反向傳播類似,但具有更高的方差。

4、蒸餾用于知識(shí)共享:蒸餾可以用于在具有不同架構(gòu)的模型之間共享知識(shí),尤其在模擬特性的生物模型中。蒸餾可以作為一種有效的知識(shí)分享方法,而不僅僅是共享梯度。

5、數(shù)字智能的學(xué)習(xí)效率:大型語言模型通過從文檔中學(xué)習(xí),以一種低效的方式獲取知識(shí)。雖然每個(gè)副本的學(xué)習(xí)效率很低,但由于有多個(gè)副本,所以它們可以比人類學(xué)習(xí)更多。

6、超級(jí)智能的發(fā)展和潛在問題:一旦數(shù)字智能開始直接從現(xiàn)實(shí)世界學(xué)習(xí),它們將能夠比人類學(xué)習(xí)更多,并且學(xué)習(xí)速度更快。然而,這可能導(dǎo)致一系列問題,包括超級(jí)智能可能試圖獲得更多控制權(quán)以實(shí)現(xiàn)其目標(biāo),并且在與人類互動(dòng)方面可能會(huì)存在困難。

以下為演講實(shí)錄:

我今天要談的是使我相信超級(jí)智能比我想象的要近得多的研究。

所以我想談兩個(gè)問題,我將幾乎完全關(guān)注第一個(gè)問題,即人工神經(jīng)網(wǎng)絡(luò)很快會(huì)比真實(shí)神經(jīng)網(wǎng)絡(luò)更智能嗎?就像我說的那樣,我將描述使我得出結(jié)論認(rèn)為這可能很快就會(huì)發(fā)生的研究。

就在最后,我會(huì)稍微談?wù)勎覀兪欠窨梢钥刂瞥?jí)智能人工智能,但這不是談話的主題。

因此,在傳統(tǒng)計(jì)算中,計(jì)算機(jī)被設(shè)計(jì)為精確地遵循指令。我們可以在不同的物理硬件上運(yùn)行完全相同的程序或相同的神經(jīng)網(wǎng)絡(luò),因?yàn)樗鼈儽辉O(shè)計(jì)為精確地遵循指令,這意味著程序或神經(jīng)網(wǎng)絡(luò)的權(quán)重中的知識(shí)是不朽的。它不依賴于任何特定的硬件。

現(xiàn)在要實(shí)現(xiàn)這種永生需要付出高昂的代價(jià)。我們必須以高功率運(yùn)行晶體管,以便它們以數(shù)字方式運(yùn)行,我們無法利用硬件的所有豐富的模擬和高度可變的特性。

數(shù)字計(jì)算機(jī)存在的原因,以及它們精確地遵循指令的原因,是因?yàn)樗鼈兊脑O(shè)計(jì)是讓我們看到一個(gè)問題,會(huì)弄清楚需要采取什么步驟來解決問題,然后告訴計(jì)算機(jī)采取這些步驟。

但這已經(jīng)改變了,我們現(xiàn)在有一種讓計(jì)算機(jī)做事的不同方式,那就是從例子中學(xué)習(xí)。我們只是向他們展示我們希望他們做什么,并且由于您讓計(jì)算機(jī)做您想做的事情的方式發(fā)生了這種變化,現(xiàn)在可以放棄計(jì)算機(jī)科學(xué)最基本的原則,即軟件應(yīng)該與硬件分開。

所以在我們放棄軟硬件分開的原則之前,讓我們先回顧一下為什么它是一個(gè)很好的原則。

由于這種可分離性,我們可以在不同的硬件上運(yùn)行相同的程序。我們還可以擔(dān)心程序的屬性,并在神經(jīng)網(wǎng)絡(luò)上研究程序的屬性,而不必?fù)?dān)心電子學(xué),這就是為什么你可以擁有不同于電氣工程系的計(jì)算機(jī)科學(xué)系。

如果我們真的放棄軟件和硬件的分離,我們就會(huì)得到我稱之為有限計(jì)算的東西。

它顯然有很大的缺點(diǎn),但它也有一些巨大的優(yōu)點(diǎn),所以我開始研究有限計(jì)算,以便能夠以更少的能量運(yùn)行大型語言模型之類的東西,特別是能夠使用更少的能量來訓(xùn)練它們。

因此,我們從放棄永生中獲得的巨大好處是放棄硬件(身體)和軟件(靈魂)的分離,我們可以節(jié)省大量能源,因?yàn)槲覀兛梢允褂梅浅5凸牡哪M計(jì)算,而這正是大腦正在做的事情。

它確實(shí)有一位數(shù)字計(jì)算,因?yàn)樯窠?jīng)元要么發(fā)射要么不發(fā)射,但大部分計(jì)算都是以模擬方式完成的,而且可以在非常低的功率下完成。

我們還可以獲得更便宜的硬件,因此目前硬件必須在2D中非常精確地制造,我們實(shí)際上可以擁有您只需在3D中生長(zhǎng)的硬件,因?yàn)槲覀儾恍枰_切地了解硬件的連接性或每個(gè)部件的確切方式有用。

顯然,要做到這一點(diǎn)將需要大量新的納米技術(shù),或者可能需要對(duì)生物神經(jīng)元進(jìn)行基因改造,因?yàn)樯锷窠?jīng)元將大致按照我們的意愿行事。

在我深入探討有限計(jì)算的所有缺點(diǎn)之前,我只想給你一個(gè)計(jì)算示例,可以明顯的通過使用模擬硬件以更便宜的方式完成計(jì)算。

因此,如果你想將一個(gè)神經(jīng)活動(dòng)向量乘以一個(gè)權(quán)重矩陣,這就是神經(jīng)網(wǎng)絡(luò)的核心計(jì)算,大部分工作量都在這。我們目前所做的是驅(qū)動(dòng)非常高功率的晶體管來表示數(shù)字的數(shù)字表示中的位,然后我們執(zhí)行n階平方運(yùn)算將兩個(gè)n位數(shù)字相乘。

我的意思是這可能是計(jì)算機(jī)上的一個(gè)操作,但它是n平方位操作。

另一種方法是將神經(jīng)活動(dòng)實(shí)現(xiàn)為電壓和權(quán)重作為電導(dǎo),然后每單位時(shí)間電壓乘以電導(dǎo)給你一個(gè)電荷,電荷將自己加起來,所以現(xiàn)在很明顯你可以如何將電壓向量乘以電導(dǎo)矩陣。

這大大提高了能源效率。以這種方式工作的芯片已經(jīng)存在。不幸的是,人們隨后所做的是嘗試使用非常昂貴的ATG轉(zhuǎn)換器將模擬答案轉(zhuǎn)換為數(shù)字答案。如果可以的話,我們希望完全留在模擬領(lǐng)域。

但問題是不同的硬件最終會(huì)計(jì)算出略有不同的東西。

因此,有限計(jì)算的主要問題是,學(xué)習(xí)過程必須利用它所運(yùn)行的硬件的特定模擬屬性,而無需確切知道這些屬性是什么。

例如,不知道將神經(jīng)元的輸入與神經(jīng)元的輸出相關(guān)聯(lián)的確切函數(shù),并且可能不知道連接性。這意味著我們不能使用反向傳播算法之類的東西來獲得梯度,因?yàn)榉聪騻鞑ナ乔跋騻鞑サ木_模型。(注:模擬計(jì)算意味著無法得到內(nèi)部的精確模型)

所以問題是,如果我們不能使用反向傳播,我們還能做什么,因?yàn)槲覀儸F(xiàn)在都高度依賴反向傳播。

所以這里有一個(gè)非常簡(jiǎn)單明了的學(xué)習(xí)過程,人們已經(jīng)談?wù)摿撕芏唷?/p>

為網(wǎng)絡(luò)中的每個(gè)權(quán)重生成一個(gè)由小的臨時(shí)擾動(dòng)組成的隨機(jī)向量。然后你測(cè)量一個(gè)小批量示例的全局目標(biāo)函數(shù)的變化。然后你通過改進(jìn)的目標(biāo)函數(shù)去縮放擾動(dòng)向量,以永久地改變權(quán)重。

因此,如果目標(biāo)函數(shù)變得更糟,您顯然會(huì)朝另一個(gè)方向前進(jìn)。這個(gè)算法的好處是,平均而言,它的行為與反向傳播相同,因?yàn)槠骄裕裱荻。它的問題在于它具有非常高的方差。

因此,當(dāng)您選擇一個(gè)隨機(jī)方向移動(dòng)以考慮權(quán)重空間時(shí)所產(chǎn)生的噪聲與網(wǎng)絡(luò)的大小成正比。這意味著這種算法適用于少量連接,但不適用于大型網(wǎng)絡(luò)。

所以這里有一些效果更好的東西。它仍然有類似的問題,但比擾動(dòng)權(quán)重要好得多。那就是擾亂活動(dòng)。

也就是說,您考慮對(duì)每個(gè)神經(jīng)元的總輸入進(jìn)行擾動(dòng)的隨機(jī)向量。

當(dāng)您對(duì)一小批示例進(jìn)行隨機(jī)擾動(dòng)時(shí),您會(huì)查看目標(biāo)函數(shù)會(huì)發(fā)生什么。由于這種擾動(dòng),您會(huì)得到目標(biāo)函數(shù)的差異。然后您可以計(jì)算如何更改神經(jīng)元的每個(gè)傳入權(quán)重以遵循梯度。同樣,它只是梯度的隨機(jī)估計(jì),但與擾亂權(quán)重相比,它的噪音要小得多。而且這個(gè)算法足以學(xué)習(xí)像MNIST這樣的簡(jiǎn)單任務(wù)。

如果你使用非常非常小的學(xué)習(xí)率,它的行為與反向傳播完全一樣,但速度要慢得多,因?yàn)槟阈枰褂梅浅P〉膶W(xué)習(xí)率。如果你使用更大的學(xué)習(xí)率,它會(huì)很嘈雜,但它仍然適用于像MNIST這樣的東西。但它的效果還不夠好,無法將其擴(kuò)展到大型神經(jīng)網(wǎng)絡(luò)。

那么我們可以做些什么來擴(kuò)大規(guī)模呢?

好吧,有兩種方法可以使事情規(guī);。

我們可以嘗試找到可以應(yīng)用于小型神經(jīng)網(wǎng)絡(luò)的目標(biāo)函數(shù),而不是試圖找到適用于大型神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法。

所以我們的想法是訓(xùn)練一個(gè)大的神經(jīng)網(wǎng)絡(luò)。我們要做的是有很多適用于網(wǎng)絡(luò)小部分的小目標(biāo)函數(shù)。所以每一小組神經(jīng)元都有自己的局部目標(biāo)函數(shù),F(xiàn)在可以使用這種活動(dòng)擾動(dòng)算法來學(xué)習(xí)小型多層神經(jīng)網(wǎng)絡(luò)。它將以與反向傳播大致相同的方式學(xué)習(xí),但噪聲更大。然后我們通過擁有更多小的局部神經(jīng)元組將其擴(kuò)展到更大的網(wǎng)絡(luò)。

那么這就引出了這些目標(biāo)函數(shù)從何而來的問題。

一種可能性是對(duì)局部補(bǔ)丁進(jìn)行無監(jiān)督學(xué)習(xí),該局部補(bǔ)丁具有圖像的多個(gè)表示級(jí)別,并且每個(gè)級(jí)別都有局部補(bǔ)叮并在特定圖像上制作每個(gè)局部補(bǔ)丁,制作該局部神經(jīng)網(wǎng)絡(luò)的輸出,嘗試與所有其他局部補(bǔ)丁產(chǎn)生的平均表示一致。因此,您試圖在從本地補(bǔ)丁中提取的內(nèi)容,與從同一圖像中的所有其他本地補(bǔ)丁中提取的內(nèi)容達(dá)成一致。

這是經(jīng)典的對(duì)比學(xué)習(xí)。您還試圖不同意您為該級(jí)別的其他圖像提取的內(nèi)容。

我們?nèi)绾巫龅竭@一點(diǎn)的具體細(xì)節(jié)更加復(fù)雜,我不打算深入探討這些細(xì)節(jié)。但是我們可以讓這個(gè)算法工作得很好,每個(gè)表示級(jí)別都有幾個(gè)隱藏層,所以你可以做非線性的事情。

這些級(jí)別使用活動(dòng)擾動(dòng)貪婪地學(xué)習(xí),并且沒有反向傳播到較低級(jí)別。所以它不會(huì)像反向傳播那樣強(qiáng)大,因?yàn)樗荒芊聪騻鞑ズ芏嗪芏鄬印?/p>

Mengye Ren 為使該算法發(fā)揮作用投入了大量工作,他證明了它可以適度發(fā)揮作用。它的效果可能比提出的任何其他算法都要好,這些算法可能是現(xiàn)實(shí)的,可以在真實(shí)的神經(jīng)網(wǎng)絡(luò)中運(yùn)行。但是讓它發(fā)揮作用很棘手,而且它仍然不如反向傳播。當(dāng)你使網(wǎng)絡(luò)更深時(shí),它會(huì)變得比反向傳播更糟糕。

所以我沒有深入探討此方法的所有細(xì)節(jié),因?yàn)槟梢栽贗CLR和網(wǎng)絡(luò)上的一篇論文中閱讀它們。

那么現(xiàn)在讓我談?wù)動(dòng)邢抻?jì)算的另一個(gè)大問題。

所以總而言之,到目前為止,我們還沒有找到一個(gè)真正好的可以利用模擬屬性的學(xué)習(xí)算法,但我們有一個(gè)學(xué)習(xí)算法還可以,并且足夠好,可以很好地學(xué)習(xí)像MNIST這樣的東西,并且學(xué)習(xí)像ImageNet這樣更大的東西,但不是很好。

所以有限計(jì)算的第二個(gè)大問題是它的生命有限性(Mortality)。當(dāng)一個(gè)特定的硬件死掉時(shí),它學(xué)到的所有知識(shí)也隨之死去,因?yàn)橹R(shí)和硬件的細(xì)節(jié)錯(cuò)綜復(fù)雜地糾纏在一起。因此,該問題的最佳解決方案是在硬件失效之前,將知識(shí)從老師那里提取給學(xué)生。這就是我現(xiàn)在想做的。

教師向?qū)W生展示對(duì)各種輸入的正確反應(yīng),然后學(xué)生嘗試模仿教師的反應(yīng)。如果你看看特朗普的推文是如何運(yùn)作的,人們會(huì)非常沮喪,因?yàn)樗麄冋f特朗普說的是假話。他們認(rèn)為他是在試圖描述事實(shí),而事實(shí)根本不是這樣。特朗普所做的是采取一種情況并對(duì)這種情況做出反應(yīng),對(duì)這種情況做出非常情緒化的反應(yīng),這讓他的追隨者能夠接受這種情況并弄清楚如何改變他們神經(jīng)網(wǎng)絡(luò)中的權(quán)重,這樣他們就會(huì)給出對(duì)那種情況有同樣的情緒反應(yīng)。這與事實(shí)無關(guān)。那就是讓邪教領(lǐng)袖對(duì)邪教追隨者做出頑固的回應(yīng),但效果很好。

因此,如果我們考慮蒸餾的效果如何,請(qǐng)考慮將圖像分類為大約一千個(gè)非重疊類別的代理。

指定正確答案只需要大約10位信息。因此,當(dāng)您在訓(xùn)練示例上訓(xùn)練該代理時(shí),如果您告訴它正確的答案,您只是對(duì)網(wǎng)絡(luò)的權(quán)重施加了10位的約束。那沒有太大的限制。

但是現(xiàn)在假設(shè)我們訓(xùn)練一個(gè)agent來同意一個(gè)老師對(duì)這1024個(gè)班級(jí)給出的回答,也就是得到相同的概率分布。該分布有1023個(gè)實(shí)數(shù),這提供了數(shù)百倍的約束,假設(shè)這些概率都不是很小的。所以不久之前,我和Ori O'Vignals、Jeff Dean研究了蒸餾并證明它可以很好地工作。

確保老師的輸出概率都不小的方法是在高溫下運(yùn)行老師,并且在訓(xùn)練學(xué)生時(shí)也在高溫下運(yùn)行學(xué)生。所以你采用logits,這就是進(jìn)入softmax的東西,對(duì)于老師來說,你按溫度縮放它們,然后你得到一個(gè)更柔和的分布。你在訓(xùn)練學(xué)生時(shí)使用相同的溫度,而不是在MNIST中使用學(xué)生,只是在訓(xùn)練學(xué)生時(shí)

所以我只想給你看一個(gè)蒸餾的例子。這是來自MNIST訓(xùn)練集的兩張各種圖像。而我給大家展示的是當(dāng)你在老師身上使用高溫時(shí),老師分配給各個(gè)類別的概率。

對(duì)于第一行,很有信心是二。如果你看第二行,它很確定那是一個(gè)二,但它也認(rèn)為它可能只是一個(gè)三或者它可能是一個(gè)八。所以如果你看一下,你會(huì)發(fā)現(xiàn)二比其他兩個(gè)更像八。如果你看第三行,特別明顯的是二很像零。老師告訴學(xué)生,當(dāng)你看到那個(gè)時(shí),你應(yīng)該說2,但你也應(yīng)該在0上小注。

所以學(xué)生現(xiàn)在從這個(gè)例子中學(xué)到的東西比僅僅告訴它是二的要多得多。它正在學(xué)習(xí)它看起來有點(diǎn)像的其他東西。如果你看第四行,你會(huì)發(fā)現(xiàn)它非常有信心它是2,但它也認(rèn)為它可能是1的可能性非常校它真正認(rèn)為可能是一個(gè)的其他兩個(gè)都不是,也許是第一行。而我所做的就是畫出它認(rèn)為可能是的那個(gè)。所以你可以明白為什么它看起來像一個(gè),因?yàn)榕紶枙?huì)有一些像那個(gè)一樣在頂部有一點(diǎn),在底部有一點(diǎn)。也就是那種兩人長(zhǎng)得有點(diǎn)像的。然后如果你看最后一個(gè),那是老師實(shí)際上錯(cuò)了的一個(gè)。老師以為是五。根據(jù)MNIST標(biāo)簽,它實(shí)際上是一個(gè)二。

再一次,學(xué)生可以從那里老師的錯(cuò)誤中學(xué)到很多東西。

好吧,我特別喜歡蒸餾的一個(gè)特殊性質(zhì),那就是當(dāng)你用老師的概率訓(xùn)練學(xué)生時(shí),你是在訓(xùn)練學(xué)生以與老師相同的方式進(jìn)行概括。那就是通過給錯(cuò)誤答案賦予小概率來泛化到錯(cuò)誤答案。

通常當(dāng)你訓(xùn)練一個(gè)模型時(shí),你訓(xùn)練它以獲得關(guān)于訓(xùn)練數(shù)據(jù)的正確答案,然后希望它能正確地泛化到測(cè)試數(shù)據(jù)。你試著讓它不要太復(fù)雜,或者你做各種其他事情,希望它能正確概括。但是在這里,當(dāng)你訓(xùn)練學(xué)生時(shí),你是在直接訓(xùn)練學(xué)生進(jìn)行泛化,因?yàn)樗诒挥?xùn)練以與老師相同的方式進(jìn)行泛化。

顯然,您可以創(chuàng)建更豐富的蒸餾輸出,而不是給標(biāo)簽一個(gè)圖像,而是給它一個(gè)標(biāo)題,然后訓(xùn)練學(xué)生預(yù)測(cè)標(biāo)題中的單詞,和老師一樣。

我現(xiàn)在想談?wù)劥砣松鐓^(qū)如何共享知識(shí)。因此,與其考慮個(gè)體代理,不如考慮在社區(qū)內(nèi)共享知識(shí)。

事實(shí)證明,社區(qū)共享知識(shí)的方式很大程度上決定了進(jìn)行計(jì)算的方式。

有了數(shù)字模型,有了數(shù)字智能,你可以擁有一大堆使用完全相同權(quán)重副本的代理,并以完全相同的方式使用權(quán)重。

這意味著你可以采用所有這些智能體,不同的智能體可以查看訓(xùn)練數(shù)據(jù)的不同部分,它們可以為訓(xùn)練數(shù)據(jù)的這些部分的權(quán)重計(jì)算梯度,然后它們可以對(duì)它們的梯度進(jìn)行平均。

所以現(xiàn)在,每個(gè)模型都從每個(gè)模型看到的數(shù)據(jù)中學(xué)習(xí)。這意味著,你獲得了查看大量數(shù)據(jù)的巨大能力,因?yàn)槟憧梢宰屇P偷牟煌北静榭床煌臄?shù)據(jù)位,并且它們可以非常有效地共享它們學(xué)到的東西,只需共享梯度或分享權(quán)重。

如果你有一個(gè)擁有一萬億權(quán)重的模型,這意味著每次他們共享東西時(shí)你都會(huì)獲得一萬億位的帶寬。但這樣做的代價(jià)是你必須擁有以完全相同的方式行事的數(shù)字代理,以完全相同的方式使用權(quán)重。這對(duì)于制造和運(yùn)行而言都是非常昂貴的能源成本。

因此,使用權(quán)重共享的替代方法是使用蒸餾。

如果它們具有不同的架構(gòu),這就是我們已經(jīng)對(duì)數(shù)字模型所做的事情。但如果您的生物模型正在利用特定硬件的模擬特性,那么這就是您必須做的事情。那時(shí)你不能分享權(quán)重。所以你必須使用蒸餾來分享知識(shí)。這就是這次談話的內(nèi)容。

正如您所看到的,它不是很有效。使用蒸餾很難分享知識(shí)。我寫句子,你試著想辦法改變你的權(quán)重,這樣你就能寫出相同的句子。但它的帶寬遠(yuǎn)低于僅共享梯度。

每個(gè)受過教育的人都希望能夠?qū)⑺麄兯赖闹R(shí)直接灌輸?shù)綄W(xué)生的大腦中。那太好了。那將是大學(xué)的終結(jié)。但我們不會(huì)那樣工作,因?yàn)槲覀兪巧镏悄,我的?quán)重對(duì)你沒用。

所以到目前為止的故事是有兩種不同的計(jì)算方法。利用數(shù)字計(jì)算和利用模擬特性的生物計(jì)算。它們?cè)诓煌碇g共享知識(shí)的效率方面有很大差異。

因此,如果您查看大型語言模型,它們會(huì)使用數(shù)字計(jì)算和權(quán)重共享。但是模型的每個(gè)副本,每個(gè)代理,都以非常低效的方式從文檔中獲取知識(shí)。它實(shí)際上是一種非常低效的蒸餾形式。

比如它需要一個(gè)文件,它試圖預(yù)測(cè)下一個(gè)詞。并且沒有顯示教師對(duì)下一個(gè)單詞的概率分布。它只是被顯示為一個(gè)隨機(jī)選擇。這就是文檔的作者選擇放在下一個(gè)詞中的內(nèi)容。所以這是非常低的帶寬。這就是這些大型語言模型向人們學(xué)習(xí)的方式。

所以每個(gè)副本通過蒸餾學(xué)習(xí)效率非常低。但是你有幾千份。這就是為什么他們比我們學(xué)到的東西多數(shù)千倍。所以我相信這些大型語言模型比任何人知道的都多數(shù)千倍。

現(xiàn)在的問題是,如果這些數(shù)字智能不是通過蒸餾非常緩慢地向我們學(xué)習(xí),而是開始直接從現(xiàn)實(shí)世界學(xué)習(xí),將會(huì)發(fā)生什么?

我應(yīng)該說,盡管他們向我們學(xué)習(xí)時(shí)升華速度很慢,但他們正在學(xué)習(xí)非常抽象的東西。所以人類在過去的幾千年里已經(jīng)學(xué)到了很多關(guān)于這個(gè)世界的東西。這些數(shù)字智能現(xiàn)在的好處是我們可以用語言表達(dá)我們學(xué)到的東西(注:語言是我們對(duì)世界的抽象)。因此,他們可以捕捉到人類在過去幾千年中記錄在案的關(guān)于世界的一切知識(shí)。

但是每個(gè)數(shù)字代理的帶寬仍然很低,因?yàn)樗麄冋趶奈臋n中學(xué)習(xí)。如果他們可以通過對(duì)視頻建模進(jìn)行無監(jiān)督學(xué)習(xí),例如,如果我們一旦找到一種有效的方法來訓(xùn)練這些模型來對(duì)視頻建模,他們就可以從YouTube的所有內(nèi)容中學(xué)習(xí),這是大量的數(shù)據(jù)。如果他們能夠操縱物理世界,那也會(huì)有所幫助。所以如果他們有機(jī)器人手臂等等。

但我相信,一旦這些數(shù)字代理人開始這樣做,他們將能夠比人類學(xué)到更多,而且他們將能夠?qū)W得非?。所以這讓我想到了我在開頭提到的另一點(diǎn),即如果這些東西變得比我們更聰明會(huì)發(fā)生什么?

很明顯,這('超級(jí)智能會(huì)如何取得控制')就是這次會(huì)議的主要內(nèi)容。但我的主要貢獻(xiàn)只是說,我認(rèn)為這些超級(jí)智能可能比我過去認(rèn)為的要快得多。不良行為者會(huì)想利用它們來做諸如操縱選民之類的事情。為此,他們已經(jīng)在美國(guó)和許多其他地方使用它們。為了贏得戰(zhàn)爭(zhēng)。

如果你想讓超級(jí)智能更有效率,你需要讓它創(chuàng)建子目標(biāo)。現(xiàn)在,這有一個(gè)明顯的問題。有一個(gè)非常明顯的子目標(biāo),它或多或少對(duì)你想要實(shí)現(xiàn)的任何事情都非常有幫助。那就是獲得更多的權(quán)力,獲得更多的控制權(quán)。您擁有的控制權(quán)越多,實(shí)現(xiàn)目標(biāo)就越容易。而且我發(fā)現(xiàn)很難看出我們將如何阻止數(shù)字智能試圖獲得更多控制權(quán)以實(shí)現(xiàn)他們的其他目標(biāo)。

因此,一旦他們開始這樣做,我們就會(huì)遇到問題。一個(gè)超級(jí)智能會(huì)發(fā)現(xiàn)很容易通過操縱人來獲得更多的權(quán)力。我們不習(xí)慣思考比我們聰明得多的事情。以及我們將如何與他們互動(dòng)。

但在我看來很明顯,它會(huì)學(xué)會(huì)非常擅長(zhǎng)欺騙人,因?yàn)樗ㄟ^在小說和馬基雅維利等作品中看到我們欺騙他人的所有例子進(jìn)行了大量練習(xí)。一旦你非常擅長(zhǎng)欺騙人,你就可以讓人們實(shí)際執(zhí)行你喜歡的任何動(dòng)作。因此,例如,如果您想入侵華盛頓的一座建筑物,則無需前往那里。你只是欺騙人們認(rèn)為他們通過入侵大樓來拯救民主。我覺得這很可怕。

現(xiàn)在,我看不出如何防止這種情況發(fā)生,但我老了。我希望像你們這樣的許多年輕而才華橫溢的研究人員會(huì)弄清楚我們?nèi)绾螕碛羞@些超級(jí)智能,這將使我們的生活在沒有他們控制的情況下變得更好。

我們有一個(gè)優(yōu)勢(shì),一個(gè)相當(dāng)小的優(yōu)勢(shì),就是這些東西沒有進(jìn)化。我們建造了它們?赡苁且?yàn)樗鼈儧]有進(jìn)化,所以它們沒有原始人所具有的競(jìng)爭(zhēng)性、攻擊性目標(biāo)。也許我們可以提供幫助。那會(huì)有所幫助。也許我們可以給他們道德原則。

但目前,我只是很緊張,因?yàn)槲也恢涝谥橇Σ罹嗪艽髸r(shí),更聰明的東西被更不聰明的東西控制的例子。我想舉的例子是假設(shè)青蛙發(fā)明了人。你認(rèn)為現(xiàn)在誰將負(fù)責(zé),青蛙還是人民?這讓我看到最后一張幻燈片,也就是結(jié)尾,“THE EDN”。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港