展會(huì)信息港展會(huì)大全

放棄永生的凡人計(jì)算:AI教父Hinton 智源大會(huì)閉幕主題演講(附中文視頻)
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2023-06-11 19:31:39   瀏覽:4901次  

導(dǎo)讀:作者:城主 前言 昨天AI教父連線北京智源大會(huì)做了閉幕主題演講。時(shí)長(zhǎng)30分鐘。 本以為Hinton還是類(lèi)似之前上多個(gè)視頻訪談那樣,泛談AGI超級(jí)人工智能如何控制人類(lèi)的顧慮;但錯(cuò)了,AI教父帶給我們的是一項(xiàng)讓他相信超級(jí)智能將會(huì)比預(yù)期快得多的研究: 凡人計(jì)算(Mo...

作者:城主

前言

昨天AI教父連線北京智源大會(huì)做了閉幕主題演講。時(shí)長(zhǎng)30分鐘。

本以為Hinton還是類(lèi)似之前上多個(gè)視頻訪談那樣,泛談AGI超級(jí)人工智能如何控制人類(lèi)的顧慮;但錯(cuò)了,AI教父帶給我們的是一項(xiàng)讓他相信超級(jí)智能將會(huì)比預(yù)期快得多的研究:凡人計(jì)算(Mortal Computation)。

實(shí)際上,演講描述了一種新的計(jì)算結(jié)構(gòu),在拋棄了軟硬件分離的原則后,即不再用反向傳播描述神經(jīng)網(wǎng)絡(luò)內(nèi)部路徑的情況下,如何實(shí)現(xiàn)智能計(jì)算。

演講小部分時(shí)間偏技術(shù), 但教父就是教父,整個(gè)PPT沒(méi)公式只講概念,依然把最前沿的算法思想講得清清楚楚。

全新的計(jì)算模式之所以被Hinton稱(chēng)為 Mortal computation,寓意是深刻的:

1)之前Hinton說(shuō)過(guò),永生事實(shí)上已經(jīng)實(shí)現(xiàn)。因?yàn)楫?dāng)前的AI大語(yǔ)言模型已把人類(lèi)知識(shí)學(xué)習(xí)到了千萬(wàn)億的參數(shù)里,且硬件無(wú)關(guān):只要復(fù)刻出指令兼容的硬件,同樣的代碼和模型權(quán)重在未來(lái)都可以直接運(yùn)行。在這個(gè)意義上,人類(lèi)智慧(而不是人類(lèi))永生了。

2)但是,這種軟硬件分開(kāi)的計(jì)算在實(shí)現(xiàn)的能量效率和規(guī)模上是極其低效的。如果拋棄硬件和軟件分離的計(jì)算機(jī)設(shè)計(jì)原則,把智能實(shí)現(xiàn)在一個(gè)統(tǒng)一的黑盒子里,將是實(shí)現(xiàn)智能的一種新道路。

4)這種軟硬件不再分離的計(jì)算設(shè)計(jì)將極大幅度降低能耗和計(jì)算規(guī)模(考慮一下,人腦的能耗才20瓦)

5)但同時(shí),意味著無(wú)法高效的復(fù)制權(quán)重來(lái)復(fù)制智慧,即放棄了永生。

B站傳送:【【中文精!緼I教父Hinton智源大會(huì)閉幕演講 “智能的兩種道路”-嗶哩嗶哩】

https://b23.tv/YxlsUKL

其實(shí)吧,作者對(duì)整個(gè)演講,印象最深的是Hinton在最后說(shuō)的這句:

我看不出如何防止這種情況發(fā)生,但我老了。我希望像你們這樣的許多年輕而才華橫溢的研究人員會(huì)弄清楚我們?nèi)绾螕碛羞@些超級(jí)智能

不防備看到這么一句, 一種“前輩即將離開(kāi)之際,對(duì)人類(lèi)未來(lái)不甘和對(duì)新人寄望交代”的蒼涼感撲面而來(lái),簡(jiǎn)直了。

最后,Hinton放出PPT的最后一頁(yè),THE END,真是意味深長(zhǎng)。。。作者尋思,是不是Hinton講了那么多,最后一句,才是他真想說(shuō)的...

(注:新的神經(jīng)網(wǎng)絡(luò)方法也被稱(chēng)為Forward-Forward(FF)網(wǎng)絡(luò),用以取代Hinton自己發(fā)明的現(xiàn)代所有神經(jīng)網(wǎng)絡(luò)的核心基礎(chǔ):反向傳播技術(shù)。Hinton 提出,F(xiàn)F網(wǎng)絡(luò)可能更合理地接近現(xiàn)實(shí)生活中在大腦中發(fā)生的情況。論文在22年底提出:

https://www.cs.toronto.edu/~hinton/FFA13.pdf )

主持人:

嗨,Hinton教授,很榮幸今天能請(qǐng)到您。

5月,您離開(kāi)了谷歌,以便能夠更自由地談?wù)撊斯ぶ悄軒?lái)的生存風(fēng)險(xiǎn)。我聽(tīng)說(shuō)在那個(gè)決定之后,你每隔幾秒鐘就會(huì)收到一次采訪和媒體邀請(qǐng)。因此,我們感到非常幸運(yùn),您能夠抽出時(shí)間與我們交談。

我現(xiàn)在將把它交給你來(lái)發(fā)表我們的閉幕主題演講。

我今天要談的是使我相信超級(jí)智能比我想象的要近得多的研究。

所以我想談兩個(gè)問(wèn)題,我將幾乎完全關(guān)注第一個(gè)問(wèn)題,即人工神經(jīng)網(wǎng)絡(luò)很快會(huì)比真實(shí)神經(jīng)網(wǎng)絡(luò)更智能嗎?就像我說(shuō)的那樣,我將描述使我得出結(jié)論認(rèn)為這可能很快就會(huì)發(fā)生的研究。

就在最后,我會(huì)稍微談?wù)勎覀兪欠窨梢钥刂瞥?jí)智能人工智能,但這不是談話的主題。

因此,在傳統(tǒng)計(jì)算中,計(jì)算機(jī)被設(shè)計(jì)為精確地遵循指令。我們可以在不同的物理硬件上運(yùn)行完全相同的程序或相同的神經(jīng)網(wǎng)絡(luò),因?yàn)樗鼈儽辉O(shè)計(jì)為精確地遵循指令,這意味著程序或神經(jīng)網(wǎng)絡(luò)的權(quán)重中的知識(shí)是不朽的。它不依賴(lài)于任何特定的硬件。

現(xiàn)在要實(shí)現(xiàn)這種永生需要付出高昂的代價(jià)。我們必須以高功率運(yùn)行晶體管,以便它們以數(shù)字方式運(yùn)行,我們無(wú)法利用硬件的所有豐富的模擬和高度可變的特性。

數(shù)字計(jì)算機(jī)存在的原因,以及它們精確地遵循指令的原因,是因?yàn)樗鼈兊脑O(shè)計(jì)是讓我們看到一個(gè)問(wèn)題,會(huì)弄清楚需要采取什么步驟來(lái)解決問(wèn)題,然后告訴計(jì)算機(jī)采取這些步驟。

但這已經(jīng)改變了,我們現(xiàn)在有一種讓計(jì)算機(jī)做事的不同方式,那就是從例子中學(xué)習(xí)。我們只是向他們展示我們希望他們做什么,并且由于您讓計(jì)算機(jī)做您想做的事情的方式發(fā)生了這種變化,現(xiàn)在可以放棄計(jì)算機(jī)科學(xué)最基本的原則,即軟件應(yīng)該與硬件分開(kāi)。

所以在我們放棄軟硬件分開(kāi)的原則之前,讓我們先回顧一下為什么它是一個(gè)很好的原則。

由于這種可分離性,我們可以在不同的硬件上運(yùn)行相同的程序。我們還可以擔(dān)心程序的屬性,并在神經(jīng)網(wǎng)絡(luò)上研究程序的屬性,而不必?fù)?dān)心電子學(xué),這就是為什么你可以擁有不同于電氣工程系的計(jì)算機(jī)科學(xué)系。

如果我們真的放棄軟件和硬件的分離,我們就會(huì)得到我稱(chēng)之為凡人計(jì)算的東西。

它顯然有很大的缺點(diǎn),但它也有一些巨大的優(yōu)點(diǎn),所以我開(kāi)始研究凡人計(jì)算,以便能夠以更少的能量運(yùn)行大型語(yǔ)言模型之類(lèi)的東西,特別是能夠使用更少的能量來(lái)訓(xùn)練它們。

因此,我們從放棄永生中獲得的巨大好處是放棄硬件(身體)和軟件(靈魂)的分離,我們可以節(jié)省大量能源,因?yàn)槲覀兛梢允褂梅浅5凸牡哪M計(jì)算,而這正是大腦正在做的事情。

它確實(shí)有一位數(shù)字計(jì)算,因?yàn)樯窠?jīng)元要么發(fā)射要么不發(fā)射,但大部分計(jì)算都是以模擬方式完成的,而且可以在非常低的功率下完成。

我們還可以獲得更便宜的硬件,因此目前硬件必須在2D中非常精確地制造,我們實(shí)際上可以擁有您只需在3D中生長(zhǎng)的硬件,因?yàn)槲覀儾恍枰_切地了解硬件的連接性或每個(gè)部件的確切方式有用。

顯然,要做到這一點(diǎn)將需要大量新的納米技術(shù),或者可能需要對(duì)生物神經(jīng)元進(jìn)行基因改造,因?yàn)樯锷窠?jīng)元將大致按照我們的意愿行事。

在我深入探討凡人計(jì)算的所有缺點(diǎn)之前,我只想給你一個(gè)計(jì)算示例,可以明顯的通過(guò)使用模擬硬件以更便宜的方式完成計(jì)算。

因此,如果你想將一個(gè)神經(jīng)活動(dòng)向量乘以一個(gè)權(quán)重矩陣,這就是神經(jīng)網(wǎng)絡(luò)的核心計(jì)算,大部分工作量都在這。我們目前所做的是驅(qū)動(dòng)非常高功率的晶體管來(lái)表示數(shù)字的數(shù)字表示中的位,然后我們執(zhí)行n階平方運(yùn)算將兩個(gè)n位數(shù)字相乘。

我的意思是這可能是計(jì)算機(jī)上的一個(gè)操作,但它是n平方位操作。

另一種方法是將神經(jīng)活動(dòng)實(shí)現(xiàn)為電壓和權(quán)重作為電導(dǎo),然后每單位時(shí)間電壓乘以電導(dǎo)給你一個(gè)電荷,電荷將自己加起來(lái),所以現(xiàn)在很明顯你可以如何將電壓向量乘以電導(dǎo)矩陣。

這大大提高了能源效率。以這種方式工作的芯片已經(jīng)存在。不幸的是,人們隨后所做的是嘗試使用非常昂貴的ATG轉(zhuǎn)換器將模擬答案轉(zhuǎn)換為數(shù)字答案。如果可以的話,我們希望完全留在模擬領(lǐng)域。

但問(wèn)題是不同的硬件最終會(huì)計(jì)算出略有不同的東西。

因此,凡人計(jì)算的主要問(wèn)題是,學(xué)習(xí)過(guò)程必須利用它所運(yùn)行的硬件的特定模擬屬性,而無(wú)需確切知道這些屬性是什么。

例如,不知道將神經(jīng)元的輸入與神經(jīng)元的輸出相關(guān)聯(lián)的確切函數(shù),并且可能不知道連接性。這意味著我們不能使用反向傳播算法之類(lèi)的東西來(lái)獲得梯度,因?yàn)榉聪騻鞑ナ乔跋騻鞑サ木_模型。(注:模擬計(jì)算意味著無(wú)法得到內(nèi)部的精確模型)

所以問(wèn)題是,如果我們不能使用反向傳播,我們還能做什么,因?yàn)槲覀儸F(xiàn)在都高度依賴(lài)反向傳播。

所以這里有一個(gè)非常簡(jiǎn)單明了的學(xué)習(xí)過(guò)程,人們已經(jīng)談?wù)摿撕芏唷?/p>

為網(wǎng)絡(luò)中的每個(gè)權(quán)重生成一個(gè)由小的臨時(shí)擾動(dòng)組成的隨機(jī)向量。然后你測(cè)量一個(gè)小批量示例的全局目標(biāo)函數(shù)的變化。然后你通過(guò)改進(jìn)的目標(biāo)函數(shù)去縮放擾動(dòng)向量,以永久地改變權(quán)重。

因此,如果目標(biāo)函數(shù)變得更糟,您顯然會(huì)朝另一個(gè)方向前進(jìn)。這個(gè)算法的好處是,平均而言,它的行為與反向傳播相同,因?yàn)槠骄裕裱荻。它的?wèn)題在于它具有非常高的方差。

因此,當(dāng)您選擇一個(gè)隨機(jī)方向移動(dòng)以考慮權(quán)重空間時(shí)所產(chǎn)生的噪聲與網(wǎng)絡(luò)的大小成正比。這意味著這種算法適用于少量連接,但不適用于大型網(wǎng)絡(luò)。

所以這里有一些效果更好的東西。它仍然有類(lèi)似的問(wèn)題,但比擾動(dòng)權(quán)重要好得多。那就是擾亂活動(dòng)

也就是說(shuō),您考慮對(duì)每個(gè)神經(jīng)元的總輸入進(jìn)行擾動(dòng)的隨機(jī)向量。

當(dāng)您對(duì)一小批示例進(jìn)行隨機(jī)擾動(dòng)時(shí),您會(huì)查看目標(biāo)函數(shù)會(huì)發(fā)生什么。由于這種擾動(dòng),您會(huì)得到目標(biāo)函數(shù)的差異。然后您可以計(jì)算如何更改神經(jīng)元的每個(gè)傳入權(quán)重以遵循梯度。同樣,它只是梯度的隨機(jī)估計(jì),但與擾亂權(quán)重相比,它的噪音要小得多。而且這個(gè)算法足以學(xué)習(xí)像MNIST這樣的簡(jiǎn)單任務(wù)。

如果你使用非常非常小的學(xué)習(xí)率,它的行為與反向傳播完全一樣,但速度要慢得多,因?yàn)槟阈枰褂梅浅P〉膶W(xué)習(xí)率。如果你使用更大的學(xué)習(xí)率,它會(huì)很嘈雜,但它仍然適用于像MNIST這樣的東西。但它的效果還不夠好,無(wú)法將其擴(kuò)展到大型神經(jīng)網(wǎng)絡(luò)。

那么我們可以做些什么來(lái)擴(kuò)大規(guī)模呢?

好吧,有兩種方法可以使事情規(guī);。

我們可以嘗試找到可以應(yīng)用于小型神經(jīng)網(wǎng)絡(luò)的目標(biāo)函數(shù),而不是試圖找到適用于大型神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法。

所以我們的想法是訓(xùn)練一個(gè)大的神經(jīng)網(wǎng)絡(luò)。我們要做的是有很多適用于網(wǎng)絡(luò)小部分的小目標(biāo)函數(shù)。所以每一小組神經(jīng)元都有自己的局部目標(biāo)函數(shù),F(xiàn)在可以使用這種活動(dòng)擾動(dòng)算法來(lái)學(xué)習(xí)小型多層神經(jīng)網(wǎng)絡(luò)。它將以與反向傳播大致相同的方式學(xué)習(xí),但噪聲更大。然后我們通過(guò)擁有更多小的局部神經(jīng)元組將其擴(kuò)展到更大的網(wǎng)絡(luò)。

那么這就引出了這些目標(biāo)函數(shù)從何而來(lái)的問(wèn)題。

一種可能性是對(duì)局部補(bǔ)丁進(jìn)行無(wú)監(jiān)督學(xué)習(xí),該局部補(bǔ)丁具有圖像的多個(gè)表示級(jí)別,并且每個(gè)級(jí)別都有局部補(bǔ)叮并在特定圖像上制作每個(gè)局部補(bǔ)丁,制作該局部神經(jīng)網(wǎng)絡(luò)的輸出,嘗試與所有其他局部補(bǔ)丁產(chǎn)生的平均表示一致。因此,您試圖在從本地補(bǔ)丁中提取的內(nèi)容,與從同一圖像中的所有其他本地補(bǔ)丁中提取的內(nèi)容達(dá)成一致。

這是經(jīng)典的對(duì)比學(xué)習(xí)。您還試圖不同意您為該級(jí)別的其他圖像提取的內(nèi)容。

我們?nèi)绾巫龅竭@一點(diǎn)的具體細(xì)節(jié)更加復(fù)雜,我不打算深入探討這些細(xì)節(jié)。但是我們可以讓這個(gè)算法工作得很好,每個(gè)表示級(jí)別都有幾個(gè)隱藏層,所以你可以做非線性的事情。

這些級(jí)別使用活動(dòng)擾動(dòng)貪婪地學(xué)習(xí),并且沒(méi)有反向傳播到較低級(jí)別。所以它不會(huì)像反向傳播那樣強(qiáng)大,因?yàn)樗荒芊聪騻鞑ズ芏嗪芏鄬印?/p>

Mengye Ren 為使該算法發(fā)揮作用投入了大量工作,他證明了它可以適度發(fā)揮作用。它的效果可能比提出的任何其他算法都要好,這些算法可能是現(xiàn)實(shí)的,可以在真實(shí)的神經(jīng)網(wǎng)絡(luò)中運(yùn)行。但是讓它發(fā)揮作用很棘手,而且它仍然不如反向傳播。當(dāng)你使網(wǎng)絡(luò)更深時(shí),它會(huì)變得比反向傳播更糟糕。

所以我沒(méi)有深入探討此方法的所有細(xì)節(jié),因?yàn)槟梢栽贗CLR和網(wǎng)絡(luò)上的一篇論文中閱讀它們。

那么現(xiàn)在讓我談?wù)劮踩擞?jì)算的另一個(gè)大問(wèn)題。

所以總而言之,到目前為止,我們還沒(méi)有找到一個(gè)真正好的可以利用模擬屬性的學(xué)習(xí)算法,但我們有一個(gè)學(xué)習(xí)算法還可以,并且足夠好,可以很好地學(xué)習(xí)像MNIST這樣的東西,并且學(xué)習(xí)像ImageNet這樣更大的東西,但不是很好。

所以凡人計(jì)算的第二個(gè)大問(wèn)題是它的生命有限性(Mortality)。當(dāng)一個(gè)特定的硬件死掉時(shí),它學(xué)到的所有知識(shí)也隨之死去,因?yàn)橹R(shí)和硬件的細(xì)節(jié)錯(cuò)綜復(fù)雜地糾纏在一起。因此,該問(wèn)題的最佳解決方案是在硬件失效之前,將知識(shí)從老師那里提取給學(xué)生。這就是我現(xiàn)在想做的。

教師向?qū)W生展示對(duì)各種輸入的正確反應(yīng),然后學(xué)生嘗試模仿教師的反應(yīng)。如果你看看特朗普的推文是如何運(yùn)作的,人們會(huì)非常沮喪,因?yàn)樗麄冋f(shuō)特朗普說(shuō)的是假話。他們認(rèn)為他是在試圖描述事實(shí),而事實(shí)根本不是這樣。特朗普所做的是采取一種情況并對(duì)這種情況做出反應(yīng),對(duì)這種情況做出非常情緒化的反應(yīng),這讓他的追隨者能夠接受這種情況并弄清楚如何改變他們神經(jīng)網(wǎng)絡(luò)中的權(quán)重,這樣他們就會(huì)給出對(duì)那種情況有同樣的情緒反應(yīng)。這與事實(shí)無(wú)關(guān)。那就是讓邪教領(lǐng)袖對(duì)邪教追隨者做出頑固的回應(yīng),但效果很好。

因此,如果我們考慮蒸餾的效果如何,請(qǐng)考慮將圖像分類(lèi)為大約一千個(gè)非重疊類(lèi)別的代理。

(注:模型蒸餾,最早在 2006 年由 Buciluǎ 提出。Hinton 進(jìn)行了發(fā)展并在 2015 年發(fā)表了著名的《Distilling the Knowledge in a Neural Network “從神經(jīng)網(wǎng)絡(luò)中提取知識(shí)”》。

出于計(jì)算資源的限制或效率的要求,深度學(xué)習(xí)模型在部署推斷時(shí)往往需要進(jìn)行壓縮,模型蒸餾方法將原始數(shù)據(jù)集上訓(xùn)練的重量級(jí)模型作為教師,讓一個(gè)相對(duì)更輕量(參數(shù)更少)的模型作為學(xué)生。

對(duì)于相同的輸入,讓學(xué)生輸出的概率分布盡可能的逼近教師輸出的分布,則大模型的知識(shí)就通過(guò)這種監(jiān)督訓(xùn)練的方式「蒸餾」到了小模型里。小模型的準(zhǔn)確率往往下降很小,卻能大幅度減少參數(shù)量,從而降低對(duì)硬件和和能耗的需求。

指定正確答案只需要大約10位信息。因此,當(dāng)您在訓(xùn)練示例上訓(xùn)練該代理時(shí),如果您告訴它正確的答案,您只是對(duì)網(wǎng)絡(luò)的權(quán)重施加了10位的約束。那沒(méi)有太大的限制。

但是現(xiàn)在假設(shè)我們訓(xùn)練一個(gè)agent來(lái)同意一個(gè)老師對(duì)這1024個(gè)班級(jí)給出的回答,也就是得到相同的概率分布。該分布有1023個(gè)實(shí)數(shù),這提供了數(shù)百倍的約束,假設(shè)這些概率都不是很小的。所以不久之前,我和Ori O'Vignals、Jeff Dean研究了蒸餾并證明它可以很好地工作。

確保老師的輸出概率都不小的方法是在高溫下運(yùn)行老師,并且在訓(xùn)練學(xué)生時(shí)也在高溫下運(yùn)行學(xué)生。所以你采用logits,這就是進(jìn)入softmax的東西,對(duì)于老師來(lái)說(shuō),你按溫度縮放它們,然后你得到一個(gè)更柔和的分布。你在訓(xùn)練學(xué)生時(shí)使用相同的溫度,而不是在MNIST中使用學(xué)生,只是在訓(xùn)練學(xué)生時(shí)

(注:提高溫度系數(shù)會(huì)使得輸出分布的信息熵增加)。

所以我只想給你看一個(gè)蒸餾的例子。這是來(lái)自MNIST訓(xùn)練集的兩張各種圖像。而我給大家展示的是當(dāng)你在老師身上使用高溫時(shí),老師分配給各個(gè)類(lèi)別的概率。

對(duì)于第一行,很有信心是二。如果你看第二行,它很確定那是一個(gè)二,但它也認(rèn)為它可能只是一個(gè)三或者它可能是一個(gè)八。所以如果你看一下,你會(huì)發(fā)現(xiàn)二比其他兩個(gè)更像八。如果你看第三行,特別明顯的是二很像零。老師告訴學(xué)生,當(dāng)你看到那個(gè)時(shí),你應(yīng)該說(shuō)2,但你也應(yīng)該在0上小注。

所以學(xué)生現(xiàn)在從這個(gè)例子中學(xué)到的東西比僅僅告訴它是二的要多得多。它正在學(xué)習(xí)它看起來(lái)有點(diǎn)像的其他東西。如果你看第四行,你會(huì)發(fā)現(xiàn)它非常有信心它是2,但它也認(rèn)為它可能是1的可能性非常校它真正認(rèn)為可能是一個(gè)的其他兩個(gè)都不是,也許是第一行。而我所做的就是畫(huà)出它認(rèn)為可能是的那個(gè)。所以你可以明白為什么它看起來(lái)像一個(gè),因?yàn)榕紶枙?huì)有一些像那個(gè)一樣在頂部有一點(diǎn),在底部有一點(diǎn)。也就是那種兩人長(zhǎng)得有點(diǎn)像的。然后如果你看最后一個(gè),那是老師實(shí)際上錯(cuò)了的一個(gè)。老師以為是五。根據(jù)MNIST標(biāo)簽,它實(shí)際上是一個(gè)二。

再一次,學(xué)生可以從那里老師的錯(cuò)誤中學(xué)到很多東西。

好吧,我特別喜歡蒸餾的一個(gè)特殊性質(zhì),那就是當(dāng)你用老師的概率訓(xùn)練學(xué)生時(shí),你是在訓(xùn)練學(xué)生以與老師相同的方式進(jìn)行概括。那就是通過(guò)給錯(cuò)誤答案賦予小概率來(lái)泛化到錯(cuò)誤答案。

通常當(dāng)你訓(xùn)練一個(gè)模型時(shí),你訓(xùn)練它以獲得關(guān)于訓(xùn)練數(shù)據(jù)的正確答案,然后希望它能正確地泛化到測(cè)試數(shù)據(jù)。你試著讓它不要太復(fù)雜,或者你做各種其他事情,希望它能正確概括。但是在這里,當(dāng)你訓(xùn)練學(xué)生時(shí),你是在直接訓(xùn)練學(xué)生進(jìn)行泛化,因?yàn)樗诒挥?xùn)練以與老師相同的方式進(jìn)行泛化。

顯然,您可以創(chuàng)建更豐富的蒸餾輸出,而不是給標(biāo)簽一個(gè)圖像,而是給它一個(gè)標(biāo)題,然后訓(xùn)練學(xué)生預(yù)測(cè)標(biāo)題中的單詞,和老師一樣。

我現(xiàn)在想談?wù)劥砣松鐓^(qū)如何共享知識(shí)。因此,與其考慮個(gè)體代理,不如考慮在社區(qū)內(nèi)共享知識(shí)。

事實(shí)證明,社區(qū)共享知識(shí)的方式很大程度上決定了進(jìn)行計(jì)算的方式。

有了數(shù)字模型,有了數(shù)字智能,你可以擁有一大堆使用完全相同權(quán)重副本的代理,并以完全相同的方式使用權(quán)重。

這意味著你可以采用所有這些智能體,不同的智能體可以查看訓(xùn)練數(shù)據(jù)的不同部分,它們可以為訓(xùn)練數(shù)據(jù)的這些部分的權(quán)重計(jì)算梯度,然后它們可以對(duì)它們的梯度進(jìn)行平均。

所以現(xiàn)在,每個(gè)模型都從每個(gè)模型看到的數(shù)據(jù)中學(xué)習(xí)。這意味著,你獲得了查看大量數(shù)據(jù)的巨大能力,因?yàn)槟憧梢宰屇P偷牟煌北静榭床煌臄?shù)據(jù)位,并且它們可以非常有效地共享它們學(xué)到的東西,只需共享梯度或分享權(quán)重。

如果你有一個(gè)擁有一萬(wàn)億權(quán)重的模型,這意味著每次他們共享東西時(shí)你都會(huì)獲得一萬(wàn)億位的帶寬。但這樣做的代價(jià)是你必須擁有以完全相同的方式行事的數(shù)字代理,以完全相同的方式使用權(quán)重。這對(duì)于制造和運(yùn)行而言都是非常昂貴的能源成本。

因此,使用權(quán)重共享的替代方法是使用蒸餾。

如果它們具有不同的架構(gòu),這就是我們已經(jīng)對(duì)數(shù)字模型所做的事情。但如果您的生物模型正在利用特定硬件的模擬特性,那么這就是您必須做的事情。那時(shí)你不能分享權(quán)重。所以你必須使用蒸餾來(lái)分享知識(shí)。這就是這次談話的內(nèi)容。

正如您所看到的,它不是很有效。使用蒸餾很難分享知識(shí)。我寫(xiě)句子,你試著想辦法改變你的權(quán)重,這樣你就能寫(xiě)出相同的句子。但它的帶寬遠(yuǎn)低于僅共享梯度。

每個(gè)受過(guò)教育的人都希望能夠?qū)⑺麄兯赖闹R(shí)直接灌輸?shù)綄W(xué)生的大腦中。那太好了。那將是大學(xué)的終結(jié)。但我們不會(huì)那樣工作,因?yàn)槲覀兪巧镏悄,我的?quán)重對(duì)你沒(méi)用。

(注:Hinton這里的潛臺(tái)詞是,蒸餾實(shí)際上是更符合生物智能的算法結(jié)構(gòu),因?yàn)樗蜕镆粯樱瑹o(wú)法復(fù)制另一個(gè)的權(quán)重。這讓人想起,Hinton一生致力的,都是尋找大腦工作的方式)

所以到目前為止的故事是有兩種不同的計(jì)算方法。利用數(shù)字計(jì)算和利用模擬特性的生物計(jì)算。它們?cè)诓煌碇g共享知識(shí)的效率方面有很大差異。

因此,如果您查看大型語(yǔ)言模型,它們會(huì)使用數(shù)字計(jì)算和權(quán)重共享。但是模型的每個(gè)副本,每個(gè)代理,都以非常低效的方式從文檔中獲取知識(shí)。它實(shí)際上是一種非常低效的蒸餾形式。

比如它需要一個(gè)文件,它試圖預(yù)測(cè)下一個(gè)詞。并且沒(méi)有顯示教師對(duì)下一個(gè)單詞的概率分布。它只是被顯示為一個(gè)隨機(jī)選擇。這就是文檔的作者選擇放在下一個(gè)詞中的內(nèi)容。所以這是非常低的帶寬。這就是這些大型語(yǔ)言模型向人們學(xué)習(xí)的方式。

所以每個(gè)副本通過(guò)蒸餾學(xué)習(xí)效率非常低。但是你有幾千份。這就是為什么他們比我們學(xué)到的東西多數(shù)千倍。所以我相信這些大型語(yǔ)言模型比任何人知道的都多數(shù)千倍。

現(xiàn)在的問(wèn)題是,如果這些數(shù)字智能不是通過(guò)蒸餾非常緩慢地向我們學(xué)習(xí),而是開(kāi)始直接從現(xiàn)實(shí)世界學(xué)習(xí),將會(huì)發(fā)生什么?

我應(yīng)該說(shuō),盡管他們向我們學(xué)習(xí)時(shí)升華速度很慢,但他們正在學(xué)習(xí)非常抽象的東西。所以人類(lèi)在過(guò)去的幾千年里已經(jīng)學(xué)到了很多關(guān)于這個(gè)世界的東西。這些數(shù)字智能現(xiàn)在的好處是我們可以用語(yǔ)言表達(dá)我們學(xué)到的東西(注:語(yǔ)言是我們對(duì)世界的抽象)。因此,他們可以捕捉到人類(lèi)在過(guò)去幾千年中記錄在案的關(guān)于世界的一切知識(shí)。

但是每個(gè)數(shù)字代理的帶寬仍然很低,因?yàn)樗麄冋趶奈臋n中學(xué)習(xí)。如果他們可以通過(guò)對(duì)視頻建模進(jìn)行無(wú)監(jiān)督學(xué)習(xí),例如,如果我們一旦找到一種有效的方法來(lái)訓(xùn)練這些模型來(lái)對(duì)視頻建模,他們就可以從YouTube的所有內(nèi)容中學(xué)習(xí),這是大量的數(shù)據(jù)。如果他們能夠操縱物理世界,那也會(huì)有所幫助。所以如果他們有機(jī)器人手臂等等。

但我相信,一旦這些數(shù)字代理人開(kāi)始這樣做,他們將能夠比人類(lèi)學(xué)到更多,而且他們將能夠?qū)W得非?。所以這讓我想到了我在開(kāi)頭提到的另一點(diǎn),即如果這些東西變得比我們更聰明會(huì)發(fā)生什么?

很明顯,這('超級(jí)智能會(huì)如何取得控制')就是這次會(huì)議的主要內(nèi)容。但我的主要貢獻(xiàn)只是說(shuō),我認(rèn)為這些超級(jí)智能可能比我過(guò)去認(rèn)為的要快得多。不良行為者會(huì)想利用它們來(lái)做諸如操縱選民之類(lèi)的事情。為此,他們已經(jīng)在美國(guó)和許多其他地方使用它們。為了贏得戰(zhàn)爭(zhēng)。

如果你想讓超級(jí)智能更有效率,你需要讓它創(chuàng)建子目標(biāo),F(xiàn)在,這有一個(gè)明顯的問(wèn)題。有一個(gè)非常明顯的子目標(biāo),它或多或少對(duì)你想要實(shí)現(xiàn)的任何事情都非常有幫助。那就是獲得更多的權(quán)力,獲得更多的控制權(quán)。您擁有的控制權(quán)越多,實(shí)現(xiàn)目標(biāo)就越容易。而且我發(fā)現(xiàn)很難看出我們將如何阻止數(shù)字智能試圖獲得更多控制權(quán)以實(shí)現(xiàn)他們的其他目標(biāo)。

因此,一旦他們開(kāi)始這樣做,我們就會(huì)遇到問(wèn)題。一個(gè)超級(jí)智能會(huì)發(fā)現(xiàn)很容易通過(guò)操縱人來(lái)獲得更多的權(quán)力。我們不習(xí)慣思考比我們聰明得多的事情。以及我們將如何與他們互動(dòng)。

但在我看來(lái)很明顯,它會(huì)學(xué)會(huì)非常擅長(zhǎng)欺騙人,因?yàn)樗ㄟ^(guò)在小說(shuō)和馬基雅維利等作品中看到我們欺騙他人的所有例子進(jìn)行了大量練習(xí)。一旦你非常擅長(zhǎng)欺騙人,你就可以讓人們實(shí)際執(zhí)行你喜歡的任何動(dòng)作。因此,例如,如果您想入侵華盛頓的一座建筑物,則無(wú)需前往那里。你只是欺騙人們認(rèn)為他們通過(guò)入侵大樓來(lái)拯救民主。我覺(jué)得這很可怕。

現(xiàn)在,我看不出如何防止這種情況發(fā)生,但我老了。我希望像你們這樣的許多年輕而才華橫溢的研究人員會(huì)弄清楚我們?nèi)绾螕碛羞@些超級(jí)智能,這將使我們的生活在沒(méi)有他們控制的情況下變得更好。

我們有一個(gè)優(yōu)勢(shì),一個(gè)相當(dāng)小的優(yōu)勢(shì),就是這些東西沒(méi)有進(jìn)化。我們建造了它們?赡苁且?yàn)樗鼈儧](méi)有進(jìn)化,所以它們沒(méi)有原始人所具有的競(jìng)爭(zhēng)性、攻擊性目標(biāo)。也許我們可以提供幫助。那會(huì)有所幫助。也許我們可以給他們道德原則。

但目前,我只是很緊張,因?yàn)槲也恢涝谥橇Σ罹嗪艽髸r(shí),更聰明的東西被更不聰明的東西控制的例子。我想舉的例子是假設(shè)青蛙發(fā)明了人。你認(rèn)為現(xiàn)在誰(shuí)將負(fù)責(zé),青蛙還是人民?

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港