當(dāng)前位置：人工智能實驗室> 人工智能動態(tài) > Stuart Russell：人工智能勢不可擋，行業(yè)急需變革否則容易失控

Stuart Russell：人工智能勢不可擋，行業(yè)急需變革否則容易失控
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-06-11 19:31:07 瀏覽：4360次

導(dǎo)讀：騰訊科技訊 6月10日，在2023北京智源大會上，加州大學(xué)伯克利分校計算機科學(xué)教授斯圖爾特羅素（Stuart Russell），發(fā)布了名為《AI：Some Thoughts》的演講。 Russell教授用數(shù)百次小的影響，機器會徹底改變一個人開...

科技新聞訊 6月10日，在“2023北京智源大會”上，加州大學(xué)伯克利分校計算機科學(xué)教授斯圖爾特羅素（Stuart Russell），發(fā)布了名為《AI：Some Thoughts》的演講。

Russell教授用 ”數(shù)百次小的影響，機器會徹底改變一個人“ 開常通過社交媒體偏好的影響，引出對機器智能認(rèn)知的話題。對AI價值、發(fā)展方向、語言模型、未來潛力及風(fēng)險等維度發(fā)表深度見解。他更是表示，人工智能發(fā)展勢頭不可阻擋，該行業(yè)急需要整體變革，否則未來很容易失控。

對人工智能的理解， Russell教授說到：“大眾需要轉(zhuǎn)換思路，要正確看待‘機器必須要超智能‘的觀點。并強調(diào)，不能片面強調(diào)機器的”智能“，應(yīng)向人類的絕對利益靠攏。機器必須深刻理解自身判斷的局限性，并在行動中表達和向人類尋求這種不確定應(yīng)如何解決，從而來保證人類對機器的絕對控制“。真正意義的大預(yù)言模型，在具有當(dāng)前預(yù)測文本語言能力的同時，還應(yīng)有和人類相似的，內(nèi)在目標(biāo)，來指導(dǎo)其語言選擇的能力。

被問到“大語言模型是否會制定內(nèi)部目標(biāo)以更好地模仿人類？” Russell教授回復(fù)，“如果有，它們是什么？我們不知道”。如果機器想模仿人類，那么最簡單的方法就是讓大型語言模型也具有類似的內(nèi)部目標(biāo)，這些目標(biāo)在了解許多其他目標(biāo)的背景下生成，在對話過程中被激活，指導(dǎo)輸出選擇。

Russel教授用喝咖啡、刷墻、氣候穩(wěn)定一些實際案例，闡述機器不應(yīng)內(nèi)化人類的所有目標(biāo)，而是需要理解人類目標(biāo)，并做相應(yīng)決策輔助；在理解目標(biāo)的同時，需要遵循其他目標(biāo)的限制和約束，避免達成單一目標(biāo)，犧牲其他目標(biāo)。

人工智能的進展迅猛，GPT表現(xiàn)出了某種程度上的目標(biāo)追求與目標(biāo)能力，需要對此高度重視。對于AI未來安全發(fā)展，Russell教授提出3點建議：“一要構(gòu)建能理解的AI系統(tǒng)；二要利用技術(shù)來構(gòu)建人工智能系統(tǒng)，而非涉及大量黑匣子；三要變革數(shù)字生態(tài)系統(tǒng)，防止不安全的人工智能系統(tǒng)被部署“。要解決AI可控與安全問題，發(fā)揮AI潛在益處，就需要全方位改變，不僅僅依靠監(jiān)管，還需要整個AI領(lǐng)域的文化改變，形成安全標(biāo)準(zhǔn)與行業(yè)規(guī)范，這樣才能長久穩(wěn)定的發(fā)展下去。

以下為Stuart Russell現(xiàn)場演講精華實錄：

”數(shù)百次小的影響，機器會徹底改變一個人“

在未來，隨著算法和人工智能的發(fā)展，你會成為更可被預(yù)測的內(nèi)容消費者。

社交媒體將能更準(zhǔn)確預(yù)測用戶的內(nèi)容偏好，并推送對應(yīng)內(nèi)容。許多評論員認(rèn)為，這種預(yù)測趨勢以及社交媒體推送對應(yīng)內(nèi)容的能力，已經(jīng)對許多國家造成重大社會和政治動蕩。因此，我們需要改變機器智能行為可以被預(yù)測并達成指定目標(biāo)的認(rèn)知。因為機器智能需要我們預(yù)先確定其目標(biāo)和偏好，同時，我們也必須承擔(dān)在設(shè)定目標(biāo)時出現(xiàn)錯誤的風(fēng)險。

對人工智能的理解，大眾需要轉(zhuǎn)換思路，需正確看待“機器必須要超智能“的觀點。我們需要的是對人類有益而非超級智能的機器。外星人是非常智能的，但我們并不一定希望它們來到我們的星球。我們希望的是對人類有益的機器，即使這些目標(biāo)對我們來說隱式地、不可能明確地正確地寫下來�；蛘呤俏覀儾恢赖哪承┠繕�(biāo)、某些未來的偏好。都希望可以被預(yù)期實現(xiàn)。

解決問題很難，但是這個問題是正確且必須解決的，所以，在解決的過程中，需要設(shè)計機器遵循兩個簡單的原則：

首先，機器必須為人類的最大利益行事。

其次，機器必須知道這些最大利益是什么。

由于機器對人類的偏好、對未來持有不確定性，從而給了我們對機器的實際控制權(quán)。這就是我提出該問題的核心答案。可以將這些原則轉(zhuǎn)化為數(shù)學(xué)定義的問題，稱為“輔助游戲”。這里不做詳細(xì)贅述。

當(dāng)轉(zhuǎn)化成數(shù)學(xué)問題時，這個解決方案就轉(zhuǎn)化成了我們理解的一個智能系統(tǒng)。智能系統(tǒng)會展現(xiàn)出非常理想的特性。它服從人類，在不確定我們是否會滿意這些變化的情況下，它會避免對世界進行改變。所以它會在采取可能對我們有害的激進變化前征求我們的允許。

在極端情況下，機器會避免做出任何會讓我們想要關(guān)閉它的行為。如果我們想關(guān)閉它，它也希望被關(guān)閉，這些特征是非常理想的。特別是最后一個屬性，是對機器擁有權(quán)力和控制權(quán)的核心。這種系統(tǒng)的建立是符合我們最大利益的。

接下來，簡要談?wù)劥笮驼Z言模型，個人認(rèn)為這是一個非常相關(guān)和緊迫的話題。

大型語言模型的設(shè)計目的是模仿人類的語言行為。它們被訓(xùn)練來預(yù)測下一個單詞，而這個單詞是由寫作和說話的人類產(chǎn)生的。他們擅長產(chǎn)生了非常語法和連貫的文本，普通人幾乎不可能相信，這個系統(tǒng)真的很聰明的情況下與它互動，因為文本的語法和連貫性創(chuàng)造了這種非常強大的幻覺。

當(dāng)你讀到一本書中一段寫得很好的文字時，你不會認(rèn)為這張紙很聰明。但是請記住，這些大型語言模型，在一定程度上比紙張更智能。它們在原始生成者和紙張之間的某個地方，但我們確實不知道它們在該光譜上的位置，但它們提供了非常強大的錯覺，就像紙張通過展示人類編寫的智能文本一樣。

這里有個重要觀點人類語言行為。我們在寫作和說話中有著各種各樣的目標(biāo)，可能是想當(dāng)選高級公職、可能是想變得富有、可能是想讓某個人愛上你。這些都是人們在寫作和說話時具有的目標(biāo)。

如果機器想模仿人類，那么最簡單的方法就是讓大型語言模型也具有類似的內(nèi)部目標(biāo)，這些目標(biāo)在對話過程中被激活，指導(dǎo)著你的輸出選擇。就像我們訓(xùn)練一名足球運動員踢球一樣，它會迅速學(xué)習(xí)到它應(yīng)該試圖進球。這是它通過觀察人類踢球行為學(xué)到的內(nèi)部目標(biāo)。

大型語言模型是否具有內(nèi)部目標(biāo)？我問了微軟論文《AGI的火花》的作者，答案是，我們不知道。

我們正在部署聲稱具有AGI火花的系統(tǒng)，這些系統(tǒng)與可能追求自己內(nèi)在目標(biāo)，與數(shù)億人互動。在AI安全的當(dāng)前狀況，我們知道會發(fā)生什么，這些大型語言模型是否真的與人類保持一致。如果它們正在模仿人類行為，也許會產(chǎn)生一致性，這將是一個巨大的巧合。但遺憾的是，事實并非如此。

以人類喝咖啡的目標(biāo)為例。AI系統(tǒng)系統(tǒng)獲得喝咖啡的目標(biāo)，這不是我們想要的。我希望機器人理解我想要咖啡，并為我泡一杯咖啡，而不是理解成它要喝咖啡。人工智能系統(tǒng)應(yīng)理解人類目標(biāo)，并基于此采取行動滿足人類需求。我們不希望人工智能系統(tǒng)復(fù)制和內(nèi)化人類目標(biāo)，特別是那些可能成為“宇宙主宰”的目標(biāo)。

另一種類型的目標(biāo)，這是我可以接受的。比如我想刷墻，不介意機器人也一起想刷墻，這樣就有兩個人一起刷墻。比如減緩氣候變化，其他人這樣做也很好，但不是以排除其他所有事情為代價。如果系統(tǒng)通過刪除所有人類來追求減緩氣候變化的目標(biāo)，即使這是一種非常有效的減緩氣候變化的方式，但這并不是我們想要的。

共同目標(biāo)，是我們了解許多其他目標(biāo)的背景下共同追求的。

GPT是否真的能夠追求目標(biāo)？可以問問紐約時報記者凱文(Kevin)，他曾經(jīng)和一個聊天機器人進行了一次對話，聊天機器人非常努力地試圖說服凱文離開他的妻子并娶聊天機器人，它在20頁的聊天中連續(xù)不斷地追求這個目標(biāo)。從總體上看，它們是可以追求目標(biāo)的，并且它們具有內(nèi)在的目標(biāo)。

在2015年，我寫了一封虛構(gòu)的電子郵件，警告人類說，外星文明將在30-50年后到達地球。一封寄給聯(lián)合國人類的電子郵件，人類的回復(fù)是：“人類目前不在辦公室。我們回來的時候會回復(fù)您的郵件，并附上一個笑臉“。這是我在2015年感覺AGI很有可能在30-50年內(nèi)到來的原因，而人類卻沒注意。

自那以后，GPT4被發(fā)布，約一周后，"火花"論文被發(fā)布，接著，未來生命研究所發(fā)布了一封公開信，呼吁暫停開發(fā)比GPT4更強大的系統(tǒng)的實驗。

我認(rèn)為人類最終回到了辦公室。他們看到了來自外星文明的電子郵件，感到非常震驚，意識到必須采取行動，于是他們做了很多事情。中國政府已經(jīng)作出了回應(yīng)，美國政府也采取行動，歐盟呼吁召開緊急全球峰會。像Jeff Hinton這樣的領(lǐng)先研究人員已經(jīng)辭去了Google的職務(wù)，表達了他對AGI和人類未來的擔(dān)憂。正如你們所看到的，Sam也對安全問題表示非常嚴(yán)重的關(guān)注。

對于AI發(fā)展，我也提出幾個關(guān)于政策的建議。

首先，構(gòu)建我們能夠理解的AI系統(tǒng)。我們并不理解大型語言模型的工作原理。為了對安全性有信心，我們需要了解它的工作原理。

其次，利用技術(shù)來構(gòu)建人工智能系統(tǒng)，而不涉及大量黑匣子。這些系統(tǒng)是基于語義、嚴(yán)格、組合式的系統(tǒng)設(shè)計訓(xùn)練的，而不是基于巨大的、超過人類能力的數(shù)據(jù)集。

再次，防止不安全的人工智能系統(tǒng)被部署，特別是由不良行為者故意或意外地部署。這需要整個數(shù)字生態(tài)系統(tǒng)的變革，從目前服務(wù)器運行任何軟件的模式轉(zhuǎn)變?yōu)橛嬎銠C只有在知道該軟件對象是安全的情況下才能運行。變革可以簡化通用的網(wǎng)絡(luò)安全問題，但是對于確保只有安全的人工智能系統(tǒng)被部署是必不可少的。

總的來說，人工智能對于人類有著潛在的巨大益處，其發(fā)展勢頭不可阻擋，但也存在失控風(fēng)險。如果我們繼續(xù)朝這個方向發(fā)展，將失去對自己未來的控制。我們也可以選擇不同的方向，但技術(shù)方向的可行性和規(guī)�；膶嵱眯�，仍需進行大量的研究。

此外，該領(lǐng)域的整體性質(zhì)需要發(fā)生重大變革。就像航空、核能等領(lǐng)域一樣，必須在發(fā)布前滿足嚴(yán)格的規(guī)定和安全標(biāo)準(zhǔn)才能投入使用，人工智能領(lǐng)域也需要如此。

這種變革不僅需要監(jiān)管規(guī)定，還需要對我們這個領(lǐng)域的文化進行全面的變革。

謝謝大家！