當(dāng)前位置：人工智能實驗室> 人工智能動態(tài) > 無人能構(gòu)想出人工智能的未來 | 對話伯克利頂級學(xué)者 Stuart Russell

無人能構(gòu)想出人工智能的未來 | 對話伯克利頂級學(xué)者 Stuart Russell
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-07-21 13:31:50 瀏覽：13889次

導(dǎo)讀：作者 | 王啟隆責(zé)編 | 袁藝出品 | 《新程序員編輯部》在人工智能學(xué)界的經(jīng)典著作中，這兩本書有資格稱得上學(xué)界圣經(jīng)。一本是 Ian Goodfellow（生成對抗網(wǎng)絡(luò)之父）的《深度學(xué)習(xí)》，還有一本，在業(yè)內(nèi)常被簡稱為AIMA。這本比磚頭還要厚的AIMA，全稱《人工智能...

作者 | 王啟隆

責(zé)編 | 袁藝

出品 | 《新程序員編輯部》

在人工智能學(xué)界的經(jīng)典著作中，這兩本書有資格稱得上學(xué)界圣經(jīng)。一本是 Ian Goodfellow（生成對抗網(wǎng)絡(luò)之父）的《深度學(xué)習(xí)》，還有一本，在業(yè)內(nèi)常被簡稱為“AIMA”。

這本比磚頭還要厚的“AIMA”，全稱《人工智能：現(xiàn)代方法》（Artificial Intelligence: A Modern Approach，如圖 1 所示）。不少人工智能學(xué)科的教授，會在學(xué)期必讀清單中列上“AIMA”。這部 1995 年首次出版的 AI 讀物，至今已經(jīng)四次重印，成為全球 135 個國家的 1500 多所高等院校使用的教材。

圖 1 人工智能學(xué)界的兩本經(jīng)典讀物

“AIMA”的合著者之一 Stuart Russell（見圖 2）是人工智能領(lǐng)域的領(lǐng)軍人物，他同時擔(dān)任加州大學(xué)伯克利分校人類兼容人工智能中心（Center for Human-Compatible AI）的創(chuàng)始人和伯克利計算機科學(xué)專業(yè)的教授。

AI 的發(fā)展帶來了各種各樣的危機討論，近年來，Stuart Russell 一直為 AI 潛在風(fēng)險奔走。他不僅簽署了埃隆馬斯克 (Elon Musk)、史蒂夫沃茲尼亞克 (Steve Wozniak) 等人牽頭的建議放緩 AI 研究進(jìn)程公開信，還主動奔赴更多公眾可見的場合，以警告 AI 的潛在風(fēng)險。

圖 2 CSDN x Russell 的面對面對話

CSDN《新程序員》在智源大會上與 Stuart Russell 教授進(jìn)行了深入對話，了解他對 AI 技術(shù)發(fā)展方向的思考與顧慮，并得到了以下回答：

輔助游戲的概念為人機交互設(shè)計提供了一種指導(dǎo)原則：即使系統(tǒng)不完全了解人類的具體意圖，AI 系統(tǒng)在執(zhí)行任務(wù)時也要優(yōu)先考慮人類的利益和需求。

我嘗試過讓經(jīng)濟學(xué)家、科幻作家和人工智能研究人員們描繪出一個理想而美好的烏托邦未來，但沒人能夠做到。實際上，絕大多數(shù)人可能并不希望生活在一個凡事都被 AI 取代的世界。

每當(dāng)涉及黑盒模型時，情況就會變得奇怪，因為我們不了解它們的內(nèi)部工作原理。所以，我們試圖像對待動物一樣讓大模型提供幫助，這個過程被稱為“從人類反饋中進(jìn)行的強化學(xué)習(xí)”（RLHF）。

AI 系統(tǒng)有能力解決人類偏好中的不確定性問題，它們可以從文獻(xiàn)中考察出更加全面的信息，實現(xiàn)人類從未達(dá)成的愿景。

如果你想獲得這本《人工智能：現(xiàn)代方法》，請翻閱至文末參與互動！

AI 通過模擬人類的復(fù)雜性來實現(xiàn)智能

Russell 教授在《人工智能：現(xiàn)代方法》中，深入探討了人機交互的問題，并提出了一種叫做“輔助游戲”（Assistance Games）的數(shù)學(xué)框架，來幫助我們理解人與機器復(fù)雜的互動過程，并總結(jié)出了構(gòu)建安全人工智能的 3 條原則：

AI 系統(tǒng)的唯一任務(wù)就是盡力滿足人類的需求和愿望。

設(shè)計者必須保證 AI 系統(tǒng)并不事先知道人類具體想要什么，AI 系統(tǒng)需要通過與人類的互動和觀察，來推斷人類的偏好。

AI 系統(tǒng)在通過觀察推斷出人類偏好后，需要繼續(xù)優(yōu)化行為和決策。

《新程序員》：您曾于書中建議，在 AI 系統(tǒng)中引入不確定性，加強 AI 系統(tǒng)對人類偏好的學(xué)習(xí)和理解。這是否要求 AI 系統(tǒng)和人的交互應(yīng)該更復(fù)雜、更深入，讓 AI 全面地了解人類決策和行動的邏輯？

Russell：我認(rèn)為“復(fù)雜”一詞不適用于形容人機交互的發(fā)展方向，或者說人類本身就是在復(fù)雜交互中處理問題，AI 也在不斷學(xué)習(xí)人類處理問題的模式。

讓我舉一個常見的例子：當(dāng)一位食客走進(jìn)餐廳，餐廳如何能夠快速了解食客的需求？

傳統(tǒng)的方式是向食客提供菜單，讓食客自行選擇自己想要的菜品。這個過程不復(fù)雜，是通過雙方的共同協(xié)作，降低了需求匹配的難度。這就是人機交互的基本原則：AI 系統(tǒng)會了解用戶的偏好，并表現(xiàn)得和人一樣，執(zhí)行既定的任務(wù)。

這項基本原則已經(jīng)實際應(yīng)用到了生活當(dāng)中：當(dāng)我預(yù)訂飛機座位時，機場的航班系統(tǒng)會問我要靠窗還是靠過道，我一般會選靠過道，有些人則喜歡靠窗。這個航班系統(tǒng)的交互并不復(fù)雜，是一種非常自然的行為。

那么，在計算機系統(tǒng)已經(jīng)記錄了用戶偏好的情況下，我們就會采用傳統(tǒng)的交互方式，讓 AI 執(zhí)行既定任務(wù)。但是，在現(xiàn)實世界中，每個人的偏好都存在不確定性。

無論是個人 AI 助理、家用機器人還是自動駕駛汽車，都需要根據(jù)不同用戶的偏好改變行為策略。一位優(yōu)秀的人類出租車司機，會根據(jù)乘客的情況調(diào)整駕駛方式，比如說在遇到老年乘客的時候，避免急剎或急轉(zhuǎn)彎，或者是在乘客攜帶嬰幼兒的時候，選擇能夠平穩(wěn)駕駛的路線，以減少他們在后排乘坐時的不適。

所以，自動駕駛 AI 的發(fā)展方向就應(yīng)該是具備優(yōu)秀的人類司機相同的特質(zhì)。

在人機交互設(shè)計中，通常會針對特定的場景（例如購買機票或駕駛汽車）進(jìn)行設(shè)計交互。設(shè)計師會創(chuàng)建一個腳本，而汽車或機票銷售系統(tǒng)會按照這個腳本進(jìn)行操作。這個腳本告訴系統(tǒng)應(yīng)該展示給用戶什么信息，用戶如何進(jìn)行操作等等。目前，設(shè)計交互主要依賴于設(shè)計師的直覺和個人經(jīng)驗，一些人在設(shè)計交互方面擅長，而一些人則不太擅長，并沒有太多理論可以告訴他們?nèi)绾芜M(jìn)行設(shè)計。

但是，我書中講到的輔助游戲就是一種來指導(dǎo)設(shè)計交互的方法論。

輔助游戲的概念為人機交互設(shè)計提供了一種指導(dǎo)原則，使得設(shè)計師能夠在設(shè)計交互時明確系統(tǒng)應(yīng)該如何盡可能地對人類提供幫助。這一概念強調(diào)，即使系統(tǒng)不完全了解人類的具體意圖，AI 系統(tǒng)在執(zhí)行任務(wù)時也要優(yōu)先考慮人類的利益和需求。通過定義輔助游戲，我們可以提供一種理論基礎(chǔ)來指導(dǎo)設(shè)計師進(jìn)行交互設(shè)計，使得設(shè)計更加符合人類的期望和需求。

無人能構(gòu)想出人工智能的未來

人工智能未來仍會經(jīng)歷波折，各種潮流、觀點也會紛爭喧囂，但沉淀下來的是雋永的思想。

Stuart Russell

CSDN 社區(qū)、Russell 的中國行、這篇文章的誕生，皆依賴于無處不在的互聯(lián)網(wǎng)。當(dāng)我們回顧互聯(lián)網(wǎng)標(biāo)準(zhǔn)制定的歷史時，便可以從中得出一個重要的啟示：用戶參與在科技發(fā)展和決策過程中的重要性。

在互聯(lián)網(wǎng)標(biāo)準(zhǔn)的制定過程中，人們很快發(fā)現(xiàn)，要使這些設(shè)備相互通信并不容易。這時，一個名為 IETF（互聯(lián)網(wǎng)工程任務(wù)組）的組織誕生了。IETF 的成員們來自不同領(lǐng)域、不同國家，他們代表了廣泛的利益相關(guān)者，通過討論、共享意見和達(dá)成共識，共同推動互聯(lián)網(wǎng)的發(fā)展和標(biāo)準(zhǔn)的制定。這個過程是開放的、透明的，并且重視各方的參與。

類似地，當(dāng)我們談到公眾參與 AI 開發(fā)和決策過程時，同樣需要考慮廣泛的利益相關(guān)者，包括公眾、學(xué)者、工程師、決策者等等。AI 的發(fā)展涉及到眾多的道德、社會和法律問題，如隱私保護(hù)、數(shù)據(jù)安全、算法偏見等。為了確保 AI 技術(shù)的發(fā)展符合公眾的期望和價值觀，公眾參與至關(guān)重要真是如此嗎？

《新程序員》：您如何看待公眾參與 AI 開發(fā)和決策過程的重要性？我們要如何確保公眾可以在 AI 的參與、應(yīng)用和發(fā)展方面有更多話語權(quán)呢？

Russell：這是一個有趣且復(fù)雜的問題。我想稍微退后一步反問：如果把這個問題里的“AI”換成別的名詞，又當(dāng)如何呢？比如汽車也很重要，但為什么汽車的外觀設(shè)計是由商業(yè)公司完成的？是誰規(guī)定民眾不能設(shè)計汽車呢？

但其實相比于廣泛的公眾，企業(yè)更愿意聽取目標(biāo)用戶的意見，畢竟如果用戶不喜歡且不購買產(chǎn)品，那么公司就會倒閉。因此，汽車公司會努力設(shè)計符合目標(biāo)用戶喜好的產(chǎn)品，并通過市場調(diào)研等方式了解大眾對產(chǎn)品的喜好。所以，人工智能領(lǐng)域會通過用戶的實際行為輔助決策。

但出于某種原因，現(xiàn)在有很多人會提出類似于你這樣的問題，他們都認(rèn)為人工智能需要公眾的參與和包容性，這又是為什么呢？有一個可能的答案是：我們在內(nèi)心深處認(rèn)為AI 不像汽車，因為AI 會更加深刻地影響人類的未來。

從這個角度思考的話，我們就會面臨一個問題：那些創(chuàng)造 AI 的公司，為什么可以主動影響人類的文明和未來？我們是不是應(yīng)該讓自己來描繪自己想要的世界？

那么，既然要讓公眾參與，不如現(xiàn)在就開始想象：在未來，一個通用人工智能（AGI）或接近 AGI 的技術(shù)能夠完成當(dāng)前人類從事的幾乎所有工作，以此為基礎(chǔ)，現(xiàn)在請你通過想象把這個完整的畫面補充完整，給我描繪一個你希望自己的孩子成長的世界。我曾嘗試向經(jīng)濟學(xué)家、科幻作家和人工智能研究人員提出同樣的問題，但沒有人能夠給出具體的描述。

《新程序員》：根據(jù)皮克斯的想象，我們可能會在未來成為《瓦力》（《Wall-E》，又譯《機器人總動員》）里坐在漂浮椅子上的胖子（如圖 3 所示），對吧？

Russell：Wall-E 是人們擔(dān)心的眾多反烏托邦式未來之一，但沒人能描述出烏托邦版本的未來是什么樣子的。我問過各種各樣的人，但哪怕是那些從事解答此類問題的專家，也無法想象要怎么在未來的地球上建立一個理想的烏托邦。

圖 3 電影《瓦力》中無法行走的人類

在我看來，絕大多數(shù)人并不希望生活在一個由AI 代替人類執(zhí)行思考的世界。在諸如計算、博弈等智力成就的領(lǐng)域，AI 系統(tǒng)已經(jīng)遠(yuǎn)遠(yuǎn)超過了人類。然而，盡管計算機在國際象棋方面勝過人類，但國際象棋仍然很流行，因為它是一種消遣，是一種游戲，是日常生活的點綴。

我們正處于一輛行駛的巴士上，司機能開車只是因為他們碰巧能夠掌握這項技術(shù)。作為這輛巴士的乘客，我認(rèn)為擔(dān)心未來的前進(jìn)方向是非常合理的。

“馴服”大語言模型之前

讓我們先學(xué)習(xí)怎么馴服動物

對于人工智能，人類應(yīng)該處在控制地位。

Stuart Russell

《新程序員》：想用好 GPT 離不開優(yōu)秀的提示詞（Prompt）。您認(rèn)為提示工程成功的關(guān)鍵原則或策略是什么？你相信以后會存在“完美提示詞”或最佳解決方案嗎？

Russell：我不認(rèn)為存在任何從工程學(xué)角度指導(dǎo)提示工程的原則，但提示工程確實可以借鑒傳統(tǒng)工程的經(jīng)驗。我的研究團(tuán)隊中有一位科學(xué)家曾花了很多時間與 GPT 一起工作，試圖命令它做一些事情。他相信，如果禮貌地請求 GPT，輸出效果會更好。

但是天吶，為什么我們要對機器說“請”呢？為什么僅僅在提示中加個“請”，就能讓機器展現(xiàn)完全不同的行為？這些都是基于我們的實踐經(jīng)驗得出的觀察，相當(dāng)令人費解。

我曾提出過一個假設(shè)：這些AI 系統(tǒng)可能存在多重人格的現(xiàn)象，它們的訓(xùn)練目的是模仿許多不同的人類個體。從技術(shù)角度來看，我們通常稱之為混合模型。實際上，混合模型是多個預(yù)測器的綜合，每個預(yù)測器都為特定類型的文本設(shè)計。想象一下，如果我們用英語和中文進(jìn)行訓(xùn)練，我們就可以得到兩個高效的模型，一個在英語上表現(xiàn)突出，另一個在中文上出類拔萃。但實際情況是，現(xiàn)在存在著數(shù)以萬計的各種模型和大量的文本內(nèi)容，包括籃球比賽報道、議會演講記錄、浪漫小說描寫和情書等，多不勝數(shù)。你很難歸納出模型中的哪些文本為你提供了價值。

據(jù)我判斷，這些禮貌行為引發(fā)的效果，是因為它們激發(fā)了 AI 系統(tǒng)中“圖書管理員”的人格。我們期望系統(tǒng)的這些組成部分更有可能提供有價值、具有廣博知識并盡力給出正確回答的預(yù)測，主要是因為不同類型的文本和對話與這類模型的模式相匹配。當(dāng)然，這僅僅是一種假設(shè)。

因為我們不了解黑盒的內(nèi)部工作原理，所以每當(dāng)涉及黑盒模型時，情況就會變得奇怪。我們現(xiàn)在試圖像對待動物一樣讓大型模型提供幫助，這個過程被稱為“從人類反饋中進(jìn)行的強化學(xué)習(xí)”（RLHF）。

眾所周知，如果你想命令馬，就必須保持友善，禮貌地對待它；反之，要是你去踢它或虐待它，馬就不會幫助你。人類在上千年以前就為這個過程發(fā)明了一個詞，叫“馴服”。而現(xiàn)在我們對 AI 說“請”，就是寄希望于 AI 能感受到人類的禮貌，從而產(chǎn)生更精準(zhǔn)的答案。當(dāng)這些模型展現(xiàn)出我們不喜歡的行為時，我們對待它們的方式就要像對待不聽話的狗一樣。

對齊問題的解決關(guān)鍵是讓 AI 真正消化完信息

我是否曾請求你，造物主，用我的黏土塑造我成人？（Did I request thee, Maker, from my clay to mould me Man?）

《失樂園》的這句話，被瑪麗雪萊引用在《弗蘭肯斯坦》的扉頁中。小說中，維克多弗蘭肯斯坦創(chuàng)造了怪物，但卻無法理解其內(nèi)心和意圖，導(dǎo)致了沖突和悲劇。

拋開那些關(guān)于怪物的故事，一個更加悲劇性的創(chuàng)造正在現(xiàn)實世界中默默醞釀：人類汲取了最深邃的智慧，凝聚于人工智能的形態(tài)，將技術(shù)置身于一個前所未有的境地。然而，我們是否能夠確保這些新生的智能體與我們和諧共處，使其對人類價值觀、道德原則和利益體系保持一致？

這就是“對齊”問題，AI 技術(shù)的前沿術(shù)語。實現(xiàn)“對齊”意味著要求 AI 系統(tǒng)的目標(biāo)和人類的價值觀與利益相對齊，這既具有科技的復(fù)雜性，又蘊含著道德與倫理的重大考驗。我們必須謹(jǐn)慎行事，以免引發(fā)創(chuàng)造出現(xiàn)代版“弗蘭肯斯坦”的悲劇。

《新程序員》：人類的技術(shù)、倫理和法律并不是在一朝一夕之內(nèi)形成的，歷史長河中的每一次進(jìn)步成就了如今的人類歷史。那么，人工智能在演化過程中是否有可能效仿人類，通過漫長的時間逐漸形成人類現(xiàn)在的價值觀？這是否可以解決 AI 對齊問題？

Russell：我認(rèn)為對齊問題并不意味著要構(gòu)建與人類價值完全一致的 AI 系統(tǒng)，因為這是不可能的。對齊問題的本意是避免不對齊（misalignment）。

那么，如何構(gòu)建一個不與人類價值觀失調(diào)的系統(tǒng)呢？我認(rèn)為解決方法是去構(gòu)建一個“知道自己不知道人類價值觀的系統(tǒng)”。在演變過程中，系統(tǒng)會逐漸產(chǎn)生一些更好的想法，從而有助于我們的文明。

再讓我們談?wù)剬R問題的關(guān)鍵點AI 系統(tǒng)究竟能否解決人類偏好中的不確定性問題呢？我認(rèn)為是可以的。因為現(xiàn)在有一個顯而易見的事實：訓(xùn)練 AI 系統(tǒng)的文本已經(jīng)包含了大量關(guān)于人類偏好的信息。

縱觀人類歷史，我們會發(fā)現(xiàn)世界上最早的重要文本之一是楔形文字，上面記錄了原始人進(jìn)行了關(guān)于玉米和駱駝交易的會計記錄，這份看似枯燥的會計記錄中蘊含了豐富的信息。

首先，這份楔形文字記錄了兩河流域文明中駱駝和玉米的相對價值，以及匕首、銅幣等其他物品的價值，這些有趣的信息體現(xiàn)了古代人類的偏好。此外，他們選擇將這些信息記錄下來，證明了古代人類對于誠信交換貨物和可驗證交易的重視。楔形文字所使用的泥板非常昂貴，經(jīng)過燒制，記錄便可以永久保存，我喜歡將其比喻為公元前 4000 年的區(qū)塊鏈。古代人類選擇這種方式來記錄這些信息，而這個選擇本身是極具信息量的，因為它體現(xiàn)了人類最早產(chǎn)生的偏好。

但和楔形文字不一樣的是，沒人能從大語言模型的訓(xùn)練過程中提取出任何信息。這就引申出另一個有趣的問題：大語言模型是否能夠直接把它龐大知識庫中的任何信息告訴我們？我懷疑答案是否定的。

那些人類所關(guān)心的話題生命、健康、孩子、父母、衣食住行被記載在了無數(shù)本經(jīng)濟學(xué)、發(fā)展學(xué)和心理學(xué)領(lǐng)域的學(xué)術(shù)文獻(xiàn)中。但我懷疑，人類對這些信息的記錄可能并不完整。比方說，大部分文獻(xiàn)很少會詳細(xì)描述左腿的重要性。然而，在專業(yè)醫(yī)學(xué)領(lǐng)域中，當(dāng)醫(yī)生面臨要不要切除患者左腿以防止癌癥或壞疽擴散到其他部位的時候，就需要大量關(guān)于人類左腿的研究。這就是醫(yī)生真正需要思考的決策，他們需要衡量左腿對患者有多大的價值。

因此，AI 模型龐大的數(shù)據(jù)資源中包含了大量關(guān)于人類偏好的信息。我不確定這些AI 系統(tǒng)是否意識到了自己內(nèi)部數(shù)據(jù)的重要性。但是，假如通過誘導(dǎo)，我們或許可以讓 AI 模型以列清單的方式主動把這些黑盒子里的數(shù)據(jù)說出來。當(dāng)然，這些只是我的一種假設(shè)，目前尚無人進(jìn)行過這樣的實驗。

非常感謝你提的這些有趣問題，我很享受這場對話。