當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能動態(tài) > 十年內(nèi)出現(xiàn)AGI？下一代Gemini能感知環(huán)境？DeepMind CEO哈薩比斯暢談AI

十年內(nèi)出現(xiàn)AGI？下一代Gemini能感知環(huán)境？DeepMind CEO哈薩比斯暢談AI
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-03-04 08:55:56 瀏覽：4037次

導(dǎo)讀：機(jī)器之心報(bào)道編輯：Panda 智能本質(zhì)、對齊、Gemini、超人類AI和多模態(tài)、AGI在這場干貨滿滿的訪談中，Demis Hassabis可謂「知無不言、言無不...

機(jī)器之心報(bào)道

編輯：Panda

智能本質(zhì)、對齊、Gemini、超人類AI和多模態(tài)、AGI……在這場干貨滿滿的訪談中，Demis Hassabis可謂「知無不言、言無不竟。

「如果我們在未來十年內(nèi)擁有類似 AGI 的系統(tǒng)，我不會感到驚訝。」Google DeepMind 聯(lián)合創(chuàng)始人和 CEO Demis Hassabis 近日在人工智能播客節(jié)目 Dwarkesh Podcast 上如是說。

在長達(dá)一個(gè)小時(shí)的節(jié)目中，Hassabis 分享了自己對智能本質(zhì)、強(qiáng)化學(xué)習(xí)、規(guī)模擴(kuò)展和對齊、AGI、多模態(tài)等主題的看法。機(jī)器之心選擇性地整理了其中的主要內(nèi)容并進(jìn)行了適當(dāng)編輯以便閱讀。

01 智能的本質(zhì)

Dwarkesh Patel：第一個(gè)問題：您有神經(jīng)科學(xué)背景，那么您是怎么看待智能的？

Demis Hassabis：這個(gè)問題很有趣。智能非常寬泛，可普遍用于各種用途。我認(rèn)為這說明對于大腦處理我們周圍世界的方式，必然存在某種高層級的共同之處，算法層面的共同之處。當(dāng)然，大腦中有做特定事情的特定部分，但我認(rèn)為所有這些事情下面可能有一些基本原則作為支撐。

Dwarkesh Patel：您怎么看待這一事實(shí)：對于現(xiàn)在的 LLM，當(dāng)你向其提供大量特定領(lǐng)域的數(shù)據(jù)時(shí)，它們往往會在那個(gè)領(lǐng)域變得格外地好？難道不能在所有不同領(lǐng)域上實(shí)現(xiàn)普遍提升嗎？

Demis Hassabis：首先，我認(rèn)為當(dāng)在某個(gè)領(lǐng)域內(nèi)獲得提升時(shí)，有時(shí)候也會在其它領(lǐng)域獲得出人意料的提升。舉個(gè)例子，當(dāng)這些大模型的編程能力提升時(shí)，它們的一般推理能力實(shí)際上也能得到提升。所以現(xiàn)在是有一定的遷移學(xué)習(xí)的證據(jù)。而且這也是人腦學(xué)習(xí)的方式。如果我們大量經(jīng)歷或練習(xí)象棋或?qū)懽鞯仁马?xiàng)，我們就會越來越擅長對應(yīng)的事情，即便我們是使用某種通用學(xué)習(xí)技術(shù)和通用學(xué)習(xí)系統(tǒng)來學(xué)習(xí)某個(gè)特定的領(lǐng)域。

Dwarkesh Patel：以語言和編程為例，在神經(jīng)網(wǎng)絡(luò)中，是否存在某種地方存在某種機(jī)制讓模型的語言和編程能力一起提升？

Demis Hassabis：我們目前的分析技術(shù)還不足以確定這一點(diǎn)。實(shí)際上，對于這些系統(tǒng)構(gòu)建的表征的機(jī)制分析，還有待大量研究。我有時(shí)候把這稱為虛擬腦分析（virtual brain analytics）。從某個(gè)方面看，這有點(diǎn)像是 fMRI，或者記錄真實(shí)大腦中單個(gè)細(xì)胞的活動。對于這類分析技術(shù)，可以怎樣將其類比到人造心智呢？這方面有很多出色的研究成果。比如 Chris Olah 就在研究這個(gè)，我很喜歡他的研究。有很多計(jì)算神經(jīng)科學(xué)的技術(shù)可以引入過來分析我們目前正在構(gòu)建的這些系統(tǒng)。事實(shí)上，我也在努力鼓勵我在計(jì)算神經(jīng)科學(xué)領(lǐng)域的朋友思考這個(gè)方向，應(yīng)用他們的所學(xué)來理解大型模型。

Dwarkesh Patel：由于您有神經(jīng)科學(xué)背景，您多半了解一些其他 AI 研究者不太了解的有關(guān)人類智能的知識。這方面的知識有哪些？

Demis Hassabis：神經(jīng)科學(xué)的助益很大�？纯催^去一二十年的研究就能知道。事實(shí)上我已經(jīng)思考這些三十多年了。在這新的一輪 AI 浪潮早期，神經(jīng)科學(xué)提供了大量有趣的引導(dǎo)性線索。于是出現(xiàn)了強(qiáng)化學(xué)習(xí)以及深度學(xué)習(xí)等技術(shù)。我們在這方面也有一些開創(chuàng)性的研究成果，比如經(jīng)歷重放（experience replay）以及已經(jīng)變得非常重要的注意力（attention）概念。很多這些成果的初始靈感都是來自對大腦工作方式的理解，當(dāng)然它們并不完全一樣。一種是工程開發(fā)出的系統(tǒng)，另一種是自然的系統(tǒng)。它們并不是某種算法的一對一映射，而更像是某種指示方向的靈感或許是某種架構(gòu)思想，或者算法思想或表征思想。畢竟大腦本身就是通用智能存在的證據(jù)。人類就是這樣的，一旦知道某件事是可能的，就更容易朝那個(gè)方向努力，因?yàn)槟阒肋@就是一個(gè)努力進(jìn)取直到某時(shí)取得成功的問題，而不是能否成功的問題。這能讓人更快地取得進(jìn)展。

我認(rèn)為在如今成功的背后，神經(jīng)科學(xué)啟迪了很多人的思考，至少是間接的。至于未來，我認(rèn)為在規(guī)劃方面還有很多有趣的問題有待解決。還有大腦是以何種方式構(gòu)建出了正確的世界模型？舉個(gè)例子，我研究過大腦是如何進(jìn)行想象的，你也可以將這看作是心智模擬。我們就會問：為了執(zhí)行更好的規(guī)劃，我們是以怎樣的方式創(chuàng)建了對于世界的非常豐富的視覺空間模擬？

02 LLM 之上的強(qiáng)化學(xué)習(xí)

Dwarkesh Patel：LLM 能否具備這種類似樹搜索的能力？您對此怎么看？

Demis Hassabis：我認(rèn)為這是一個(gè)非常有潛力的研究方向。我們在持續(xù)不斷地提升大型模型，讓它們成為越來越準(zhǔn)確的世界預(yù)測器。在效果上，就是讓它們成為越來越可靠的世界模型。這明顯是必要的，但我認(rèn)為這可能并不是 AGI 系統(tǒng)的充分條件。在這之外，我們還在研究 AlphaZero 這樣的規(guī)劃機(jī)制其可使用模型執(zhí)行明確的規(guī)劃，從而在世界中實(shí)現(xiàn)特定的目標(biāo)。另外可能還會搭配某種鏈?zhǔn)剿季S或推理路徑，也可能使用搜索來探索巨大的可能性空間。我認(rèn)為這是我們當(dāng)前的大模型所缺少的能力。

Dwarkesh Patel：對于這些方法所需的巨量算力，您會怎么獲得？您認(rèn)為這方面的效率會怎么得到提升？

Demis Hassabis：首先，摩爾定律會幫助我們。每一年，計(jì)算能力都在提升；但我們更關(guān)注樣本高效型的方法以及復(fù)用已有的數(shù)據(jù)，比如經(jīng)歷重放。世界模型越好，搜索效率就越高。舉個(gè)例子，AlphaGo 的搜索效率就遠(yuǎn)高于使用暴力搜索的深藍(lán)（Deep Blue）。深藍(lán)的每一次決策可能需要查看數(shù)百萬種可能下法。AlphaGo 則只需要大約數(shù)萬次就能決定下一步。但人類的大師級棋手可能只需檢查幾百種下法就能得到一個(gè)非常好的下一步?jīng)Q策結(jié)果。這明顯說明，暴力搜索系統(tǒng)對這些棋并沒有真正的模型。AlphaGo 有相當(dāng)不錯(cuò)的模型，而頂級人類棋手擁有更豐富、更準(zhǔn)確的圍棋或國際象棋模型。這讓他們只需少量搜索就能做出世界級的決策。

Dwarkesh Patel：但是 AlphaGo 勝過了人類冠軍。

Demis Hassabis：當(dāng)然，所以我們做出了開創(chuàng)性的成果，DeepMind 也因此出名。我們使用游戲作為驗(yàn)證平臺，因?yàn)楹茱@然在游戲中的搜索效率更高。另外，在游戲中也更容易設(shè)定獎勵函數(shù)不管是獲勝還是贏取分?jǐn)?shù)。這些是大多數(shù)游戲內(nèi)置的獎勵機(jī)制。但對于真實(shí)世界系統(tǒng)，這卻非常困難該如何定義正確的目標(biāo)函數(shù)、正確的獎勵函數(shù)和正確的目標(biāo)？

Dwarkesh Patel：人類智能有很高的樣本效率，它與 AlphaGo 這些系統(tǒng)得到解答的方式有何不同？比如愛因斯坦如何想出了相對論？

Demis Hassabis：它們大不相同，因?yàn)槲覀兊拇竽X并不會執(zhí)行蒙特卡洛樹搜索。這不是我們的有機(jī)大腦的工作方式。為了彌補(bǔ)這一點(diǎn)，人類的大腦會用到直覺。人類會使用自己的知識和經(jīng)歷來構(gòu)建非常準(zhǔn)確的模型，比如愛因斯坦構(gòu)建了非常準(zhǔn)確的物理模型。如果你閱讀一下愛因斯坦的經(jīng)歷，看看他是如何想出那些理論的，你會發(fā)現(xiàn)他習(xí)慣視覺化地思考那些物理系統(tǒng)，而不只是通過數(shù)學(xué)公式。這讓他有了對這些物理系統(tǒng)的非常直覺化的感知。這讓他產(chǎn)生了在當(dāng)時(shí)顯得非常離奇的想法。

我認(rèn)為這就是我們構(gòu)建的世界模型的復(fù)雜精妙之處。想象一下，如果你的世界模型能讓你抵達(dá)你正在搜索的某個(gè)樹的某個(gè)節(jié)點(diǎn)，然后你就只需要在這個(gè)節(jié)點(diǎn)附近搜索即可。這樣一來，你的搜索量就少多了。

Dwarkesh Patel：現(xiàn)在還有一個(gè)問題有待解決：強(qiáng)化學(xué)習(xí)能否讓模型使用自我博弈合成數(shù)據(jù)來克服數(shù)據(jù)瓶頸問題？您似乎對此很樂觀。

Demis Hassabis：是的，我對此非常樂觀。首先，仍然還有大量數(shù)據(jù)可以使用，尤其是多模態(tài)和視頻等數(shù)據(jù)。而且顯然，社會也在一直不斷增加更多數(shù)據(jù)。但我認(rèn)為創(chuàng)造合成數(shù)據(jù)方面也有很大的發(fā)展空間。這方面有一些不同的方法，比如模擬和自我博弈，模擬方法包括使用非常仿真的游戲環(huán)境來生成接近真實(shí)的數(shù)據(jù)。而自我博弈則是讓模型互相交互或交談。這種方法在我們開發(fā) AlphaGo 和 AlphaZero 時(shí)效果非常好。

Dwarkesh Patel：那么該如何確保合成的數(shù)據(jù)不是來自模型的數(shù)據(jù)集，而是新數(shù)據(jù)？

Demis Hassabis：我認(rèn)為這需要一門完整的學(xué)科來進(jìn)行研究。在這方面，我們?nèi)蕴幱跀?shù)據(jù)管理和數(shù)據(jù)分析的初級階段。比如通過分析數(shù)據(jù)分布，能找到分布中的漏洞，這對于公平與偏見等議題來說非常重要。要將其移出系統(tǒng)，就需要確保數(shù)據(jù)集能夠代表你想要學(xué)習(xí)的分布。對此人們有一些可以使用的技巧，比如增大數(shù)據(jù)中特定部分的權(quán)重或重放這部分?jǐn)?shù)據(jù)。也可以想象，如果你發(fā)現(xiàn)你的數(shù)據(jù)集中有如此漏洞，你可以使用生成的數(shù)據(jù)來進(jìn)行填補(bǔ)。

Dwarkesh Patel：現(xiàn)在人們很關(guān)注強(qiáng)化學(xué)習(xí)，但其實(shí) DeepMind 很多年前就研究過了。是否還有類似這樣的研究方向早已經(jīng)出現(xiàn)了，但還沒有引起人們重視？

Demis Hassabis：事實(shí)上，過去幾十年來這種事情一直在發(fā)生。新舊思想結(jié)合起來就有巨大潛力，比如過去的一些想法與更大規(guī)模模型和大型多模態(tài)模型結(jié)合起來也許就能得到激動人心的結(jié)果。

Dwarkesh Patel：強(qiáng)化學(xué)習(xí)、LLM、樹搜索，哪種方法有潛力催生出 AGI？

Demis Hassabis：從理論上看，我認(rèn)為純 AlphaZero 式的方法沒理由不成功。Google DeepMind 和社區(qū)一些人正在研究在假設(shè)完全沒有先驗(yàn)知識、沒有數(shù)據(jù)的前提下，從頭開始構(gòu)建所有知識。我認(rèn)為這是有價(jià)值的，因?yàn)檫@些想法和算法在有一定知識時(shí)也能使用。

話雖如此，但目前來說我認(rèn)為最可能最快實(shí)現(xiàn) AGI 的方法是使用目前世界上已有的知識，比如網(wǎng)絡(luò)上的和我們收集的知識。而且我們還有 Transformer 等有能力消化這些信息的可大規(guī)模擴(kuò)展的算法。你可以將一個(gè)模型用作某種形式的先驗(yàn)，基于其上進(jìn)行構(gòu)建并執(zhí)行預(yù)測，以此啟動 AGI 學(xué)習(xí)。沒理由不這樣做。我猜想，在最終的 AGI 系統(tǒng)中，大型多模態(tài)模型會成為整體解決方案的一部分，但它們本身并不足以成為 AGI。它們還需要額外的規(guī)劃搜索能力。

03 擴(kuò)展與對齊

Dwarkesh Patel：現(xiàn)在有個(gè)規(guī)模擴(kuò)展假設(shè)（scaling hypothesis）。有人猜想，只要擴(kuò)大模型和數(shù)據(jù)分布的規(guī)模，智能終會出現(xiàn)，您認(rèn)同嗎？

Demis Hassabis：我認(rèn)為這是一個(gè)需要實(shí)驗(yàn)檢驗(yàn)的問題。幾乎所有人（包括那些最早開始研究規(guī)模擴(kuò)展假設(shè)的人）都很驚訝規(guī)模擴(kuò)展所帶來的成就�？纯船F(xiàn)如今的大模型，它們的效果好得簡直不合理！大模型涌現(xiàn)出的一些性質(zhì)相當(dāng)出人意料；在我看來，大模型是有某種形式的概念和抽象能力。要是回到五年以前，我會說要做到這一點(diǎn)，我們可能還需要另一種算法方面的突破。也許更類似大腦的工作方式。我認(rèn)為，如果我們想要明確的、簡潔的抽象概念，我們依然需要更加理解大腦，但這些系統(tǒng)似乎可以隱式地學(xué)習(xí)它們。

另一個(gè)出人意料的有趣結(jié)果是這些系統(tǒng)獲得了某種形式的現(xiàn)實(shí)基礎(chǔ)知識（grounding/定基），即便它們并未體驗(yàn)過世界的多模態(tài)至少在近期的多模態(tài)模型出現(xiàn)之前沒有。只是靠語言就能構(gòu)建起如此大量的信息和模型，著實(shí)讓人驚訝。對此的原因，我有一些假設(shè)。我認(rèn)為大型語言模型能通過 RLHF 反饋系統(tǒng)獲得一些現(xiàn)實(shí)基礎(chǔ)知識，因?yàn)槿祟惙答佌弑旧砭褪巧钤诂F(xiàn)實(shí)中的人。我們就立足于現(xiàn)實(shí)世界中。所以我們的反饋也是立足于現(xiàn)實(shí)的。因此這能讓模型獲得一些現(xiàn)實(shí)基矗另外，也許語言中就包含了更多的現(xiàn)實(shí)基礎(chǔ)，如果你能完全洞悉語言，也許能發(fā)現(xiàn)我們之前可能沒考慮到的東西，甚至可能已經(jīng)有語言學(xué)家研究過這些方面。這實(shí)際上是一個(gè)非常有趣的哲學(xué)問題。人們甚至可能都尚未觸及其表面�？纯催^去的進(jìn)展，暢想未來是非常有趣的。

對于你說的規(guī)模擴(kuò)展問題，我認(rèn)為我們應(yīng)當(dāng)盡可能地?cái)U(kuò)大規(guī)模，我們也正在這么做。至于最后會趨近一條漸近線還是撞上鐵墻，這是個(gè)實(shí)驗(yàn)問題，不同的人會有不同的意見。但我認(rèn)為我們應(yīng)該直接去測試。沒人能想出答案。但與此同時(shí)，我們也應(yīng)該加倍投資創(chuàng)新和發(fā)明。這是谷歌研究院、DeepMind 和谷歌大腦的做法，我們在過去十年中開創(chuàng)性地取得了許多成果。這就是我們的生存之道，

可以說，我們一半的努力是在擴(kuò)展規(guī)模，另一半則是在研發(fā)未來的架構(gòu)和算法它們或許是在模型變得越來越大之后所需的。我大概猜想，未來這兩方面都需要。所以我們要兩方面都盡可能地發(fā)力。我們很幸運(yùn)，因?yàn)槲覀兇_實(shí)能做到這一點(diǎn)。

Dwarkesh Patel：再多聊聊定基（grounding）。可以想象，有兩件事會讓定基變得更加困難。一是隨著模型變得更加聰明，它們就能在我們無法生成足夠人類標(biāo)簽的領(lǐng)域工作因?yàn)槲覀儾粔蚵斆�。而是關(guān)于計(jì)算。目前我們做的都是下一 token 預(yù)測。這就像是一個(gè)護(hù)軌，限制模型讓其像人類一樣談話，像人類一樣思考�，F(xiàn)在，如果額外的計(jì)算是以強(qiáng)化學(xué)習(xí)形式出現(xiàn)的呢我們只知道達(dá)成了目標(biāo)但無法追蹤是如何達(dá)成的？如果這兩者組合起來，定基會出現(xiàn)什么問題？

Demis Hassabis：我認(rèn)為如果系統(tǒng)沒有適當(dāng)?shù)囟ɑ�，系統(tǒng)就無法適當(dāng)?shù)貙?shí)現(xiàn)這些目標(biāo)。我認(rèn)為在某種程度上系統(tǒng)應(yīng)該有定基，至少要有一些，這樣才能在真實(shí)世界中真正實(shí)現(xiàn)目標(biāo)。隨著 Gemini 這樣的系統(tǒng)變得更加多模態(tài)，可以在文本數(shù)據(jù)之外處理視頻、音頻和視覺數(shù)據(jù)，這些系統(tǒng)就會開始將這些東西融合到一起。我認(rèn)為這其實(shí)就是一種形式的定基。這樣系統(tǒng)就會開始更好地理解真實(shí)世界的物理機(jī)制。

Dwarkesh Patel：為了對齊比人類更聰明的系統(tǒng)，應(yīng)該怎么做？

Demis Hassabis：我和 Shane（注：Shane Legg，DeepMind 聯(lián)合創(chuàng)始人，現(xiàn)擔(dān)任該公司首席 AGI 科學(xué)家）還有其他許多人在我們創(chuàng)立 DeepMind 之前就已經(jīng)在考慮這個(gè)問題了，因?yàn)槲覀冇?jì)劃著取得成功。2010 年時(shí)，還沒什么人研究 AI，更別說 AGI 了。但我們那時(shí)就知道，如果我們能通過這些系統(tǒng)和思想取得成功，創(chuàng)造出的技術(shù)將會具有讓人難以置信的變革力量。所以我們 20 年前就在思考了，這樣會有什么正面和負(fù)面的后果。正面的后果就是驚人的科學(xué)成果，比如 AlphaFold、科學(xué)和數(shù)學(xué)領(lǐng)域的科學(xué)發(fā)現(xiàn)。同時(shí)我們也需要確保這些系統(tǒng)是可理解的和可控的。

為了得到經(jīng)過更為嚴(yán)格評估的系統(tǒng)，人們提出了很多想法。但我們目前還沒有足夠好的評估方法和基準(zhǔn)可以確定系統(tǒng)是否欺騙了你、系統(tǒng)是否會泄漏自己的代碼等不良行為。還有些人提出可以使用 AI 來輔助分析，就是使用應(yīng)用范圍窄的 AI（narrow AI）。它們不具備通用學(xué)習(xí)能力，而是專門為某個(gè)特定領(lǐng)域?qū)ｉT設(shè)計(jì)的；它們可以幫助人類科學(xué)家分析更通用的系統(tǒng)的行為。我認(rèn)為一個(gè)有很大潛力的方向是創(chuàng)造強(qiáng)化型沙盒或模擬環(huán)境它們的網(wǎng)絡(luò)安全經(jīng)過增強(qiáng)，可以把 AI 困在其中，也能保證外部攻擊者無法進(jìn)入。這樣一來，我們就可以在這個(gè)沙盒中自由地做實(shí)驗(yàn)了。另外也有些人在研究讓人類能夠理解這些系統(tǒng)構(gòu)建的概念和表征。

04 時(shí)間線和智能爆炸

Dwarkesh Patel：您認(rèn)為 AGI 會在什么時(shí)候出現(xiàn)？

Demis Hassabis：我沒有具體的時(shí)間預(yù)測，因?yàn)槲腋杏X還有很多未知和不確定，而且人類的聰明才智和努力總是會帶來驚喜。這些都可能導(dǎo)致時(shí)間線變化。但我要說，在我們 2010 年創(chuàng)立 DeepMind 時(shí)，我們認(rèn)為這個(gè)項(xiàng)目需要 20 年時(shí)間。實(shí)際上，我覺得我們正按預(yù)期向目標(biāo)靠近。這很了不起，因?yàn)橥ǔ５?20 年計(jì)劃總是還要另外 20 年。如果我們在未來十年內(nèi)擁有類似 AGI 的系統(tǒng)，我不會感到驚訝。

Dwarkesh Patel：如果有了 AGI，您會使用嗎？您可以將其用來進(jìn)一步加速 AI 研究。

Demis Hassabis：我認(rèn)為這是有可能的。這要看我們做出什么決定。我們需要作為一個(gè)社會來決定如何使用第一個(gè)新生的 AGI 系統(tǒng)或甚至 AGI 原型系統(tǒng)。即便是我們現(xiàn)有的系統(tǒng)，我們也需要考慮其安全方面的影響。

05 Gemini 的訓(xùn)練

Dwarkesh Patel：目前 Gemini 的開發(fā)遇到了什么瓶頸？既然規(guī)模擴(kuò)展法效果很好，為什么不直接把它增大一個(gè)數(shù)量級？

Demis Hassabis：首先，有實(shí)踐方面的限制。一個(gè)數(shù)據(jù)中心究竟能有多少算力呢？實(shí)際上，這會遇到非常有趣的分布式計(jì)算難題。幸運(yùn)的是，我們有最好的研究者在研究這些難題以及如何實(shí)現(xiàn)跨數(shù)據(jù)中心訓(xùn)練等等。還有硬件方面的難題，我們有自己構(gòu)建和設(shè)計(jì)的 TPU 等硬件，也會使用 GPU。至于規(guī)模擴(kuò)展的效果，也不是總?cè)缒Хò阌行�。擴(kuò)大規(guī)模時(shí)也還需要擴(kuò)展超參數(shù)，每一種規(guī)模都需要各種不同的創(chuàng)新。不是每一種規(guī)模都能重復(fù)一樣的配方。我們必須調(diào)整配方，而且這在某種程度上就像是搞藝術(shù)。另外還需要獲得新的數(shù)據(jù)點(diǎn)。

Dwarkesh Patel：在 Gemini 的開發(fā)過程中，您覺得最出人意料的是什么？

Demis Hassabis：我得說沒什么非常出人意料，但是能在那種規(guī)模上進(jìn)行訓(xùn)練并從一種組織化的角度去研究它，是非常有趣的。

Dwarkesh Patel：很多人認(rèn)為其它實(shí)驗(yàn)室的模型的計(jì)算效率可能比 DeepMind 的 Gemini 高。您怎么看？

Demis Hassabis：我認(rèn)為情況并非如此。實(shí)際上，Gemini 使用的算力差不多，也許就比傳聞中 GPT-4 使用的算力稍多一點(diǎn)。

Dwarkesh Patel：對于 2010 年剛創(chuàng)立 DeepMind 的您來說，現(xiàn)在的 AI 進(jìn)展中哪一點(diǎn)最讓您感到意外？

Demis Hassabis：你也采訪過我的同事 Shane。他總是從計(jì)算曲線方面進(jìn)行思考，也常常將 AI 與大腦進(jìn)行比較有多少神經(jīng)元或突觸。但現(xiàn)在我們已經(jīng)差不多到大腦中神經(jīng)突觸數(shù)量的數(shù)量級和那樣的計(jì)算量了。

但我認(rèn)為，更根本的問題在于，我們關(guān)注的重心始終是通用性和學(xué)習(xí)。這始終是我們使用任何技術(shù)的核心。因此我們把強(qiáng)化學(xué)習(xí)、搜索和深度學(xué)習(xí)看作是三種可以擴(kuò)展并且可以非常通用的算法，無需大量人工設(shè)計(jì)的人類先驗(yàn)知識。這不同于 MIT 等在當(dāng)時(shí)構(gòu)建的 AI它們是基于邏輯的專家系統(tǒng)，需要大量人工編碼。事實(shí)證明這種做法是錯(cuò)誤的。我們在早期看出了發(fā)展趨勢。我們使用游戲作為驗(yàn)證平臺，發(fā)現(xiàn)結(jié)果還不錯(cuò)。最后也取得了巨大的成功。AlphaGo 等成功給其他許多人帶去了啟發(fā)。當(dāng)然，還有我們谷歌研究院和谷歌大腦的同事發(fā)明的 Transformer，這種深度學(xué)習(xí)方法讓模型可以處理海量數(shù)據(jù)。這些技術(shù)就是如今成果的基矗這些都是一以貫之的傳承。我們當(dāng)然不可能預(yù)測出每一次技術(shù)轉(zhuǎn)變，但我認(rèn)為我們前進(jìn)的總體方向是正確的。

06 治理超人類 AI

Dwarkesh Patel：您怎么看待超人類智能的前景？它仍然受私有企業(yè)控制嗎？具體應(yīng)該如何治理它？

Demis Hassabis：我認(rèn)為這種技術(shù)將會帶來重大影響。大于任何一家公司，甚至大于任何一個(gè)行業(yè)。我認(rèn)為這必需來自民間社會、學(xué)術(shù)界、政府的許多利益相關(guān)者的大規(guī)模合作。好消息是，隨著近期聊天機(jī)器人等技術(shù)的廣泛使用，社會中其它一些部分被喚醒了，他們開始認(rèn)識到這種系統(tǒng)正在到來并且他們也將與這些系統(tǒng)互動。這很不錯(cuò)。這為良好的對話打開了很多大門。

其中一個(gè)例子是幾個(gè)月前在英國舉辦的 AI Safety Summit。我認(rèn)為這是一次巨大成功。我們需要進(jìn)行國際間的對話，要讓整個(gè)社會一起來決定我們要使用這些模型做什么、我們希望怎樣使用它們、我們希望它們不被用于什么目的。

Dwarkesh Patel：現(xiàn)在的 AI 系統(tǒng)已經(jīng)非常強(qiáng)大，為什么它們的影響沒有更大呢？

Demis Hassabis：這說明我們依然還處在這個(gè)新時(shí)代的起點(diǎn)。目前的這些系統(tǒng)已經(jīng)有一些有趣的用例，比如使用聊天機(jī)器人系統(tǒng)來為你做總結(jié)、完成一些簡單的寫作任務(wù)、進(jìn)行樣板式寫作；但這些只是我們?nèi)粘Ｉ畹囊恍〔糠帧?/p>

我認(rèn)為，對于更一般化的用例，我們?nèi)匀恍枰碌哪芰�，比如�?guī)劃和搜索，另外還需要個(gè)性化、記憶、情境記憶等。因此長上下文窗口是不夠的，還要記住 100 輪對話之前我們說了什么。一旦這些技術(shù)成熟了，我們就會看到新的用例，比如能幫助我們找到更好更豐富材料（書、電影、音樂等）的新推薦系統(tǒng)。那樣我就會每天使用這類系統(tǒng)。我認(rèn)為我們目前只是觸及了這些 AI 助理的表面，其實(shí)未來它們能為我們的一般日常生活和工作做更多事情。另外用它們做科研也不足夠可靠。但我相信未來當(dāng)我們決定了事實(shí)性和定基等問題之后，這些 AI 系統(tǒng)就能變成世界上最好的研究助理。

Dwarkesh Patel：說到記憶，您在 2007 年有一篇論文談到記憶和想象（imagination）有某種程度的相似之處�，F(xiàn)在也有人說目前的 AI 就只是記住了些東西。您對此怎么看？只靠記憶就足夠了嗎？

Demis Hassabis：在有限的情況下，也許記住一切就夠了，但這樣無法泛化到原有的分布之外。但很明顯 Gemini 和 GPT-4 等模型確實(shí)能夠泛化到新的情況。至于我的那篇論文，我實(shí)際上表達(dá)的是：記憶（至少是人類記憶）是一種重建的過程。記憶不是磁帶式的精確記錄。我們的大腦是把看起來熟悉的東西組合到一起。這讓我思考想象可能也是這么回事。只不過這時(shí)候我們組合的是語義組件（semantic component）你的大腦將它們組合起來并且認(rèn)為結(jié)果是全新的。我認(rèn)為我們目前的系統(tǒng)依然缺少這種能力即把世界模型的不同部分拿出來組合到一起來模擬新東西，從而幫助用來執(zhí)行規(guī)劃。這就是我所說的想象。

07 安全、開源和權(quán)重安全

Dwarkesh Patel：你們有計(jì)劃和其它兩家主要的 AI 實(shí)驗(yàn)室一樣從某種程度上放出 Gemini 的框架嗎？

Demis Hassabis：是的，我們內(nèi)部已經(jīng)做了大量的檢查和平衡，我們也會開始發(fā)布一些東西。未來幾個(gè)月，我們有很多博客文章和技術(shù)論文發(fā)出來。

Dwarkesh Patel：如何保護(hù)模型的權(quán)重，使其不被惡意盜用？

Demis Hassabis：這涉及到兩個(gè)方面。一是安全，二是開源。安全非常關(guān)鍵，尤其是網(wǎng)絡(luò)安全。我們 Google DeepMind 非常幸運(yùn)。因?yàn)槲覀冊诠雀璧姆阑饓驮频谋Ｗo(hù)之下，這可以說是世界上最好的安全防護(hù)。除此之外，我們 DeepMind 還有特定的措施來保護(hù)我們的代碼庫。所以我們有雙重保護(hù)。而且我們還在不斷提升和改進(jìn)，比如使用強(qiáng)化沙盒。我們也在考慮特定的安全數(shù)據(jù)中心或硬件解決方案。所有的前沿實(shí)驗(yàn)室都應(yīng)該這么做。

開源也很重要。我們是開源和開放科學(xué)的大力支持者。我們已經(jīng)發(fā)布了數(shù)千篇論文，包括 AlphaFold、Transformer 和 AlphaGo。但對于核心的基礎(chǔ)技術(shù)，我們會考慮如何阻止惡意組織、個(gè)人或流氓國家，防止他們使用這些開源系統(tǒng)去實(shí)現(xiàn)他們的有害目的。這是我們必須回答的問題。我不知道這個(gè)問題的答案，但我也沒能從支持開源一切的人那里聽到讓人信服的答案。我認(rèn)為這其中必須要有些平衡。但很顯然這是個(gè)很復(fù)雜的問題。

Dwarkesh Patel：在安全方面，其它一些實(shí)驗(yàn)室有自己的專攻領(lǐng)域，比如 Anthropic 在研究可解釋性�，F(xiàn)在你們有了最前沿的模型，你們也會在安全方面做前沿研究嗎？

Demis Hassabis：我們已經(jīng)開創(chuàng)了 RLHF 等技術(shù)，這不僅能用于提升性能，也能用于安全。我認(rèn)為很多自我博弈想法也有潛力用于自動測試新系統(tǒng)的邊界條件。部分問題在于，對于這些非常通用的系統(tǒng)，它們的適用范圍非常廣。我認(rèn)為我們將需要一些自動測試技術(shù)以及之前提到的模擬和游戲、非常擬真的虛擬環(huán)境。在這方面我們有很長的研究歷史。另外，很幸運(yùn)谷歌有大量網(wǎng)絡(luò)安全專家和硬件設(shè)計(jì)師。這也是我們可以獲得的安全保障。

08 多模態(tài)和進(jìn)一步的進(jìn)展

Dwarkesh Patel：對于 Gemini 這樣的系統(tǒng)，目前與它們默認(rèn)的交互方式是通過聊天。隨著多模態(tài)和新能力的加入，這種情況會如何改變？

Demis Hassabis：在理解完整的多模態(tài)系統(tǒng)方面，我們還處于起步階段。與其的交互方式將與我們現(xiàn)在的聊天機(jī)器人大不相同。我想明年的下一代版本可能會具有一定的環(huán)境理解能力，比如通過相機(jī)或手機(jī)。然后我可以想象下一步。模型在理解方面會變得越來越順暢。我們可以使用視頻、聲音甚至觸碰。如果再考慮到使用傳感器的機(jī)器人，世界將會開始變得激動人心。我想未來幾年，我們就能看到多模態(tài)對機(jī)器人學(xué)科意味著什么。

Dwarkesh Patel：Ilya 曾在播客上跟我說過 OpenAI 放棄研究機(jī)器人的原因：在該領(lǐng)域的數(shù)據(jù)不夠，至少在那時(shí)候是如此。您認(rèn)為這對機(jī)器人的發(fā)展而言依然還是一個(gè)瓶頸嗎？

Demis Hassabis：我們的 Gato 和 RT-2 Transformer 取得了激動人心的進(jìn)展。我們一直以來都很喜歡機(jī)器人。我們在這一領(lǐng)域也有出色的研究成果。我們?nèi)匀辉谶M(jìn)行機(jī)器人研究，因?yàn)槲覀兤鋵?shí)喜歡這一事實(shí)：這是一個(gè)數(shù)據(jù)稀少的領(lǐng)域。我們認(rèn)為這會是一個(gè)非常有用的研究方向，其中涉及到的課題包括采樣效率和數(shù)據(jù)效率、從模擬環(huán)境遷移到現(xiàn)實(shí)的遷移學(xué)習(xí)。我們一直在努力研究。

實(shí)際上 Ilya 說得對，機(jī)器人很有挑戰(zhàn)性就是因?yàn)閿?shù)據(jù)問題。但我想我們會開始看到大模型可以遷移到機(jī)器人領(lǐng)域、在非常普適的領(lǐng)域?qū)W習(xí)，并且可以將 Gato 這樣的 token 當(dāng)作是任意類型的 token 進(jìn)行處理。這些 token 可以是動作，也可以是詞、圖塊、像素等等。我心中的多模態(tài)就是這樣。但一開始，訓(xùn)練這樣的系統(tǒng)比簡單直接的文本語言系統(tǒng)更困難。我們之前聊遷移學(xué)習(xí)時(shí)也談到了，對于一個(gè)真正的多模態(tài)系統(tǒng)，一個(gè)模態(tài)是可以從其它模態(tài)獲益的。比如如果模型更加理解視頻，其語言能力也會有所提升。我們最后會有一個(gè)這樣的更加通用、更有能力的系統(tǒng)。

Dwarkesh Patel：DeepMind 發(fā)表了許多有趣的研究成果來加速不同領(lǐng)域的科學(xué)研究。為什么要構(gòu)建這樣的特定領(lǐng)域的方案呢？為什么不等到一二十年后讓 AGI 來做？

Demis Hassabis：我想我們并不知道 AGI 將在何時(shí)到來。而且我們過去也常常說，我們不必等到 AGI，也能做出些出色的成果來造福這個(gè)世界。我個(gè)人也對 AI 在科學(xué)和醫(yī)療領(lǐng)域的應(yīng)用充滿熱情。而且你可以看到我們的多篇 Nature 論文關(guān)注了多個(gè)不同的領(lǐng)域。有很多激動人心的研究方向能影響這個(gè)世界。作為擁有數(shù)十億用戶的谷歌的一分子，我們很榮幸有這樣的巨大機(jī)會，可以將我們?nèi)〉玫倪M(jìn)步快速提供給數(shù)十億人，幫助改善、豐富和助力他們的日常生活。

從 AGI 的角度看，我們也需要檢驗(yàn)我們的想法。我們不能指望閉門造 AI 就能推動發(fā)展，因?yàn)檫@樣只會讓內(nèi)部指標(biāo)偏離人們真正會關(guān)心的真實(shí)事物。真實(shí)世界應(yīng)用能提供大量直接的反饋，可以讓我們知道系統(tǒng)是否在進(jìn)步或者我們是不是需要提高數(shù)據(jù)或樣本效率。因?yàn)榇蠖鄶?shù)真實(shí)世界難題都需要這樣。這能不斷推動和引導(dǎo)你的研究方向，以確保它們走在正確的道路上。當(dāng)然，另一方面是，即便是在 AGI 誕生之前很多年，世界也能從中獲益。

09 Google DeepMind 內(nèi)部

Dwarkesh Patel：Gemini 的開發(fā)工作涉及到谷歌大腦和 DeepMind 等不同機(jī)構(gòu)的合作。這其中遇到了哪些挑戰(zhàn)？產(chǎn)生了哪些協(xié)同效應(yīng)？

Demis Hassabis：過去的一年是很棒的一年。當(dāng)然，挑戰(zhàn)是有的，和任何大型整合工作一樣。但我們是兩個(gè)世界級的組織，各自都發(fā)明了許多重要技術(shù)，從深度強(qiáng)化學(xué)習(xí)到 Transformer。因此，我們的很多工作就是將這些匯集起來，實(shí)現(xiàn)更加緊密的合作。其實(shí)我們過去常常合作，只不過之前是針對具體項(xiàng)目的合作，現(xiàn)在則是更加深度和廣泛的合作。

Gemini 是這一合作的首個(gè)成果，其實(shí) Gemini 這個(gè)名字就暗含了孿生兄弟姐妹的意思。當(dāng)然，也有很多事情的效率更高了，像是把計(jì)算資源、想法和工程開發(fā)工作匯集到一起。我們目前就處于這個(gè)階段，基于世界級的工程開發(fā)來構(gòu)建前沿系統(tǒng)。我認(rèn)為進(jìn)一步的合作是有意義的。

Dwarkesh Patel：您和 Shane 創(chuàng)立 DeepMind 的部分原因是你們擔(dān)憂 AI 的安全問題。您認(rèn)為 AGI 的到來有現(xiàn)實(shí)的可能性。您感覺來自谷歌大腦的研究者也有類似看法嗎？這個(gè)問題方面是否存在文化差異？

Demis Hassabis：沒有�？傮w而言，這就是我們在 2014 年與谷歌攜手的原因之一。我認(rèn)為，谷歌和 Alphabet 整體（不只是谷歌大腦和 DeepMind）都以負(fù)責(zé)任的態(tài)度認(rèn)真對待這些問題。差不多我們的座右銘就是大膽嘗試這些系統(tǒng)，同時(shí)要負(fù)起責(zé)任。我顯然是一個(gè)技術(shù)樂觀主義者，但我希望我們對技術(shù)保持謹(jǐn)慎，畢竟我們共同為這個(gè)世界帶來的東西具有變革性的力量。我認(rèn)為這很重要。我認(rèn)為這將成為人類發(fā)明的最重要的技術(shù)。

Dwarkesh Patel：最后一個(gè)問題。2010 年時(shí)，當(dāng)其他人還覺得 AGI 很荒謬時(shí)，您就在思考這個(gè)終極目標(biāo)了。現(xiàn)在隨著這類技術(shù)的慢慢起飛，您是怎么想的呢？您是否已經(jīng)在您的世界模型中預(yù)想到過？

Demis Hassabis：是的，我確實(shí)已經(jīng)在我的世界模型中預(yù)想到過這些，至少是從技術(shù)角度。但很顯然，我們不一定預(yù)料到了公眾會在如此早期階段參與進(jìn)來。像是 ChatGPT 等一些應(yīng)用在某些方面還有所欠缺，但人們已經(jīng)有濃烈的興趣去使用它們了。這一點(diǎn)挺讓人意外的。

另外還有更加專業(yè)化的系統(tǒng)，比如 AlphaFold 和 AlphaGo 以及一些科學(xué)方面的成果，但它們在公眾關(guān)注的主線發(fā)展之外，也許幾年后公眾會關(guān)注到它們，那時(shí)候我們可能就有了更加普遍適用的助理類型的系統(tǒng)。這會創(chuàng)造出一個(gè)和現(xiàn)在不一樣的環(huán)境。而且情況可能看起來會更混亂，因?yàn)闀泻芏嗍虑榘l(fā)生，也會有很多風(fēng)險(xiǎn)投資，好像所有人都失去理智一樣。

我唯一擔(dān)憂的是我們能否負(fù)責(zé)任地、深思熟慮地、科學(xué)地對待這種情況，使用科學(xué)方法來應(yīng)對。也就是我說的樂觀但謹(jǐn)慎的方式。我一直都相信這是我們應(yīng)對 AI 這類事物的方式。我希望我們不會迷失在這場快速襲來的巨大熱潮中。

參考鏈接：

https://www.dwarkeshpatel.com/p/demis-hassabis

https://twitter.com/dwarkesh_sp/status/1762872471479529522