當(dāng)前位置：人工智能實驗室> 人工智能動態(tài) > AI大模型在2030年會是什么樣子？

AI大模型在2030年會是什么樣子？
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-08-19 10:32:45 瀏覽：15002次

導(dǎo)讀：導(dǎo)語：一個比人類速度快5倍的模型可以通過設(shè)置將速度提高到比人類速度快125倍。本文作者為加州伯克利分校助理教授Jacob Steinhardt。 GPT-4以其在編碼、創(chuàng)意頭腦風(fēng)暴、寫信和其他技能方面的能力，讓許多人感到驚訝。機器學(xué)習(xí)領(lǐng)域的驚喜并不僅限于GPT-4：我...

導(dǎo)語：一個比人類速度快5倍的模型可以通過設(shè)置將速度提高到比人類速度快125倍。

本文作者為加州伯克利分校助理教授Jacob Steinhardt。

GPT-4以其在編碼、創(chuàng)意頭腦風(fēng)暴、寫信和其他技能方面的能力，讓許多人感到驚訝。機器學(xué)習(xí)領(lǐng)域的驚喜并不僅限于GPT-4：我之前也因Minerva在數(shù)學(xué)能力方面的表現(xiàn)感到驚訝，很多競爭性預(yù)測者也是如此。

我們?nèi)绾文軌驅(qū)C器學(xué)習(xí)的發(fā)展有更少的驚訝？我們的大腦通常會隱式地進行零階預(yù)測：查看當(dāng)前的技術(shù)水平，并添加“似乎合理”的改進。但是，所謂的“似乎合理”容易受到認(rèn)知偏見的影響，并且會低估像機器學(xué)習(xí)這樣快速發(fā)展領(lǐng)域的進展。

一種更有效的方法是一階預(yù)測：量化歷史進展速度，并將其向前推演，同時考慮可能出現(xiàn)的放緩或加速原因。

在這篇文章中，我將使用這種方法來預(yù)測2030年大型預(yù)訓(xùn)練機器學(xué)習(xí)系統(tǒng)的特性。我將一直提到“GPT2030”，這是一個假設(shè)性的系統(tǒng)，具有我們預(yù)期在2030年大型語言模型中可能具備的能力、計算資源和推理速度（但很可能也會在其他形式上進行訓(xùn)練，比如圖像）。

為了預(yù)測GPT2030的特性，我參考了多種信息源，包括經(jīng)驗性的縮放規(guī)律、未來計算和數(shù)據(jù)可用性的預(yù)測、特定基準(zhǔn)測試中改進的速度、當(dāng)前系統(tǒng)經(jīng)驗性的推理速度，以及可能的并行性改進。

GPT2030的能力事實上是令人驚訝的（至少對我來說是如此）。特別是，相較于當(dāng)前的系統(tǒng)，GPT2030將在許多方面擁有顯著的優(yōu)勢，甚至在某些重要方面優(yōu)于當(dāng)前的人類工作者：

GPT2030可能在多個具體任務(wù)上表現(xiàn)出超越人類的能力，包括編碼、黑客攻擊、數(shù)學(xué)，甚至可能包括蛋白質(zhì)設(shè)計（第1節(jié)）。

GPT2030能夠快速“工作”和“思考”：我估計它每分鐘處理的文字?jǐn)?shù)量將是人類的5倍，以此作為衡量標(biāo)準(zhǔn)[范圍：0.5倍-20倍]，通過支付每FLOP的費用提高5倍，這個速度可能增加到125倍（第2節(jié)）。

GPT2030可以任意復(fù)制并進行并行運算。訓(xùn)練GPT2030的組織將擁有足夠的計算能力來運行許多并行副本：我估計足以在調(diào)整為人類工作速度時執(zhí)行180萬年的工作[范圍：40萬-1000萬年]（第3節(jié)）�？紤]到前面提到的5倍加速，這項工作可以在2.4個月內(nèi)完成。

由于具有相同的模型權(quán)重，GPT2030的副本可以共享知識，從而實現(xiàn)快速的并行學(xué)習(xí)：我估計相當(dāng)于2500年人類學(xué)習(xí)的內(nèi)容可以在1天內(nèi)完成（第4節(jié)）。

GPT2030將在除文本和圖像之外的其他形式上進行訓(xùn)練，可能包括分子結(jié)構(gòu)、網(wǎng)絡(luò)流量、低級機器代碼、天文圖像和腦部掃描等令人意想不到的形式。因此，在我們經(jīng)驗有限的領(lǐng)域中，它可能會具有強大的直觀理解能力，包括形成我們尚未具備的概念（第5節(jié)）。

這些能力將至少加速許多研究領(lǐng)域，同時也會產(chǎn)生嚴(yán)重的濫用風(fēng)險（第6節(jié)）。關(guān)于濫用，GPT2030的編程能力、并行化和速度將使其成為潛在的網(wǎng)絡(luò)攻擊威脅。此外，它快速的并行學(xué)習(xí)也可以用于分析人類行為，從而用幾千個“年份”的實踐來操縱和誤導(dǎo)。

在加速方面，主要的瓶頸將是自主性。在像數(shù)學(xué)研究這樣的領(lǐng)域，可以進行自動檢查的工作，我預(yù)測GPT2030將超過大多數(shù)專業(yè)數(shù)學(xué)家。

在機器學(xué)習(xí)領(lǐng)域，我預(yù)測GPT2030將獨立執(zhí)行實驗、生成圖表和報告，但研究生和研究科學(xué)家將提供方向并評估結(jié)果。在這兩種情況下，GPT2030將是研究過程的重要組成部分。

我對GPT2030性能的預(yù)測并不是從今天的系統(tǒng)中直觀得出的，它們可能是錯誤的，因為關(guān)于2023年機器學(xué)習(xí)的形態(tài)存在很大的不確定性。然而，上述（1.-5.）的性能是我中位數(shù)的預(yù)測，無論GPT2030是什么樣子，我都懷疑它不會是“只是比GPT-4好一點”。

如果我是對的，那么無論人工智能的影響是什么，它們都不會是微不足道的。我們應(yīng)該現(xiàn)在就為這些影響做好準(zhǔn)備，思考在最大的尺度上會發(fā)生什么（大約在1萬億美元、1000萬人生命或?qū)ι鐣鞒痰闹卮蟾蓴_范圍內(nèi)）�，F(xiàn)在被驚訝總比在7年后系統(tǒng)已經(jīng)開始推出時被驚訝要好。

具體能力

我預(yù)計GPT2030將具備超越人類的編碼、黑客攻擊和數(shù)學(xué)能力。我還預(yù)計它在閱讀和處理大規(guī)模語料庫以尋找模式和洞見、以及回憶事實方面將具備超人能力。

最后，由于AlphaFold和AlphaZero在蛋白質(zhì)結(jié)構(gòu)預(yù)測和游戲玩法方面具備超人能力，GPT2030可能也會具備這些能力，例如，如果它在類似于AlphaFold/AlphaZero模型的數(shù)據(jù)上進行了多模態(tài)訓(xùn)練。

編程。在訓(xùn)練截止日期后，GPT-4在LeetCode問題上超越了強大的人類基準(zhǔn)（Bubeck等，2023年，表2），并且通過了幾家主要科技公司的模擬面試（圖1.5）。改進的速度仍然很高，從GPT-3到4的躍升達(dá)到了19%。在更具挑戰(zhàn)性的CodeForces比賽中，GPT-4表現(xiàn)不佳，但AlphaCode與中位數(shù)CodeForces競爭者持平。在更具挑戰(zhàn)性的APPS數(shù)據(jù)集上，Parsel進一步超越了AlphaCode（7.8%->25.5%）。

展望未來，預(yù)測平臺Metaculus在2027年預(yù)測了80%的中位數(shù)概率，這將超過所有除了最優(yōu)秀的人類之外的所有人。

黑客攻擊。我預(yù)計黑客攻擊能力會隨著一般編程能力的提高而改進，再加上機器學(xué)習(xí)模型可以比人類更可擴展且更有責(zé)任感地搜索大規(guī)模代碼庫中的漏洞。事實上，ChatGPT已經(jīng)被用于幫助生成漏洞利用。

數(shù)學(xué)。Minerva在競賽數(shù)學(xué)基準(zhǔn)（MATH）上實現(xiàn)了50%的準(zhǔn)確率，這比大多數(shù)人類競爭者表現(xiàn)要好。進展速度很快（1年內(nèi)>30%），并且通過自動形式化、減少算術(shù)錯誤、改進思路鏈條以及改善數(shù)據(jù)等，存在顯著的低懸果實。Metaculus預(yù)測到2025年MATH將達(dá)到92%的準(zhǔn)確率，并在2028年前，預(yù)測人工智能在國際數(shù)學(xué)奧林匹克競賽上獲得金牌，與全球最優(yōu)秀的高中學(xué)生水平持平。

我個人預(yù)計GPT2030在證明良好定理方面將優(yōu)于大多數(shù)專業(yè)數(shù)學(xué)家。

信息處理。事實回憶和處理大規(guī)模語料庫是語言模型記憶能力和大上下文窗口的自然結(jié)果。根據(jù)經(jīng)驗，GPT-4在廣泛的標(biāo)準(zhǔn)化考試（包括法律考試、MCAT以及大學(xué)數(shù)學(xué)、物理、生物化學(xué)和哲學(xué)考試）中的準(zhǔn)確率達(dá)到86%；即使考慮到可能的訓(xùn)練-測試污染，這可能超過了任何活著的人的知識廣度。

關(guān)于大規(guī)模語料庫，Zhong等（2023年）使用GPT-3構(gòu)建了一個系統(tǒng)，在大型文本數(shù)據(jù)集中發(fā)現(xiàn)和描述了幾個先前未知的模式，Bills等（2023年）中的相關(guān)任務(wù)的規(guī)模趨勢表明，模型很快將具備超人能力。這些作品都利用了LLM（大型語言模型）的大上下文窗口，現(xiàn)在已超過10萬個標(biāo)記并在不斷增長。

更一般地說，機器學(xué)習(xí)模型具有與人類不同的技能特點，因為人類和機器學(xué)習(xí)是針對非常不同的數(shù)據(jù)源（演化與大規(guī)�；ヂ�(lián)網(wǎng)數(shù)據(jù)）。當(dāng)模型在視頻識別等任務(wù)上達(dá)到人類水平時，它們可能在許多其他任務(wù)上也具備超人能力（如數(shù)學(xué)、編程和黑客攻擊）。

此外，由于模型越來越大且數(shù)據(jù)越來越好，還可能會出現(xiàn)其他強大的能力，沒有強有力的理由認(rèn)為模型能力會在人類水平上或以下“停滯不前”。雖然當(dāng)前的深度學(xué)習(xí)方法在某些領(lǐng)域可能達(dá)不到人類水平的能力，但也有可能在某些領(lǐng)域超越它們，甚至可能會在某些領(lǐng)域顯著超越，特別是在人類沒有進化專門化的數(shù)學(xué)等領(lǐng)域。

推理速度

（感謝Lev McKinney為本節(jié)運行性能基準(zhǔn)測試。）

為了研究機器學(xué)習(xí)模型的速度，我們將衡量機器學(xué)習(xí)模型生成文本的速度，與人類的思考速度相比為每分鐘380個單詞（Korba（2016），詳見附錄A）。使用OpenAI的聊天補全API，我們估計gpt-3.5-turbo每分鐘可以生成1200個單詞（wpm），而gpt-4截至2023年4月初每分鐘生成370個單詞。像pythia-12b這樣的較小的開源模型，在A100 GPU上使用現(xiàn)成的工具至少可以實現(xiàn)1350 wpm，而通過進一步優(yōu)化，這個速度可能會達(dá)到這個值的兩倍。

因此，如果我們考慮到2023年4月的OpenAI模型，我們要么大約是人類速度的3倍，要么等于人類速度。我預(yù)測未來模型的推理速度會更快，因為有強烈的商業(yè)和實際壓力促使推理速度加快。

實際上，在發(fā)布本文的前一周，根據(jù)Fabien Roger的追蹤數(shù)據(jù)，GPT-4的速度已經(jīng)提高到了約540wpm（每秒12個標(biāo)記）；這說明仍然有改進的空間和需求。

我的中位數(shù)預(yù)測是，模型將具有人類文字/分鐘的5倍（范圍：[0.5x，20x]），因為在進一步提高速度方面，可能會出現(xiàn)遞減的實際效益，盡管有一些因素可能指向更高或更低的數(shù)字。我在附錄A中提供了這些考慮的詳細(xì)列表，以及在不同模型規(guī)模和實驗細(xì)節(jié)中的速度比較。

重要的是，機器學(xué)習(xí)模型的速度并不是固定的。模型的串行推理速度可以通過成本為$k$的吞吐量$k^2$的$k$倍減少來增加（換句話說，可以用一個$k^2$倍更快的模型替換$k^3$個并行模型）。這可以通過并行平鋪方案來實現(xiàn)，即使對于$k^2$的大值，理論上也可以運行，可能至少是100，甚至可能更多。

因此，一個比人類速度快5倍的模型可以通過設(shè)置$k=5$將速度提高到比人類速度快125倍。

一個重要的警告是速度不一定與質(zhì)量相匹配：如第1節(jié)所述，GPT2030的技能特點與人類不同，在我們認(rèn)為容易的一些任務(wù)上失敗，在我們認(rèn)為困難的一些任務(wù)上取得成功。因此，我們不應(yīng)該將GPT2030視為“加速的人類”，而應(yīng)該將其視為“加速的工作者”，具有潛在的反直覺技能特點。

然而，考慮速度提升仍然是有意義的，尤其是當(dāng)速度提升較大時。對于具有125倍速度提升的語言模型，我們需要一天才能完成的認(rèn)知行為，可能只需幾分鐘，前提是它們在GPT2030的技能范圍內(nèi)。使用之前黑客攻擊的例子，我們難以生成的漏洞利用或攻擊可能會被機器學(xué)習(xí)系統(tǒng)快速生成。

吞吐量和并行副本

模型可以在可用的計算資源和內(nèi)存的限制下任意復(fù)制。這使它們能夠迅速完成任何可以有效并行化的工作。此外，一旦某個模型被微調(diào)為特別有效，該變化可以立即傳播到其他實例。模型還可以為專門的任務(wù)進行蒸餾，從而運行速度更快、更便宜。

一旦訓(xùn)練完一個模型，很可能會有足夠的資源來運行許多復(fù)制品。這是因為訓(xùn)練一個模型需要并行運行多個副本，而訓(xùn)練模型的組織在部署時仍然擁有這些資源。因此，我們可以通過估計訓(xùn)練成本來下限估計副本的數(shù)量。

以GPT-3的訓(xùn)練成本為例，足以對其進行9 x 10^11次前向傳遞。換算成人類等效術(shù)語，人類每分鐘思考380個單詞（見附錄A），每個單詞平均1.33個標(biāo)記，因此9 x 10^11次前向傳遞相當(dāng)于以人類速度進行~3400年的工作。因此，該組織可以在一年內(nèi)以人類工作速度運行3400個模型的并行副本，或者在5倍人類速度下可能在2.4個月內(nèi)運行相同數(shù)量的副本。（注意：后一點取決于組織可以運行多少并行實例。）

接下來，讓我們將相同的“訓(xùn)練過剩”（訓(xùn)練成本與推理成本的比率）投影到未來的模型上。它應(yīng)該會更大：主要原因是訓(xùn)練過剩大致與數(shù)據(jù)集大小成正比，而數(shù)據(jù)集隨著時間的推移在增加。

隨著我們耗盡自然生成的語言數(shù)據(jù)，這種趨勢會減緩，但新的模式以及合成或自動生成的數(shù)據(jù)仍然會推動它前進。

在附錄B中，我詳細(xì)考慮了這些因素，以進行到2030年的預(yù)測。我預(yù)測，到2030年，模型將具備足夠的資源進行180萬年的工作，調(diào)整為人類速度[范圍：40萬-1000萬]。

注意，Cotra（2020年）和Davidson（2023年）估計了類似的數(shù)量，得出的數(shù)字比我的大；我猜測主要的區(qū)別是我如何對耗盡自然語言數(shù)據(jù)的影響建模。

上述預(yù)測在某種程度上是保守的，因為如果組織購買了額外的計算資源，模型可能會在比訓(xùn)練時使用更多的資源上運行。一個快速的估算表明，GPT-4是在全球所有計算資源的約0.01％上進行訓(xùn)練的，盡管我預(yù)計未來的訓(xùn)練將占據(jù)更大比例的全球計算資源，并因此在訓(xùn)練后的擴展空間較校盡管如此，如果組織有充分的理由這么做，它們可能還可以將運行的副本數(shù)量增加一個數(shù)量級。

知識共享

（感謝Geoff Hinton首次向我提出這個觀點。）

不同副本的模型可以共享參數(shù)更新。例如，ChatGPT可以部署到數(shù)百萬用戶中，從每次交互中學(xué)到一些東西，然后將梯度更新傳播到一個中央服務(wù)器，這些更新會被平均起來并應(yīng)用于所有模型的副本。

通過這種方式，ChatGPT在一個小時內(nèi)可以觀察到關(guān)于人類本性的更多內(nèi)容，而人類在一生中可能無法做到這一點（100萬小時=114年）。并行學(xué)習(xí)可能是模型具有的最重要的優(yōu)勢之一，因為這意味著它們可以迅速學(xué)習(xí)任何缺失的技能。

并行學(xué)習(xí)的速率取決于同時運行的模型副本數(shù)量、它們能夠獲取數(shù)據(jù)的速度以及數(shù)據(jù)是否能夠在并行中有效地利用。在最后一個問題上，即使極端并行化也不應(yīng)該對學(xué)習(xí)效率造成太大影響，因為實踐中的批處理大小通常在數(shù)百萬。

根據(jù)McCandlish等人（2018年）的研究，梯度噪聲規(guī)模預(yù)測在某個“臨界批處理大小”以下，學(xué)習(xí)性能的降低非常校因此，我們將重點放在并行副本和數(shù)據(jù)獲取上。

我將提供兩個估計，兩者都表明，在人類速度下，至少可以有大約100萬個模型副本同時進行學(xué)習(xí)。這相當(dāng)于每天2500個人類等效的學(xué)習(xí)年，因為100萬天=2500年。

第一個估計使用了第3節(jié)中的數(shù)字，該節(jié)得出的結(jié)論是訓(xùn)練模型的成本足以模擬模型進行180萬年的工作（調(diào)整為人類速度）。假設(shè)訓(xùn)練過程本身持續(xù)時間不到1.2年（Sevilla等，2022年），這意味著訓(xùn)練模型的組織在以人類速度運行150萬個副本的情況下?lián)碛凶銐虻腉PU。

第二個估計考慮了部署模型的組織的市場份額。例如，如果同時有100萬用戶查詢模型，那么組織必然有足夠的資源來為100萬個模型副本提供服務(wù)。作為一個估算，截至2023年5月，ChatGPT擁有1億用戶（并非同時都在活躍），并且截至2023年1月，每天有1300萬活躍用戶。

我會假設(shè)典型用戶請求幾分鐘的模型生成文本，因此1月份的數(shù)字可能只意味著每天約0.05百萬人天的文本。然而，未來類似于ChatGPT的模型可能會增加到20倍，達(dá)到每天2.5億活躍用戶或更多，因此每天產(chǎn)生100萬人天的數(shù)據(jù)。作為對比，F(xiàn)acebook擁有20億每日活躍用戶。

模態(tài)、工具和執(zhí)行器

從歷史上看，GPT風(fēng)格的模型主要是在文本和代碼上進行訓(xùn)練，并且除了通過聊天對話以外，與外界互動的能力有限。然而，這種情況正在迅速改變，因為模型正在被訓(xùn)練用于其他模態(tài)，比如圖像，也在被訓(xùn)練使用工具，并開始與物理執(zhí)行器進行交互。

此外，模型不會局限于人類中心的模態(tài)，如文本、自然圖像、視頻和語音，它們很可能還會在不熟悉的模態(tài)上進行訓(xùn)練，比如網(wǎng)絡(luò)流量、天文圖像或其他大規(guī)模的數(shù)據(jù)源。

工具。最近發(fā)布的模型使用外部工具，正如我們在ChatGPT插件、Schick等人（2023年）、Yao等人（2022年）和Gao等人（2022年）的研究中所看到的。將文本與工具使用相結(jié)合足以編寫能夠執(zhí)行的代碼，說服人類代表他們采取行動，進行API調(diào)用，進行交易，甚至可能進行網(wǎng)絡(luò)攻擊。工具使用在經(jīng)濟上很有用，因此將有強烈的動力進一步發(fā)展這種能力。

ChatGPT是一種反應(yīng)型系統(tǒng)：用戶說X，ChatGPT用Y進行回應(yīng)。風(fēng)險存在，但是是有界的。很快將誘惑出現(xiàn)主動型系統(tǒng) - 一種助手將為您回復(fù)電子郵件，代表您采取行動等。風(fēng)險將會大大增加。- Percy Liang (@percyliang) 2023年2月27日

新的模態(tài)。現(xiàn)在已經(jīng)有大規(guī)模的開源視覺語言模型，比如OpenFlamingo，而在商業(yè)領(lǐng)域，GPT-4和Flamingo都是在視覺和文本數(shù)據(jù)上進行訓(xùn)練的。研究人員還在嘗試使用更奇特的模態(tài)對，如蛋白質(zhì)和語言（Guo等，2023年）。

我們應(yīng)該期望大型預(yù)訓(xùn)練模型的模態(tài)繼續(xù)擴展，有兩個原因。首先，在經(jīng)濟上，將語言與不太熟悉的模態(tài)（如蛋白質(zhì)）配對是有用的，這樣用戶可以從解釋中受益，并有效地進行編輯。這預(yù)測蛋白質(zhì)、生物醫(yī)學(xué)數(shù)據(jù)、CAD模型以及與主要經(jīng)濟領(lǐng)域相關(guān)的任何其他模態(tài)將進行多模態(tài)訓(xùn)練。

其次，我們開始耗盡語言數(shù)據(jù)，因此模型開發(fā)者將尋找新類型的數(shù)據(jù)以繼續(xù)從規(guī)模效益中受益。除了傳統(tǒng)的文本和視頻外，一些現(xiàn)有的最大數(shù)據(jù)來源是天文數(shù)據(jù)（很快將達(dá)到每天的艾字節(jié)級）和基因組數(shù)據(jù)（約0.1艾字節(jié)/天）。這些和其他大規(guī)模數(shù)據(jù)源很可能會被用于訓(xùn)練GPT2030。

使用奇特的模態(tài)意味著GPT2030可能具有非直觀的能力。它可能會比我們更好地理解星星和基因，即使在處理基本的物理任務(wù)時會有困難。這可能會帶來一些意外，比如設(shè)計新型蛋白質(zhì)，這是基于GPT2030的“通用”智能水平，我們本不會預(yù)期的。在思考GPT2030的影響時，重要的是要考慮到由于這些奇特數(shù)據(jù)來源可能導(dǎo)致的特定超人能力。

執(zhí)行器。模型也開始使用物理執(zhí)行器：ChatGPT已經(jīng)被用于控制機器人，OpenAI正在投資一家人形機器人公司。然而，收集物理領(lǐng)域的數(shù)據(jù)要比數(shù)字領(lǐng)域更加昂貴，而且人類在物理領(lǐng)域也更適應(yīng)進化（因此ML模型與我們競爭的門檻更高）。

與數(shù)字工具相比，我預(yù)計掌握物理執(zhí)行器的速度會更慢，并且我不確定我們是否應(yīng)該在2030年之前期望這種情況。定量地說，我會給2030年是否會有一種能夠自動組裝與Metaculus問題中定義的比例復(fù)制法拉利的通用型模型一個40%的概率。

GPT-2030的影響

接下來，我們將分析類似GPT2030系統(tǒng)對社會意味著什么。擁有GPT2030特性的系統(tǒng)，至少會顯著加速某些研究領(lǐng)域，同時也具有強大的濫用能力。

我將首先構(gòu)建一些關(guān)于GPT2030的一般優(yōu)勢和局限性的框架，然后將其用作分析加速和濫用的鏡頭。

優(yōu)勢。GPT2030代表了一個大規(guī)模、高度適應(yīng)性、高吞吐量的工作力。回想一下，GPT2030可以在平行副本上做180萬年的工作，其中每個副本以5倍于人類速度運行。這意味著我們可以（在并行性限制的情況下）在2.4個月內(nèi)模擬1.8百萬個代理人每人工作一年。

如上所述，我們可以支付每個FLOP的5倍價格，以獲得額外的25倍加速（達(dá)到125倍人類速度），因此我們也可以在3天內(nèi)模擬一萬四千個代理人每人工作一年。

局限性。利用這個數(shù)字化的工作力有三個障礙：技能配置、實驗成本和自主性。就第一點而言，GPT2030將具有與人類不同的技能配置，使其在某些任務(wù)上表現(xiàn)較差（但在其他任務(wù)上表現(xiàn)較好）。

在第二個障礙上，模擬工作人員仍然需要與世界接口以收集數(shù)據(jù)，這有自己的時間和計算成本。最后，在自主性方面，如今的模型在“卡住”之前只能生成數(shù)千個標(biāo)記的連續(xù)思路，進入不再產(chǎn)生高質(zhì)量輸出的狀態(tài)。在將復(fù)雜任務(wù)委托給模型之前，我們需要顯著提高可靠性。

我預(yù)計可靠性會增加，但并不是沒有限制：我（非常粗略地）猜測GPT2030在需要被重置或通過外部反饋進行引導(dǎo)之前，將能夠運行數(shù)天的人類等價時間。如果模型以5倍速度運行，這意味著它們需要每隔幾個小時進行人類監(jiān)督。

因此，GPT2030將最有影響的任務(wù)是：

利用GPT2030在相對于人類而言擅長的技能。

只需要可以迅速收集到的外部經(jīng)驗數(shù)據(jù)的任務(wù)（而不是昂貴的物理實驗）。

可以事先分解為可靠執(zhí)行的子任務(wù)，或者具有明確和可自動化的反饋指標(biāo)來幫助引導(dǎo)模型。

加速。一個很好滿足所有三個條件的任務(wù)是數(shù)學(xué)研究。在第一點上，GPT2030可能會具有超人的數(shù)學(xué)能力（第1節(jié)）。在第二和第三點上，數(shù)學(xué)可以通過純粹的思考和寫作來完成，我們知道何時一個定理被證明。而且全球總共的數(shù)學(xué)家并不多（例如，僅有3000人在美國），因此GPT2030可能能夠在幾天內(nèi)模擬出超過所有數(shù)學(xué)家年產(chǎn)出的數(shù)量。

重要部分的機器學(xué)習(xí)研究也滿足上述標(biāo)準(zhǔn)。GPT2030將會在編程方面超越人類，其中包括實施和運行實驗。我猜它也會擅長呈現(xiàn)和解釋實驗結(jié)果，因為GPT-4能夠以易于理解的方式解釋復(fù)雜的主題（并且市場需求很大）。

因此，機器學(xué)習(xí)研究可能會減少到思考進行良好實驗和與高質(zhì)量（但潛在不可靠）的實驗結(jié)果文稿進行交互。在2030年，研究生可能會擁有與今天的教授和幾名優(yōu)秀學(xué)生相同的資源。

社會科學(xué)的某些部分也可能會得到顯著加速。有很多論文中，大部分工作是追蹤、分類和標(biāo)記科學(xué)上有趣的數(shù)據(jù)源，并提取重要的模式，例如Acemoglu等人（2001年）或Webb（2020年）的代表性例子。這滿足了要求（3.），因為分類和標(biāo)記可以分解為簡單的子任務(wù)，而且它滿足了要求（2.），只要數(shù)據(jù)在互聯(lián)網(wǎng)上可用，或者可以通過在線調(diào)查收集到。

濫用。除了加速，還存在嚴(yán)重的濫用風(fēng)險。最直接的情況是網(wǎng)絡(luò)攻擊的能力。檢查特定目標(biāo)的特定漏洞可能是可靠的，而且可以檢查漏洞是否成功（在能夠與代碼交互的情況下），因此雙重滿足了要求（3.）。在（2.）方面，GPT2030需要與目標(biāo)系統(tǒng)進行交互，以知道攻擊是否奏效，這會帶來一些成本，但不足以成為一個重要的瓶頸。

此外，該模型可以在開源代碼上本地設(shè)計和測試漏洞作為訓(xùn)練數(shù)據(jù)，因此在需要與任何外部系統(tǒng)進行交互之前，它可以在很大程度上變得非常擅長于網(wǎng)絡(luò)攻擊。因此，GPT2030可以迅速對大量目標(biāo)進行復(fù)雜的并行網(wǎng)絡(luò)攻擊。

第二種濫用來源是操縱。如果GPT2030同時與數(shù)百萬用戶進行交互，那么它在一個小時內(nèi)獲得的關(guān)于人類互動的經(jīng)驗，遠(yuǎn)遠(yuǎn)超過了人類一生的經(jīng)驗（100萬小時=114年）。

如果它利用這些互動來學(xué)習(xí)操縱，那么它可以獲得遠(yuǎn)遠(yuǎn)超過人類的操縱技能 - 類似于，騙子在欺騙受害者方面很擅長，因為他們在之前已經(jīng)練習(xí)過幾百人，而GPT2030可以將這種能力擴大數(shù)個數(shù)量級。因此，在一對一的對話中，它可能非常擅長操縱用戶，或者在撰寫新聞文章以影響公眾輿論方面。

因此，總結(jié)一下，GPT2030可能會自動化幾乎所有數(shù)學(xué)研究以及其他研究領(lǐng)域的重要部分，并且可能成為關(guān)于網(wǎng)絡(luò)攻擊、說服/操縱的有力手段。它的很多影響都會受到“監(jiān)督瓶頸”的限制，因此，如果它能夠在長時間內(nèi)自主運行，那么它的影響可能會更大。

附錄：未來模型的運行時間和訓(xùn)練估算

A. 每分鐘生成的字?jǐn)?shù)

首先，我們將估計人類和當(dāng)前模型的每分鐘字?jǐn)?shù)。然后，我們將從當(dāng)前模型推導(dǎo)出未來模型的情況。

對于人類，我們可以測量五個數(shù)字：說話速度、閱讀速度、聽力速度以及“橢圓”和“擴展”思考速度。關(guān)于前三者，Rayner和Clifton（2009）指出閱讀速度為每分鐘300字，說話速度為每分鐘160字，而聽力速度可能比說話速度快2-3倍（因此大約每分鐘400字）。

對于思考速度，我們需要區(qū)分“橢圓”思維和“擴展”思維事實證明我們的思維是在詞匯的閃爍中進行的，而不是完整句子，如果我們將這些閃爍延伸到完整句子，會得到非常不同的字?jǐn)?shù)（相差約10倍）。

Korba（2016）發(fā)現(xiàn)橢圓思維的速度為每分鐘380字，而擴展思維的速度為每分鐘約4200字。由于這些數(shù)字大多在300-400 wpm的范圍內(nèi)，我將使用每分鐘380字作為人類思維速度的估計。根據(jù)OpenAI提供的4:3令牌到字?jǐn)?shù)比，這相當(dāng)于每分鐘500個字節(jié)。

（感謝Lev McKinney在以下段落中運行評估。）

接下來，讓我們考慮當(dāng)前的模型。我們查詢了gpt-3.5-turbo和gpt-4，以及EleutherAI的幾個開源模型，以對它們的推斷速度進行基準(zhǔn)測試。我們通過查詢模型從1數(shù)到n，其中n從100到1900，步長為100。

由于數(shù)字包含多個字節(jié)，我們在模型生成n個字節(jié)時將其截斷，并測量經(jīng)過的時間。然后，我們進行了帶有偏置項的線性回歸，以考慮延遲，以估計每秒生成的字節(jié)數(shù)。

GPT-4和GPT-3.5-turbo于2023年4月初從OpenAI AIP查詢。所有pythia模型的實驗都是使用deepspeed注入內(nèi)核和fp16模型在一個A100 GPU上執(zhí)行的。可以在https://github.com/levmckinney/llm-racing找到復(fù)制這些結(jié)果的代碼。

原始數(shù)據(jù)如下圖所示

上圖展示了模型推斷隨著字節(jié)輸入的變化。請注意，在這些上下文長度下，每個字節(jié)的時間保持相對線性。

上圖和下表展示了模型推斷速度隨大小的變化情況。誤差條表示95％的置信區(qū)間。

因此，GPT-4的推斷速度接近人類的基準(zhǔn)值500個標(biāo)記/分鐘，而GPT-3.5-turbo則快大約3倍。更小的模型速度甚至快上一個數(shù)量級，這表明即使更快的推斷速度是可能的，但也暗示未來更大的模型可能會變慢（未考慮更好的硬件和其他優(yōu)化）。實際推斷速度似乎在模型大小下以亞線性的方式減慢在pythia模型中，將大小增加k倍會將推斷速度減少大約k^0.6。

那么模型的每分鐘單詞數(shù)將如何在未來變化？有因素推動速度變快和變慢：

- 更大的模型更昂貴，特別是如果它們有更多的層（較大的寬度可以并行，但較大的深度不能）。

- 推斷通常會進行更多優(yōu)化，例如通過提前退出、稀疏注意、跨GPU并行化或更好的硬件。在這方面有相當(dāng)大的潛力，尤其是來自并行化和硬件（見下面的討論）。

- 特別是，將有很多動力使模型足夠快，以便容易使用（例如，比人類閱讀速度更快）。

在對模型大孝GPU架構(gòu)等趨勢的大量數(shù)據(jù)進行了10多個小時的分析后，我主要得出的結(jié)論是，我對更大的模型與更好的硬件和軟件之間的競爭趨勢如何發(fā)展非常不確定。

我中位數(shù)的猜測是，我們將獲得比人類明顯更快的模型（5倍），但我對速度從比人類慢2倍到比人類快20倍的各種情況都不感到驚訝。

重要的是，這些速度只是在我們要求GPU的最大吞吐量的情況下。如果我們愿意以k倍的吞吐量為代價，我們可以將推斷速度提高k^2倍，直至達(dá)到相當(dāng)大的k值。因此，如果模型默認(rèn)只比人類快5倍，那么可以在吞吐量減少5倍的情況下將其提速至125倍，如果有必要，這還可以進一步提高。

最后，除了純粹的速度，每分鐘單詞數(shù)在人類和語言模型之間并不是可比的。首先，語言模型不僅在思考，還在寫作，而且在某些情況下，它們的寫作內(nèi)容對人類來說可能要慢得多（例如，代碼或帶有引用的論點）。

另一方面，語言模型目前相當(dāng)嗦，因此語言模型的一個單詞不如人類的一個單詞進行“工作”多。這種嗦性可以通過微調(diào)消除，但我們不確定能否達(dá)到人類的“橢圓思維”的效率。

最后，令牌化和單詞復(fù)雜性將隨時間而變化，因此從單詞到標(biāo)記的1.333倍轉(zhuǎn)換比率不會保持恒定（事實上，我猜對于今天的模型來說，它已經(jīng)是一種低估，因為它們現(xiàn)在傾向于使用帶有前綴和后綴的復(fù)雜詞語）。

有關(guān)并行化和硬件加速的詳細(xì)信息。正如《我們能多快執(zhí)行前向傳遞？》一文所述，存在著可以顯著增加串行推斷速度的并行平鋪方案，而只有很小的開銷。例如，對GPT-3進行并行平鋪會使其在A100集群上的推斷速度相對于在單個8-GPU機器上運行時提高30倍或更多。

這些優(yōu)化目前并沒有被廣泛使用，因為它們對于訓(xùn)練不是有用的，而且稍微減少了推斷吞吐量，但一旦推斷時間成為瓶頸，人們會開始使用它們。

就硬件而言，GPU的性能正在提升，這將加快推斷速度。然而，GPU的設(shè)計越來越需要更大的算術(shù)強度，這將減少可能的并行平鋪（見上一點）。供參考，我在下面列出了所有NVIDIA GPU的規(guī)格。

“Mem Bandwidth”（內(nèi)存帶寬）一欄測量了沒有任何跨GPU并行化時的串行吞吐量，而最終的M3/C2一欄測量了在保持足夠高算術(shù)強度的最大跨GPU并行化下的串行吞吐量。前者持續(xù)增加，而后者波動較大，但趨于減少。

（以下是表格數(shù)據(jù)，由于文字描述無法準(zhǔn)確呈現(xiàn)表格，請參考原文）

這里是來自NVIDIA GPU的一些規(guī)格，表格中的“Mem Bandwidth”是指沒有進行任何跨GPU并行化時的串行吞吐量，而最后一欄的M3/C2是指在保持足夠高算術(shù)強度的最大跨GPU并行化下的串行吞吐量。

請注意，這些硬件規(guī)格數(shù)據(jù)是在原始帖子中提供的，隨著硬件技術(shù)的不斷更新，這些數(shù)據(jù)可能已經(jīng)發(fā)生了變化。

B. 訓(xùn)練成熟度

將來可能會有足夠的資源來運行訓(xùn)練過的模型的許多副本。以GPT-3為例，它需要3.1e23個浮點運算（FLOP）來進行訓(xùn)練，并且執(zhí)行前向傳遞需要3.5e11個FLOP，因此可以用訓(xùn)練成本來運行9e11次前向傳遞。根據(jù)附錄A中的每分鐘500個標(biāo)記的轉(zhuǎn)換，這相當(dāng)于約3400年的人類思維時間。

未來會如何變化？我將使用Chinchilla的縮放定律和未來訓(xùn)練成本的預(yù)測來進行初步估計，然后考慮可能偏離Chinchilla趨勢的方式。對于未來的訓(xùn)練成本，我考慮了Besiroglu等人（2022）的預(yù)測，他們分析了500多個現(xiàn)有模型，以推斷機器學(xué)習(xí)中的計算趨勢。

他們對2030年訓(xùn)練FLOP的中央預(yù)測是4.7e28，范圍為5.1e26至3.0e30。Metaculus也有類似的估計為2.3e27（截至2031年1月1日）。取幾何中位數(shù)，我將使用1.0e28作為我對訓(xùn)練FLOP的估計，這相當(dāng)于GPT-3的33,000倍增長。

由于Chinchilla的縮放定律暗示模型大小（因此推斷成本）隨著訓(xùn)練成本的平方根增長，這意味著訓(xùn)練成熟度應(yīng)該增加sqrt(33000)，大約是180倍。因此，3400年的人類思維時間將增加到620,000年。

然而，還有一個額外的考慮，即GPT-3實際上在訓(xùn)練規(guī)模上存在不足。給定其訓(xùn)練成本，GPT-3的理想大小應(yīng)該是現(xiàn)在的四分之一，因此需要添加一個額外的因子4，得到2.5M年的人類思維時間，范圍從0.8M到9M，考慮到訓(xùn)練FLOP數(shù)量的不確定性。

接下來，讓我們考慮與Chinchilla的縮放定律偏離。最明顯的偏離是我們可能很快就會耗盡數(shù)據(jù)。這可能意味著相對于更多的數(shù)據(jù)，更大的模型變得更有吸引力（這會減少訓(xùn)練成熟度），或者我們生成額外的合成數(shù)據(jù)（使創(chuàng)建數(shù)據(jù)更加計算密集，這會增加訓(xùn)練成熟度），或者我們轉(zhuǎn)向新的數(shù)據(jù)豐富的形式，比如視頻（對訓(xùn)練成熟度的影響不明確，可能會增加它）。粗略地界定這些效應(yīng)：

下限：Villalobos等人（2022）估計，到2026年，我們將耗盡高質(zhì)量的語言數(shù)據(jù)（例如維基百科、書籍、科學(xué)論文等），盡管我們在2030年之前不會耗盡低質(zhì)量的數(shù)據(jù)（例如網(wǎng)頁）。在一個悲觀的情況下，高質(zhì)量數(shù)據(jù)是一個完全具有約束力的條件，Villalobos等人的模型意味著數(shù)據(jù)集的大小到2030年會增加8倍，訓(xùn)練成熟度只會增加8倍，而不是180倍。

上限：如果我們用盡了數(shù)據(jù)，我們可能會生成新的合成數(shù)據(jù)。Huang等人（2022）中的一個可能性是像鏈?zhǔn)剿季S精餾一樣。在那篇論文中，每個輸入實例會生成32個思維鏈，其中只有一部分用于訓(xùn)練更新。假設(shè)平均有5個32個思維鏈用于訓(xùn)練更新，并且反向傳遞的成本是前向傳遞的兩倍。那么，每次訓(xùn)練更新的成本相當(dāng)于8.4個前向傳遞，相比之下之前是3個，或者增加了2.8倍。在Chinchilla的縮放定律下，這個成本前傳到訓(xùn)練成熟度的額外增加，即sqrt(2.8) = 1.7倍增加，即300倍而不是180倍。

總體而言，下限對我來說似乎相當(dāng)悲觀，因為我們幾乎肯定會找到一些方法來利用低質(zhì)量或合成數(shù)據(jù)。另一方面，除了耗盡數(shù)據(jù)，我們可能會通過課程學(xué)習(xí)等方式找到使訓(xùn)練過程更加高效的方法。在考慮這些因素的情況下，我個人的猜測是，我們的訓(xùn)練成熟度將在12倍至200倍之間，中央估計為100倍，從而得到大約18萬年的人類思維時間的訓(xùn)練成熟度。我們還需要擴大范圍，以考慮到對Chinchilla縮放定律的偏離所帶來的額外不確定性。主觀地說，我會將范圍增加到40萬到1000萬。

所有這些估計都是針對2030年的。一般來說，上述數(shù)字對于晚些年份來說會更大，而對于早些年份來說會更校

作為一個額外的比較點，Karnofsky（2022年）（在Cotra，2020年的基礎(chǔ)上）估計，培訓(xùn)一個人類級別的模型所需的計算量足以讓100百萬份模型每個運行一年，盡管這個估計假設(shè)培訓(xùn)使用了1e30個浮點運算（FLOPs）而不是1e28。即使考慮到這一點，對我來說似乎有點過高了，根據(jù)上面的平方根縮放，我會更接近180萬而不是1億。

不過實際上，如果做得正確，零階預(yù)測已經(jīng)會很有幫助了！許多對ChatGPT感到驚訝的人可能已經(jīng)對text-davinci-003感到印象深刻，雖然后者發(fā)布得更早，但界面不太友好。

作為具體的比較點，GPT-3的計算量只足以進行3400個經(jīng)過人類調(diào)整的工作年，我猜它每天可能不到100個經(jīng)過調(diào)整的學(xué)習(xí)年。我猜GPT-4的計算量約為13萬人類調(diào)整的工作年和125個調(diào)整年的學(xué)習(xí)。因此，GPT2030在這兩個軸上至少是一個數(shù)量級更大。

在整個文檔中，括號中的范圍表示我的預(yù)測分布的25th到75th百分位數(shù)。實際上，范圍可能過窄，因為我只進行了主線預(yù)測，沒有考慮“其他”選項。

從定性上看，GPT-4 Bubeck等人還發(fā)現(xiàn)，GPT-4可以零射擊生成一個400行的3D游戲，這對于幾乎所有人類來說可能是不可能的。

關(guān)于此事的討論，請參閱“Forecasting ML Benchmarks in 2023”。

具體來說，我會給以下情況分配50%的概率：“如果我們從Electronic Journal of Combinatorics中隨機選擇5個定理陳述，并將它們交給UCSD的數(shù)學(xué)系，GPT2030在解決問題的比例上會比中位數(shù)教員解決的問題多，并且在解決問題時所需的時間會比中位數(shù)教員短。”

我假設(shè)初始訓(xùn)練運行時間不到一年（Sevilla等，2022年），因此可以推出該組織至少可以并行運行9 x 10^11次前向傳遞，但要受到推理速度的限制。為了在2.4個月內(nèi)做到這一點，他們可能需要進一步改進。

我認(rèn)為這是合理的（但不確定），因為組織可能在不到一年的時間內(nèi)訓(xùn)練了該模型，并且在推理方面可能有一些技巧可用，這些技巧在訓(xùn)練中不可用。

第二個因素是，GPT-3的訓(xùn)練是不完美的，使用Chinchilla風(fēng)格的理想大小本應(yīng)是更小的，所以我們需要額外增加4倍的因子，從而得到2.5百萬人年，范圍從0.8百萬到900萬，考慮到訓(xùn)練FLOP數(shù)量的不確定性。

此外，根據(jù)Metaculus的估計，2030年最大的訓(xùn)練模型將具有2.5e15個參數(shù)（截至2030年1月1日），意味著前向傳遞成本為5e15 FLOPs。如果我們簡單地計算比值，我們會再次得到9e11次前向傳遞，但我認(rèn)為這不是正確的計算，因為最大的訓(xùn)練模型可能不會是當(dāng)時的尖端水平，而更像是174萬億參數(shù)的BaGuaLu模型。

我根據(jù)Metaculus對其估計的25%到75%百分位數(shù)范圍為5M到660M，并將不確定性傳遞到平方根函數(shù)中。