展會信息港展會大全

AI大模型在2030年會是什么樣子?
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-08-19 10:32:45   瀏覽:15002次  

導(dǎo)讀:導(dǎo)語:一個比人類速度快5倍的模型可以通過設(shè)置將速度提高到比人類速度快125倍。 本文作者為加州伯克利分校助理教授Jacob Steinhardt。 GPT-4以其在編碼、創(chuàng)意頭腦風(fēng)暴、寫信和其他技能方面的能力,讓許多人感到驚訝。機器學(xué)習(xí)領(lǐng)域的驚喜并不僅限于GPT-4:我...

導(dǎo)語:一個比人類速度快5倍的模型可以通過設(shè)置將速度提高到比人類速度快125倍。

本文作者為加州伯克利分校助理教授Jacob Steinhardt。

GPT-4以其在編碼、創(chuàng)意頭腦風(fēng)暴、寫信和其他技能方面的能力,讓許多人感到驚訝。機器學(xué)習(xí)領(lǐng)域的驚喜并不僅限于GPT-4:我之前也因Minerva在數(shù)學(xué)能力方面的表現(xiàn)感到驚訝,很多競爭性預(yù)測者也是如此。

我們?nèi)绾文軌驅(qū)C器學(xué)習(xí)的發(fā)展有更少的驚訝?我們的大腦通常會隱式地進行零階預(yù)測:查看當(dāng)前的技術(shù)水平,并添加“似乎合理”的改進。但是,所謂的“似乎合理”容易受到認(rèn)知偏見的影響,并且會低估像機器學(xué)習(xí)這樣快速發(fā)展領(lǐng)域的進展。

一種更有效的方法是一階預(yù)測:量化歷史進展速度,并將其向前推演,同時考慮可能出現(xiàn)的放緩或加速原因。

在這篇文章中,我將使用這種方法來預(yù)測2030年大型預(yù)訓(xùn)練機器學(xué)習(xí)系統(tǒng)的特性。我將一直提到“GPT2030”,這是一個假設(shè)性的系統(tǒng),具有我們預(yù)期在2030年大型語言模型中可能具備的能力、計算資源和推理速度(但很可能也會在其他形式上進行訓(xùn)練,比如圖像)。

為了預(yù)測GPT2030的特性,我參考了多種信息源,包括經(jīng)驗性的縮放規(guī)律、未來計算和數(shù)據(jù)可用性的預(yù)測、特定基準(zhǔn)測試中改進的速度、當(dāng)前系統(tǒng)經(jīng)驗性的推理速度,以及可能的并行性改進。

GPT2030的能力事實上是令人驚訝的(至少對我來說是如此)。特別是,相較于當(dāng)前的系統(tǒng),GPT2030將在許多方面擁有顯著的優(yōu)勢,甚至在某些重要方面優(yōu)于當(dāng)前的人類工作者:

GPT2030可能在多個具體任務(wù)上表現(xiàn)出超越人類的能力,包括編碼、黑客攻擊、數(shù)學(xué),甚至可能包括蛋白質(zhì)設(shè)計(第1節(jié))。

GPT2030能夠快速“工作”和“思考”:我估計它每分鐘處理的文字?jǐn)?shù)量將是人類的5倍,以此作為衡量標(biāo)準(zhǔn)[范圍:0.5倍-20倍],通過支付每FLOP的費用提高5倍,這個速度可能增加到125倍(第2節(jié))。

GPT2030可以任意復(fù)制并進行并行運算。訓(xùn)練GPT2030的組織將擁有足夠的計算能力來運行許多并行副本:我估計足以在調(diào)整為人類工作速度時執(zhí)行180萬年的工作[范圍:40萬-1000萬年](第3節(jié))?紤]到前面提到的5倍加速,這項工作可以在2.4個月內(nèi)完成。

由于具有相同的模型權(quán)重,GPT2030的副本可以共享知識,從而實現(xiàn)快速的并行學(xué)習(xí):我估計相當(dāng)于2500年人類學(xué)習(xí)的內(nèi)容可以在1天內(nèi)完成(第4節(jié))。

GPT2030將在除文本和圖像之外的其他形式上進行訓(xùn)練,可能包括分子結(jié)構(gòu)、網(wǎng)絡(luò)流量、低級機器代碼、天文圖像和腦部掃描等令人意想不到的形式。因此,在我們經(jīng)驗有限的領(lǐng)域中,它可能會具有強大的直觀理解能力,包括形成我們尚未具備的概念(第5節(jié))。

這些能力將至少加速許多研究領(lǐng)域,同時也會產(chǎn)生嚴(yán)重的濫用風(fēng)險(第6節(jié))。關(guān)于濫用,GPT2030的編程能力、并行化和速度將使其成為潛在的網(wǎng)絡(luò)攻擊威脅。此外,它快速的并行學(xué)習(xí)也可以用于分析人類行為,從而用幾千個“年份”的實踐來操縱和誤導(dǎo)。

在加速方面,主要的瓶頸將是自主性。在像數(shù)學(xué)研究這樣的領(lǐng)域,可以進行自動檢查的工作,我預(yù)測GPT2030將超過大多數(shù)專業(yè)數(shù)學(xué)家。

在機器學(xué)習(xí)領(lǐng)域,我預(yù)測GPT2030將獨立執(zhí)行實驗、生成圖表和報告,但研究生和研究科學(xué)家將提供方向并評估結(jié)果。在這兩種情況下,GPT2030將是研究過程的重要組成部分。

我對GPT2030性能的預(yù)測并不是從今天的系統(tǒng)中直觀得出的,它們可能是錯誤的,因為關(guān)于2023年機器學(xué)習(xí)的形態(tài)存在很大的不確定性。然而,上述(1.-5.)的性能是我中位數(shù)的預(yù)測,無論GPT2030是什么樣子,我都懷疑它不會是“只是比GPT-4好一點”。

如果我是對的,那么無論人工智能的影響是什么,它們都不會是微不足道的。我們應(yīng)該現(xiàn)在就為這些影響做好準(zhǔn)備,思考在最大的尺度上會發(fā)生什么(大約在1萬億美元、1000萬人生命或?qū)ι鐣鞒痰闹卮蟾蓴_范圍內(nèi)),F(xiàn)在被驚訝總比在7年后系統(tǒng)已經(jīng)開始推出時被驚訝要好。

具體能力

我預(yù)計GPT2030將具備超越人類的編碼、黑客攻擊和數(shù)學(xué)能力。我還預(yù)計它在閱讀和處理大規(guī)模語料庫以尋找模式和洞見、以及回憶事實方面將具備超人能力。

最后,由于AlphaFold和AlphaZero在蛋白質(zhì)結(jié)構(gòu)預(yù)測和游戲玩法方面具備超人能力,GPT2030可能也會具備這些能力,例如,如果它在類似于AlphaFold/AlphaZero模型的數(shù)據(jù)上進行了多模態(tài)訓(xùn)練。

編程。在訓(xùn)練截止日期后,GPT-4在LeetCode問題上超越了強大的人類基準(zhǔn)(Bubeck等,2023年,表2),并且通過了幾家主要科技公司的模擬面試(圖1.5)。改進的速度仍然很高,從GPT-3到4的躍升達(dá)到了19%。在更具挑戰(zhàn)性的CodeForces比賽中,GPT-4表現(xiàn)不佳,但AlphaCode與中位數(shù)CodeForces競爭者持平。在更具挑戰(zhàn)性的APPS數(shù)據(jù)集上,Parsel進一步超越了AlphaCode(7.8%->25.5%)。

展望未來,預(yù)測平臺Metaculus在2027年預(yù)測了80%的中位數(shù)概率,這將超過所有除了最優(yōu)秀的人類之外的所有人。

黑客攻擊。我預(yù)計黑客攻擊能力會隨著一般編程能力的提高而改進,再加上機器學(xué)習(xí)模型可以比人類更可擴展且更有責(zé)任感地搜索大規(guī)模代碼庫中的漏洞。事實上,ChatGPT已經(jīng)被用于幫助生成漏洞利用。

數(shù)學(xué)。Minerva在競賽數(shù)學(xué)基準(zhǔn)(MATH)上實現(xiàn)了50%的準(zhǔn)確率,這比大多數(shù)人類競爭者表現(xiàn)要好。進展速度很快(1年內(nèi)>30%),并且通過自動形式化、減少算術(shù)錯誤、改進思路鏈條以及改善數(shù)據(jù)等,存在顯著的低懸果實。Metaculus預(yù)測到2025年MATH將達(dá)到92%的準(zhǔn)確率,并在2028年前,預(yù)測人工智能在國際數(shù)學(xué)奧林匹克競賽上獲得金牌,與全球最優(yōu)秀的高中學(xué)生水平持平。

我個人預(yù)計GPT2030在證明良好定理方面將優(yōu)于大多數(shù)專業(yè)數(shù)學(xué)家。

信息處理。事實回憶和處理大規(guī)模語料庫是語言模型記憶能力和大上下文窗口的自然結(jié)果。根據(jù)經(jīng)驗,GPT-4在廣泛的標(biāo)準(zhǔn)化考試(包括法律考試、MCAT以及大學(xué)數(shù)學(xué)、物理、生物化學(xué)和哲學(xué)考試)中的準(zhǔn)確率達(dá)到86%;即使考慮到可能的訓(xùn)練-測試污染,這可能超過了任何活著的人的知識廣度。

關(guān)于大規(guī)模語料庫,Zhong等(2023年)使用GPT-3構(gòu)建了一個系統(tǒng),在大型文本數(shù)據(jù)集中發(fā)現(xiàn)和描述了幾個先前未知的模式,Bills等(2023年)中的相關(guān)任務(wù)的規(guī)模趨勢表明,模型很快將具備超人能力。這些作品都利用了LLM(大型語言模型)的大上下文窗口,現(xiàn)在已超過10萬個標(biāo)記并在不斷增長。

更一般地說,機器學(xué)習(xí)模型具有與人類不同的技能特點,因為人類和機器學(xué)習(xí)是針對非常不同的數(shù)據(jù)源(演化與大規(guī);ヂ(lián)網(wǎng)數(shù)據(jù))。當(dāng)模型在視頻識別等任務(wù)上達(dá)到人類水平時,它們可能在許多其他任務(wù)上也具備超人能力(如數(shù)學(xué)、編程和黑客攻擊)。

此外,由于模型越來越大且數(shù)據(jù)越來越好,還可能會出現(xiàn)其他強大的能力,沒有強有力的理由認(rèn)為模型能力會在人類水平上或以下“停滯不前”。雖然當(dāng)前的深度學(xué)習(xí)方法在某些領(lǐng)域可能達(dá)不到人類水平的能力,但也有可能在某些領(lǐng)域超越它們,甚至可能會在某些領(lǐng)域顯著超越,特別是在人類沒有進化專門化的數(shù)學(xué)等領(lǐng)域。

推理速度

(感謝Lev McKinney為本節(jié)運行性能基準(zhǔn)測試。)

為了研究機器學(xué)習(xí)模型的速度,我們將衡量機器學(xué)習(xí)模型生成文本的速度,與人類的思考速度相比為每分鐘380個單詞(Korba(2016),詳見附錄A)。使用OpenAI的聊天補全API,我們估計gpt-3.5-turbo每分鐘可以生成1200個單詞(wpm),而gpt-4截至2023年4月初每分鐘生成370個單詞。像pythia-12b這樣的較小的開源模型,在A100 GPU上使用現(xiàn)成的工具至少可以實現(xiàn)1350 wpm,而通過進一步優(yōu)化,這個速度可能會達(dá)到這個值的兩倍。

因此,如果我們考慮到2023年4月的OpenAI模型,我們要么大約是人類速度的3倍,要么等于人類速度。我預(yù)測未來模型的推理速度會更快,因為有強烈的商業(yè)和實際壓力促使推理速度加快。

實際上,在發(fā)布本文的前一周,根據(jù)Fabien Roger的追蹤數(shù)據(jù),GPT-4的速度已經(jīng)提高到了約540wpm(每秒12個標(biāo)記);這說明仍然有改進的空間和需求。

我的中位數(shù)預(yù)測是,模型將具有人類文字/分鐘的5倍(范圍:[0.5x,20x]),因為在進一步提高速度方面,可能會出現(xiàn)遞減的實際效益,盡管有一些因素可能指向更高或更低的數(shù)字。我在附錄A中提供了這些考慮的詳細(xì)列表,以及在不同模型規(guī)模和實驗細(xì)節(jié)中的速度比較。

重要的是,機器學(xué)習(xí)模型的速度并不是固定的。模型的串行推理速度可以通過成本為$k$的吞吐量$k^2$的$k$倍減少來增加(換句話說,可以用一個$k^2$倍更快的模型替換$k^3$個并行模型)。這可以通過并行平鋪方案來實現(xiàn),即使對于$k^2$的大值,理論上也可以運行,可能至少是100,甚至可能更多。

因此,一個比人類速度快5倍的模型可以通過設(shè)置$k=5$將速度提高到比人類速度快125倍。

一個重要的警告是速度不一定與質(zhì)量相匹配:如第1節(jié)所述,GPT2030的技能特點與人類不同,在我們認(rèn)為容易的一些任務(wù)上失敗,在我們認(rèn)為困難的一些任務(wù)上取得成功。因此,我們不應(yīng)該將GPT2030視為“加速的人類”,而應(yīng)該將其視為“加速的工作者”,具有潛在的反直覺技能特點。

然而,考慮速度提升仍然是有意義的,尤其是當(dāng)速度提升較大時。對于具有125倍速度提升的語言模型,我們需要一天才能完成的認(rèn)知行為,可能只需幾分鐘,前提是它們在GPT2030的技能范圍內(nèi)。使用之前黑客攻擊的例子,我們難以生成的漏洞利用或攻擊可能會被機器學(xué)習(xí)系統(tǒng)快速生成。

吞吐量和并行副本

模型可以在可用的計算資源和內(nèi)存的限制下任意復(fù)制。這使它們能夠迅速完成任何可以有效并行化的工作。此外,一旦某個模型被微調(diào)為特別有效,該變化可以立即傳播到其他實例。模型還可以為專門的任務(wù)進行蒸餾,從而運行速度更快、更便宜。

一旦訓(xùn)練完一個模型,很可能會有足夠的資源來運行許多復(fù)制品。這是因為訓(xùn)練一個模型需要并行運行多個副本,而訓(xùn)練模型的組織在部署時仍然擁有這些資源。因此,我們可以通過估計訓(xùn)練成本來下限估計副本的數(shù)量。

以GPT-3的訓(xùn)練成本為例,足以對其進行9 x 10^11次前向傳遞。換算成人類等效術(shù)語,人類每分鐘思考380個單詞(見附錄A),每個單詞平均1.33個標(biāo)記,因此9 x 10^11次前向傳遞相當(dāng)于以人類速度進行~3400年的工作。因此,該組織可以在一年內(nèi)以人類工作速度運行3400個模型的并行副本,或者在5倍人類速度下可能在2.4個月內(nèi)運行相同數(shù)量的副本。(注意:后一點取決于組織可以運行多少并行實例。)

接下來,讓我們將相同的“訓(xùn)練過剩”(訓(xùn)練成本與推理成本的比率)投影到未來的模型上。它應(yīng)該會更大:主要原因是訓(xùn)練過剩大致與數(shù)據(jù)集大小成正比,而數(shù)據(jù)集隨著時間的推移在增加。

隨著我們耗盡自然生成的語言數(shù)據(jù),這種趨勢會減緩,但新的模式以及合成或自動生成的數(shù)據(jù)仍然會推動它前進。

在附錄B中,我詳細(xì)考慮了這些因素,以進行到2030年的預(yù)測。我預(yù)測,到2030年,模型將具備足夠的資源進行180萬年的工作,調(diào)整為人類速度[范圍:40萬-1000萬]。

注意,Cotra(2020年)和Davidson(2023年)估計了類似的數(shù)量,得出的數(shù)字比我的大;我猜測主要的區(qū)別是我如何對耗盡自然語言數(shù)據(jù)的影響建模。

上述預(yù)測在某種程度上是保守的,因為如果組織購買了額外的計算資源,模型可能會在比訓(xùn)練時使用更多的資源上運行。一個快速的估算表明,GPT-4是在全球所有計算資源的約0.01%上進行訓(xùn)練的,盡管我預(yù)計未來的訓(xùn)練將占據(jù)更大比例的全球計算資源,并因此在訓(xùn)練后的擴展空間較校盡管如此,如果組織有充分的理由這么做,它們可能還可以將運行的副本數(shù)量增加一個數(shù)量級。

知識共享

(感謝Geoff Hinton首次向我提出這個觀點。)

不同副本的模型可以共享參數(shù)更新。例如,ChatGPT可以部署到數(shù)百萬用戶中,從每次交互中學(xué)到一些東西,然后將梯度更新傳播到一個中央服務(wù)器,這些更新會被平均起來并應(yīng)用于所有模型的副本。

通過這種方式,ChatGPT在一個小時內(nèi)可以觀察到關(guān)于人類本性的更多內(nèi)容,而人類在一生中可能無法做到這一點(100萬小時=114年)。并行學(xué)習(xí)可能是模型具有的最重要的優(yōu)勢之一,因為這意味著它們可以迅速學(xué)習(xí)任何缺失的技能。

并行學(xué)習(xí)的速率取決于同時運行的模型副本數(shù)量、它們能夠獲取數(shù)據(jù)的速度以及數(shù)據(jù)是否能夠在并行中有效地利用。在最后一個問題上,即使極端并行化也不應(yīng)該對學(xué)習(xí)效率造成太大影響,因為實踐中的批處理大小通常在數(shù)百萬。

根據(jù)McCandlish等人(2018年)的研究,梯度噪聲規(guī)模預(yù)測在某個“臨界批處理大小”以下,學(xué)習(xí)性能的降低非常校因此,我們將重點放在并行副本和數(shù)據(jù)獲取上。

我將提供兩個估計,兩者都表明,在人類速度下,至少可以有大約100萬個模型副本同時進行學(xué)習(xí)。這相當(dāng)于每天2500個人類等效的學(xué)習(xí)年,因為100萬天=2500年。

第一個估計使用了第3節(jié)中的數(shù)字,該節(jié)得出的結(jié)論是訓(xùn)練模型的成本足以模擬模型進行180萬年的工作(調(diào)整為人類速度)。假設(shè)訓(xùn)練過程本身持續(xù)時間不到1.2年(Sevilla等,2022年),這意味著訓(xùn)練模型的組織在以人類速度運行150萬個副本的情況下?lián)碛凶銐虻腉PU。

第二個估計考慮了部署模型的組織的市場份額。例如,如果同時有100萬用戶查詢模型,那么組織必然有足夠的資源來為100萬個模型副本提供服務(wù)。作為一個估算,截至2023年5月,ChatGPT擁有1億用戶(并非同時都在活躍),并且截至2023年1月,每天有1300萬活躍用戶。

我會假設(shè)典型用戶請求幾分鐘的模型生成文本,因此1月份的數(shù)字可能只意味著每天約0.05百萬人天的文本。然而,未來類似于ChatGPT的模型可能會增加到20倍,達(dá)到每天2.5億活躍用戶或更多,因此每天產(chǎn)生100萬人天的數(shù)據(jù)。作為對比,F(xiàn)acebook擁有20億每日活躍用戶。

模態(tài)、工具和執(zhí)行器

從歷史上看,GPT風(fēng)格的模型主要是在文本和代碼上進行訓(xùn)練,并且除了通過聊天對話以外,與外界互動的能力有限。然而,這種情況正在迅速改變,因為模型正在被訓(xùn)練用于其他模態(tài),比如圖像,也在被訓(xùn)練使用工具,并開始與物理執(zhí)行器進行交互。

此外,模型不會局限于人類中心的模態(tài),如文本、自然圖像、視頻和語音,它們很可能還會在不熟悉的模態(tài)上進行訓(xùn)練,比如網(wǎng)絡(luò)流量、天文圖像或其他大規(guī)模的數(shù)據(jù)源。

工具。最近發(fā)布的模型使用外部工具,正如我們在ChatGPT插件、Schick等人(2023年)、Yao等人(2022年)和Gao等人(2022年)的研究中所看到的。將文本與工具使用相結(jié)合足以編寫能夠執(zhí)行的代碼,說服人類代表他們采取行動,進行API調(diào)用,進行交易,甚至可能進行網(wǎng)絡(luò)攻擊。工具使用在經(jīng)濟上很有用,因此將有強烈的動力進一步發(fā)展這種能力。

ChatGPT是一種反應(yīng)型系統(tǒng):用戶說X,ChatGPT用Y進行回應(yīng)。風(fēng)險存在,但是是有界的。很快將誘惑出現(xiàn)主動型系統(tǒng) - 一種助手將為您回復(fù)電子郵件,代表您采取行動等。風(fēng)險將會大大增加。- Percy Liang (@percyliang) 2023年2月27日

新的模態(tài)。現(xiàn)在已經(jīng)有大規(guī)模的開源視覺語言模型,比如OpenFlamingo,而在商業(yè)領(lǐng)域,GPT-4和Flamingo都是在視覺和文本數(shù)據(jù)上進行訓(xùn)練的。研究人員還在嘗試使用更奇特的模態(tài)對,如蛋白質(zhì)和語言(Guo等,2023年)。

我們應(yīng)該期望大型預(yù)訓(xùn)練模型的模態(tài)繼續(xù)擴展,有兩個原因。首先,在經(jīng)濟上,將語言與不太熟悉的模態(tài)(如蛋白質(zhì))配對是有用的,這樣用戶可以從解釋中受益,并有效地進行編輯。這預(yù)測蛋白質(zhì)、生物醫(yī)學(xué)數(shù)據(jù)、CAD模型以及與主要經(jīng)濟領(lǐng)域相關(guān)的任何其他模態(tài)將進行多模態(tài)訓(xùn)練。

其次,我們開始耗盡語言數(shù)據(jù),因此模型開發(fā)者將尋找新類型的數(shù)據(jù)以繼續(xù)從規(guī)模效益中受益。除了傳統(tǒng)的文本和視頻外,一些現(xiàn)有的最大數(shù)據(jù)來源是天文數(shù)據(jù)(很快將達(dá)到每天的艾字節(jié)級)和基因組數(shù)據(jù)(約0.1艾字節(jié)/天)。這些和其他大規(guī)模數(shù)據(jù)源很可能會被用于訓(xùn)練GPT2030。

使用奇特的模態(tài)意味著GPT2030可能具有非直觀的能力。它可能會比我們更好地理解星星和基因,即使在處理基本的物理任務(wù)時會有困難。這可能會帶來一些意外,比如設(shè)計新型蛋白質(zhì),這是基于GPT2030的“通用”智能水平,我們本不會預(yù)期的。在思考GPT2030的影響時,重要的是要考慮到由于這些奇特數(shù)據(jù)來源可能導(dǎo)致的特定超人能力。

執(zhí)行器。模型也開始使用物理執(zhí)行器:ChatGPT已經(jīng)被用于控制機器人,OpenAI正在投資一家人形機器人公司。然而,收集物理領(lǐng)域的數(shù)據(jù)要比數(shù)字領(lǐng)域更加昂貴,而且人類在物理領(lǐng)域也更適應(yīng)進化(因此ML模型與我們競爭的門檻更高)。

與數(shù)字工具相比,我預(yù)計掌握物理執(zhí)行器的速度會更慢,并且我不確定我們是否應(yīng)該在2030年之前期望這種情況。定量地說,我會給2030年是否會有一種能夠自動組裝與Metaculus問題中定義的比例復(fù)制法拉利的通用型模型一個40%的概率。

GPT-2030的影響

接下來,我們將分析類似GPT2030系統(tǒng)對社會意味著什么。擁有GPT2030特性的系統(tǒng),至少會顯著加速某些研究領(lǐng)域,同時也具有強大的濫用能力。

我將首先構(gòu)建一些關(guān)于GPT2030的一般優(yōu)勢和局限性的框架,然后將其用作分析加速和濫用的鏡頭。

優(yōu)勢。GPT2030代表了一個大規(guī)模、高度適應(yīng)性、高吞吐量的工作力。回想一下,GPT2030可以在平行副本上做180萬年的工作,其中每個副本以5倍于人類速度運行。這意味著我們可以(在并行性限制的情況下)在2.4個月內(nèi)模擬1.8百萬個代理人每人工作一年。

如上所述,我們可以支付每個FLOP的5倍價格,以獲得額外的25倍加速(達(dá)到125倍人類速度),因此我們也可以在3天內(nèi)模擬一萬四千個代理人每人工作一年。

局限性。利用這個數(shù)字化的工作力有三個障礙:技能配置、實驗成本和自主性。就第一點而言,GPT2030將具有與人類不同的技能配置,使其在某些任務(wù)上表現(xiàn)較差(但在其他任務(wù)上表現(xiàn)較好)。

在第二個障礙上,模擬工作人員仍然需要與世界接口以收集數(shù)據(jù),這有自己的時間和計算成本。最后,在自主性方面,如今的模型在“卡住”之前只能生成數(shù)千個標(biāo)記的連續(xù)思路,進入不再產(chǎn)生高質(zhì)量輸出的狀態(tài)。在將復(fù)雜任務(wù)委托給模型之前,我們需要顯著提高可靠性。

我預(yù)計可靠性會增加,但并不是沒有限制:我(非常粗略地)猜測GPT2030在需要被重置或通過外部反饋進行引導(dǎo)之前,將能夠運行數(shù)天的人類等價時間。如果模型以5倍速度運行,這意味著它們需要每隔幾個小時進行人類監(jiān)督。

因此,GPT2030將最有影響的任務(wù)是:

利用GPT2030在相對于人類而言擅長的技能。

只需要可以迅速收集到的外部經(jīng)驗數(shù)據(jù)的任務(wù)(而不是昂貴的物理實驗)。

可以事先分解為可靠執(zhí)行的子任務(wù),或者具有明確和可自動化的反饋指標(biāo)來幫助引導(dǎo)模型。

加速。一個很好滿足所有三個條件的任務(wù)是數(shù)學(xué)研究。在第一點上,GPT2030可能會具有超人的數(shù)學(xué)能力(第1節(jié))。在第二和第三點上,數(shù)學(xué)可以通過純粹的思考和寫作來完成,我們知道何時一個定理被證明。而且全球總共的數(shù)學(xué)家并不多(例如,僅有3000人在美國),因此GPT2030可能能夠在幾天內(nèi)模擬出超過所有數(shù)學(xué)家年產(chǎn)出的數(shù)量。

重要部分的機器學(xué)習(xí)研究也滿足上述標(biāo)準(zhǔn)。GPT2030將會在編程方面超越人類,其中包括實施和運行實驗。我猜它也會擅長呈現(xiàn)和解釋實驗結(jié)果,因為GPT-4能夠以易于理解的方式解釋復(fù)雜的主題(并且市場需求很大)。

因此,機器學(xué)習(xí)研究可能會減少到思考進行良好實驗和與高質(zhì)量(但潛在不可靠)的實驗結(jié)果文稿進行交互。在2030年,研究生可能會擁有與今天的教授和幾名優(yōu)秀學(xué)生相同的資源。

社會科學(xué)的某些部分也可能會得到顯著加速。有很多論文中,大部分工作是追蹤、分類和標(biāo)記科學(xué)上有趣的數(shù)據(jù)源,并提取重要的模式,例如Acemoglu等人(2001年)或Webb(2020年)的代表性例子。這滿足了要求(3.),因為分類和標(biāo)記可以分解為簡單的子任務(wù),而且它滿足了要求(2.),只要數(shù)據(jù)在互聯(lián)網(wǎng)上可用,或者可以通過在線調(diào)查收集到。

濫用。除了加速,還存在嚴(yán)重的濫用風(fēng)險。最直接的情況是網(wǎng)絡(luò)攻擊的能力。檢查特定目標(biāo)的特定漏洞可能是可靠的,而且可以檢查漏洞是否成功(在能夠與代碼交互的情況下),因此雙重滿足了要求(3.)。在(2.)方面,GPT2030需要與目標(biāo)系統(tǒng)進行交互,以知道攻擊是否奏效,這會帶來一些成本,但不足以成為一個重要的瓶頸。

此外,該模型可以在開源代碼上本地設(shè)計和測試漏洞作為訓(xùn)練數(shù)據(jù),因此在需要與任何外部系統(tǒng)進行交互之前,它可以在很大程度上變得非常擅長于網(wǎng)絡(luò)攻擊。因此,GPT2030可以迅速對大量目標(biāo)進行復(fù)雜的并行網(wǎng)絡(luò)攻擊。

第二種濫用來源是操縱。如果GPT2030同時與數(shù)百萬用戶進行交互,那么它在一個小時內(nèi)獲得的關(guān)于人類互動的經(jīng)驗,遠(yuǎn)遠(yuǎn)超過了人類一生的經(jīng)驗(100萬小時=114年)。

如果它利用這些互動來學(xué)習(xí)操縱,那么它可以獲得遠(yuǎn)遠(yuǎn)超過人類的操縱技能 - 類似于,騙子在欺騙受害者方面很擅長,因為他們在之前已經(jīng)練習(xí)過幾百人,而GPT2030可以將這種能力擴大數(shù)個數(shù)量級。因此,在一對一的對話中,它可能非常擅長操縱用戶,或者在撰寫新聞文章以影響公眾輿論方面。

因此,總結(jié)一下,GPT2030可能會自動化幾乎所有數(shù)學(xué)研究以及其他研究領(lǐng)域的重要部分,并且可能成為關(guān)于網(wǎng)絡(luò)攻擊、說服/操縱的有力手段。它的很多影響都會受到“監(jiān)督瓶頸”的限制,因此,如果它能夠在長時間內(nèi)自主運行,那么它的影響可能會更大。

附錄:未來模型的運行時間和訓(xùn)練估算

A. 每分鐘生成的字?jǐn)?shù)

首先,我們將估計人類和當(dāng)前模型的每分鐘字?jǐn)?shù)。然后,我們將從當(dāng)前模型推導(dǎo)出未來模型的情況。

對于人類,我們可以測量五個數(shù)字:說話速度、閱讀速度、聽力速度以及“橢圓”和“擴展”思考速度。關(guān)于前三者,Rayner和Clifton(2009)指出閱讀速度為每分鐘300字,說話速度為每分鐘160字,而聽力速度可能比說話速度快2-3倍(因此大約每分鐘400字)。

對于思考速度,我們需要區(qū)分“橢圓”思維和“擴展”思維事實證明我們的思維是在詞匯的閃爍中進行的,而不是完整句子,如果我們將這些閃爍延伸到完整句子,會得到非常不同的字?jǐn)?shù)(相差約10倍)。

Korba(2016)發(fā)現(xiàn)橢圓思維的速度為每分鐘380字,而擴展思維的速度為每分鐘約4200字。由于這些數(shù)字大多在300-400 wpm的范圍內(nèi),我將使用每分鐘380字作為人類思維速度的估計。根據(jù)OpenAI提供的4:3令牌到字?jǐn)?shù)比,這相當(dāng)于每分鐘500個字節(jié)。

(感謝Lev McKinney在以下段落中運行評估。)

接下來,讓我們考慮當(dāng)前的模型。我們查詢了gpt-3.5-turbo和gpt-4,以及EleutherAI的幾個開源模型,以對它們的推斷速度進行基準(zhǔn)測試。我們通過查詢模型從1數(shù)到n,其中n從100到1900,步長為100。

由于數(shù)字包含多個字節(jié),我們在模型生成n個字節(jié)時將其截斷,并測量經(jīng)過的時間。然后,我們進行了帶有偏置項的線性回歸,以考慮延遲,以估計每秒生成的字節(jié)數(shù)。

GPT-4和GPT-3.5-turbo于2023年4月初從OpenAI AIP查詢。所有pythia模型的實驗都是使用deepspeed注入內(nèi)核和fp16模型在一個A100 GPU上執(zhí)行的。可以在https://github.com/levmckinney/llm-racing找到復(fù)制這些結(jié)果的代碼。

原始數(shù)據(jù)如下圖所示

上圖展示了模型推斷隨著字節(jié)輸入的變化。請注意,在這些上下文長度下,每個字節(jié)的時間保持相對線性。

上圖和下表展示了模型推斷速度隨大小的變化情況。誤差條表示95%的置信區(qū)間。

因此,GPT-4的推斷速度接近人類的基準(zhǔn)值500個標(biāo)記/分鐘,而GPT-3.5-turbo則快大約3倍。更小的模型速度甚至快上一個數(shù)量級,這表明即使更快的推斷速度是可能的,但也暗示未來更大的模型可能會變慢(未考慮更好的硬件和其他優(yōu)化)。實際推斷速度似乎在模型大小下以亞線性的方式減慢在pythia模型中,將大小增加k倍會將推斷速度減少大約k^0.6。

那么模型的每分鐘單詞數(shù)將如何在未來變化?有因素推動速度變快和變慢:

- 更大的模型更昂貴,特別是如果它們有更多的層(較大的寬度可以并行,但較大的深度不能)。

- 推斷通常會進行更多優(yōu)化,例如通過提前退出、稀疏注意、跨GPU并行化或更好的硬件。在這方面有相當(dāng)大的潛力,尤其是來自并行化和硬件(見下面的討論)。

- 特別是,將有很多動力使模型足夠快,以便容易使用(例如,比人類閱讀速度更快)。

在對模型大孝GPU架構(gòu)等趨勢的大量數(shù)據(jù)進行了10多個小時的分析后,我主要得出的結(jié)論是,我對更大的模型與更好的硬件和軟件之間的競爭趨勢如何發(fā)展非常不確定。

我中位數(shù)的猜測是,我們將獲得比人類明顯更快的模型(5倍),但我對速度從比人類慢2倍到比人類快20倍的各種情況都不感到驚訝。

重要的是,這些速度只是在我們要求GPU的最大吞吐量的情況下。如果我們愿意以k倍的吞吐量為代價,我們可以將推斷速度提高k^2倍,直至達(dá)到相當(dāng)大的k值。因此,如果模型默認(rèn)只比人類快5倍,那么可以在吞吐量減少5倍的情況下將其提速至125倍,如果有必要,這還可以進一步提高。

最后,除了純粹的速度,每分鐘單詞數(shù)在人類和語言模型之間并不是可比的。首先,語言模型不僅在思考,還在寫作,而且在某些情況下,它們的寫作內(nèi)容對人類來說可能要慢得多(例如,代碼或帶有引用的論點)。

另一方面,語言模型目前相當(dāng)嗦,因此語言模型的一個單詞不如人類的一個單詞進行“工作”多。這種嗦性可以通過微調(diào)消除,但我們不確定能否達(dá)到人類的“橢圓思維”的效率。

最后,令牌化和單詞復(fù)雜性將隨時間而變化,因此從單詞到標(biāo)記的1.333倍轉(zhuǎn)換比率不會保持恒定(事實上,我猜對于今天的模型來說,它已經(jīng)是一種低估,因為它們現(xiàn)在傾向于使用帶有前綴和后綴的復(fù)雜詞語)。

有關(guān)并行化和硬件加速的詳細(xì)信息。正如《我們能多快執(zhí)行前向傳遞?》一文所述,存在著可以顯著增加串行推斷速度的并行平鋪方案,而只有很小的開銷。例如,對GPT-3進行并行平鋪會使其在A100集群上的推斷速度相對于在單個8-GPU機器上運行時提高30倍或更多。

這些優(yōu)化目前并沒有被廣泛使用,因為它們對于訓(xùn)練不是有用的,而且稍微減少了推斷吞吐量,但一旦推斷時間成為瓶頸,人們會開始使用它們。

就硬件而言,GPU的性能正在提升,這將加快推斷速度。然而,GPU的設(shè)計越來越需要更大的算術(shù)強度,這將減少可能的并行平鋪(見上一點)。供參考,我在下面列出了所有NVIDIA GPU的規(guī)格。

“Mem Bandwidth”(內(nèi)存帶寬)一欄測量了沒有任何跨GPU并行化時的串行吞吐量,而最終的M3/C2一欄測量了在保持足夠高算術(shù)強度的最大跨GPU并行化下的串行吞吐量。前者持續(xù)增加,而后者波動較大,但趨于減少。

(以下是表格數(shù)據(jù),由于文字描述無法準(zhǔn)確呈現(xiàn)表格,請參考原文)

這里是來自NVIDIA GPU的一些規(guī)格,表格中的“Mem Bandwidth”是指沒有進行任何跨GPU并行化時的串行吞吐量,而最后一欄的M3/C2是指在保持足夠高算術(shù)強度的最大跨GPU并行化下的串行吞吐量。

請注意,這些硬件規(guī)格數(shù)據(jù)是在原始帖子中提供的,隨著硬件技術(shù)的不斷更新,這些數(shù)據(jù)可能已經(jīng)發(fā)生了變化。

B. 訓(xùn)練成熟度

將來可能會有足夠的資源來運行訓(xùn)練過的模型的許多副本。以GPT-3為例,它需要3.1e23個浮點運算(FLOP)來進行訓(xùn)練,并且執(zhí)行前向傳遞需要3.5e11個FLOP,因此可以用訓(xùn)練成本來運行9e11次前向傳遞。根據(jù)附錄A中的每分鐘500個標(biāo)記的轉(zhuǎn)換,這相當(dāng)于約3400年的人類思維時間。

未來會如何變化?我將使用Chinchilla的縮放定律和未來訓(xùn)練成本的預(yù)測來進行初步估計,然后考慮可能偏離Chinchilla趨勢的方式。對于未來的訓(xùn)練成本,我考慮了Besiroglu等人(2022)的預(yù)測,他們分析了500多個現(xiàn)有模型,以推斷機器學(xué)習(xí)中的計算趨勢。

他們對2030年訓(xùn)練FLOP的中央預(yù)測是4.7e28,范圍為5.1e26至3.0e30。Metaculus也有類似的估計為2.3e27(截至2031年1月1日)。取幾何中位數(shù),我將使用1.0e28作為我對訓(xùn)練FLOP的估計,這相當(dāng)于GPT-3的33,000倍增長。

由于Chinchilla的縮放定律暗示模型大小(因此推斷成本)隨著訓(xùn)練成本的平方根增長,這意味著訓(xùn)練成熟度應(yīng)該增加sqrt(33000),大約是180倍。因此,3400年的人類思維時間將增加到620,000年。

然而,還有一個額外的考慮,即GPT-3實際上在訓(xùn)練規(guī)模上存在不足。給定其訓(xùn)練成本,GPT-3的理想大小應(yīng)該是現(xiàn)在的四分之一,因此需要添加一個額外的因子4,得到2.5M年的人類思維時間,范圍從0.8M到9M,考慮到訓(xùn)練FLOP數(shù)量的不確定性。

接下來,讓我們考慮與Chinchilla的縮放定律偏離。最明顯的偏離是我們可能很快就會耗盡數(shù)據(jù)。這可能意味著相對于更多的數(shù)據(jù),更大的模型變得更有吸引力(這會減少訓(xùn)練成熟度),或者我們生成額外的合成數(shù)據(jù)(使創(chuàng)建數(shù)據(jù)更加計算密集,這會增加訓(xùn)練成熟度),或者我們轉(zhuǎn)向新的數(shù)據(jù)豐富的形式,比如視頻(對訓(xùn)練成熟度的影響不明確,可能會增加它)。粗略地界定這些效應(yīng):

下限:Villalobos等人(2022)估計,到2026年,我們將耗盡高質(zhì)量的語言數(shù)據(jù)(例如維基百科、書籍、科學(xué)論文等),盡管我們在2030年之前不會耗盡低質(zhì)量的數(shù)據(jù)(例如網(wǎng)頁)。在一個悲觀的情況下,高質(zhì)量數(shù)據(jù)是一個完全具有約束力的條件,Villalobos等人的模型意味著數(shù)據(jù)集的大小到2030年會增加8倍,訓(xùn)練成熟度只會增加8倍,而不是180倍。

上限:如果我們用盡了數(shù)據(jù),我們可能會生成新的合成數(shù)據(jù)。Huang等人(2022)中的一個可能性是像鏈?zhǔn)剿季S精餾一樣。在那篇論文中,每個輸入實例會生成32個思維鏈,其中只有一部分用于訓(xùn)練更新。假設(shè)平均有5個32個思維鏈用于訓(xùn)練更新,并且反向傳遞的成本是前向傳遞的兩倍。那么,每次訓(xùn)練更新的成本相當(dāng)于8.4個前向傳遞,相比之下之前是3個,或者增加了2.8倍。在Chinchilla的縮放定律下,這個成本前傳到訓(xùn)練成熟度的額外增加,即sqrt(2.8) = 1.7倍增加,即300倍而不是180倍。

總體而言,下限對我來說似乎相當(dāng)悲觀,因為我們幾乎肯定會找到一些方法來利用低質(zhì)量或合成數(shù)據(jù)。另一方面,除了耗盡數(shù)據(jù),我們可能會通過課程學(xué)習(xí)等方式找到使訓(xùn)練過程更加高效的方法。在考慮這些因素的情況下,我個人的猜測是,我們的訓(xùn)練成熟度將在12倍至200倍之間,中央估計為100倍,從而得到大約18萬年的人類思維時間的訓(xùn)練成熟度。我們還需要擴大范圍,以考慮到對Chinchilla縮放定律的偏離所帶來的額外不確定性。主觀地說,我會將范圍增加到40萬到1000萬。

所有這些估計都是針對2030年的。一般來說,上述數(shù)字對于晚些年份來說會更大,而對于早些年份來說會更校

作為一個額外的比較點,Karnofsky(2022年)(在Cotra,2020年的基礎(chǔ)上)估計,培訓(xùn)一個人類級別的模型所需的計算量足以讓100百萬份模型每個運行一年,盡管這個估計假設(shè)培訓(xùn)使用了1e30個浮點運算(FLOPs)而不是1e28。即使考慮到這一點,對我來說似乎有點過高了,根據(jù)上面的平方根縮放,我會更接近180萬而不是1億。

不過實際上,如果做得正確,零階預(yù)測已經(jīng)會很有幫助了!許多對ChatGPT感到驚訝的人可能已經(jīng)對text-davinci-003感到印象深刻,雖然后者發(fā)布得更早,但界面不太友好。

作為具體的比較點,GPT-3的計算量只足以進行3400個經(jīng)過人類調(diào)整的工作年,我猜它每天可能不到100個經(jīng)過調(diào)整的學(xué)習(xí)年。我猜GPT-4的計算量約為13萬人類調(diào)整的工作年和125個調(diào)整年的學(xué)習(xí)。因此,GPT2030在這兩個軸上至少是一個數(shù)量級更大。

在整個文檔中,括號中的范圍表示我的預(yù)測分布的25th到75th百分位數(shù)。實際上,范圍可能過窄,因為我只進行了主線預(yù)測,沒有考慮“其他”選項。

從定性上看,GPT-4 Bubeck等人還發(fā)現(xiàn),GPT-4可以零射擊生成一個400行的3D游戲,這對于幾乎所有人類來說可能是不可能的。

關(guān)于此事的討論,請參閱“Forecasting ML Benchmarks in 2023”。

具體來說,我會給以下情況分配50%的概率:“如果我們從Electronic Journal of Combinatorics中隨機選擇5個定理陳述,并將它們交給UCSD的數(shù)學(xué)系,GPT2030在解決問題的比例上會比中位數(shù)教員解決的問題多,并且在解決問題時所需的時間會比中位數(shù)教員短。”

我假設(shè)初始訓(xùn)練運行時間不到一年(Sevilla等,2022年),因此可以推出該組織至少可以并行運行9 x 10^11次前向傳遞,但要受到推理速度的限制。為了在2.4個月內(nèi)做到這一點,他們可能需要進一步改進。

我認(rèn)為這是合理的(但不確定),因為組織可能在不到一年的時間內(nèi)訓(xùn)練了該模型,并且在推理方面可能有一些技巧可用,這些技巧在訓(xùn)練中不可用。

第二個因素是,GPT-3的訓(xùn)練是不完美的,使用Chinchilla風(fēng)格的理想大小本應(yīng)是更小的,所以我們需要額外增加4倍的因子,從而得到2.5百萬人年,范圍從0.8百萬到900萬,考慮到訓(xùn)練FLOP數(shù)量的不確定性。

此外,根據(jù)Metaculus的估計,2030年最大的訓(xùn)練模型將具有2.5e15個參數(shù)(截至2030年1月1日),意味著前向傳遞成本為5e15 FLOPs。如果我們簡單地計算比值,我們會再次得到9e11次前向傳遞,但我認(rèn)為這不是正確的計算,因為最大的訓(xùn)練模型可能不會是當(dāng)時的尖端水平,而更像是174萬億參數(shù)的BaGuaLu模型。

我根據(jù)Metaculus對其估計的25%到75%百分位數(shù)范圍為5M到660M,并將不確定性傳遞到平方根函數(shù)中。

贊助本站

人工智能實驗室

相關(guān)熱詞: 大模型 2030 年會 是什么 樣子

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機會 | 展會港