當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能動(dòng)態(tài) > 1次訓(xùn)練2.4億度電，AI為什么那么耗電？

1次訓(xùn)練2.4億度電，AI為什么那么耗電？
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-04-12 15:45:52 瀏覽：6678次

導(dǎo)讀：僅僅是GPT-4的GPU，一次訓(xùn)練就會(huì)用去2.4億度電。AI為什么那么耗電？它們用掉的電都跑到哪里去了？有可能回收這些電轉(zhuǎn)化成的能量嗎？撰文 | 猛犸今天我們所說的人工智能（AI），主要指的是生成式人工智能。而其中一大部分，是基于大語言模型的生成式人工智...

僅僅是GPT-4的GPU，一次訓(xùn)練就會(huì)用去2.4億度電。AI為什么那么耗電？它們用掉的電都跑到哪里去了？有可能回收這些電轉(zhuǎn)化成的能量嗎？

撰文 | 猛犸

今天我們所說的人工智能（AI），主要指的是生成式人工智能。而其中一大部分，是基于大語言模型的生成式人工智能。

它們需要大規(guī)模的數(shù)據(jù)中心來訓(xùn)練和推理。這些數(shù)據(jù)中心由大量服務(wù)器組成，服務(wù)器消耗的電能絕大部分轉(zhuǎn)化成了熱能，最后通過水冷系統(tǒng)釋放出來。所以也可以說，AI的物理硬件是個(gè)巨大的“電熱水器”。

這個(gè)說法聽起來好像有點(diǎn)奇怪。我們都知道，服務(wù)器是一種電子計(jì)算機(jī)，而計(jì)算機(jī)中處理的是信息。信息和能量又有什么關(guān)系呢？

還真有。

處理信息需要消耗能量

1961年，在IBM公司工作的物理學(xué)家拉爾夫蘭道爾（Rolf Landauer）發(fā)表了一篇論文，提出了后來被稱為“蘭道爾原理”（Landauer's Principle）的理論。這一理論認(rèn)為，計(jì)算機(jī)中存儲(chǔ)的信息發(fā)生不可逆的變化時(shí)，會(huì)向周圍環(huán)境散發(fā)一點(diǎn)點(diǎn)熱量，其散發(fā)的熱量和計(jì)算機(jī)當(dāng)時(shí)所處的溫度有關(guān)溫度越高，散發(fā)的熱量越多。

蘭道爾原理連接起了信息和能量；更具體地說，連接到了熱力學(xué)第二定律上。因?yàn)檫壿嬌喜豢赡娴男畔⑻幚聿僮鳎簿鸵馕吨螠缌诵畔�，這會(huì)導(dǎo)致物理世界中熵的增加，從而消耗能量。

這一原理自提出以來遭受過不少質(zhì)疑。但是近十幾年來，蘭道爾原理已被實(shí)驗(yàn)證明。2012年，《自然》雜志發(fā)表了一篇文章，研究團(tuán)隊(duì)首次測量到了一“位”（bit）數(shù)據(jù)被刪除時(shí)釋放的微量熱量。后來的幾次獨(dú)立實(shí)驗(yàn)，也都證明了蘭道爾原理。

所以，處理信息是有能量成本的。

現(xiàn)在的電子計(jì)算機(jī)在計(jì)算時(shí)實(shí)際消耗的能量，是這個(gè)理論值的數(shù)億倍�？茖W(xué)家們一直在努力尋找更高效的計(jì)算方法，以降低成本。不過從目前的研究進(jìn)展情況來看，也許只有真正的室溫超導(dǎo)材料能廣泛應(yīng)用于計(jì)算設(shè)備時(shí)，這個(gè)能耗才有可能離蘭道爾原理所描述的理論值近一些。

AI大模型確實(shí)需要大量計(jì)算。它的工作過程大致可以分為訓(xùn)練和推理兩個(gè)階段。在訓(xùn)練階段，首先需要收集和預(yù)處理大量的文本數(shù)據(jù)，用作輸入數(shù)據(jù)。然后在適當(dāng)?shù)哪Ｐ图軜?gòu)中初始化模型參數(shù)，處理輸入的數(shù)據(jù)，嘗試生成輸出；再根據(jù)輸出與預(yù)想之間的差異，反復(fù)調(diào)整參數(shù)，直到模型的性能不再顯著提高為止。而在推理階段中，則會(huì)先加載已經(jīng)訓(xùn)練好的模型參數(shù)，預(yù)處理需要推理的文本數(shù)據(jù)，再讓模型根據(jù)學(xué)習(xí)到的語言規(guī)律生成輸出。

無論是訓(xùn)練還是推理階段，都是一連串信息重組過程，也同樣遵循蘭道爾原理。而我們也不難推知，模型的參數(shù)量越大，需要處理的數(shù)據(jù)越多，所需的計(jì)算量也就越大，所消耗的能量也就越大，釋放的熱量也就越多。

只不過，這只是AI耗電中微不足道的一小部分。更大的消耗來自另一個(gè)我們更熟悉的物理定律：焦耳定律。這就要從集成電路說起了。

更“大頭”能耗來自電流

今天的電子計(jì)算機(jī)建立在集成電路的基礎(chǔ)上。我們經(jīng)常把集成電路叫做芯片。每個(gè)芯片中，都有許多晶體管。

不嚴(yán)格地描述，晶體管可以理解成微小的開關(guān)。這些開關(guān)串聯(lián)或者并聯(lián)在一起，就可以實(shí)現(xiàn)邏輯運(yùn)算。“開”和“關(guān)”表示兩種狀態(tài)，也就是所謂的1和0，這就是計(jì)算的基本單位“位”。它是計(jì)算機(jī)二進(jìn)制的基矗計(jì)算機(jī)通過快速改變電壓，來撥動(dòng)這些開關(guān)。

改變電壓，需要電子流入或流出。而電子流入流出，就構(gòu)成了電流。又因?yàn)樵陔娐分锌偸怯须娮瑁彤a(chǎn)生了熱能。焦耳定律告訴我們，產(chǎn)生的熱量與電流的平方成正比，與導(dǎo)體電阻成正比，與通電時(shí)間成正比。

集成電路技術(shù)發(fā)展到今天，芯片中的晶體管已經(jīng)變得極為微校所以，單個(gè)晶體管所產(chǎn)生的熱量并不會(huì)太高。但問題是，芯片上的晶體管實(shí)在是已經(jīng)多到了常人無法想象的程度比如，在IBM前幾年發(fā)布的等效2納米制程芯片中，每平方毫米面積上，平均有3.3億個(gè)晶體管。再小的熱量，乘上這個(gè)規(guī)模，結(jié)果一定相當(dāng)可觀。

一個(gè)可能讓人大跌眼鏡的有趣事實(shí)是，今天芯片單位體積的功率，比太陽核心多出好幾個(gè)數(shù)量級(jí)。典型的CPU芯片功率大概是每立方厘米100瓦，即每立方米1億瓦；而太陽核心的功率只有每立方米不到300瓦。

在OpenAI訓(xùn)練大語言模型GPT-4時(shí)，完成一次訓(xùn)練需要約三個(gè)月時(shí)間，使用大約25000塊英偉達(dá)A100 GPU。每塊A100 GPU都擁有540億個(gè)晶體管，功耗400瓦，每秒鐘可以進(jìn)行19.5萬億次單精度浮點(diǎn)數(shù)的運(yùn)算，每次運(yùn)算又涉及到許多個(gè)晶體管的開關(guān)。

容易算出，僅僅是這些 GPU，一次訓(xùn)練就用了2.4億度電。這些電能幾乎全部轉(zhuǎn)化成了熱能，這些能量可以將大約200萬立方米冰水大概是1000個(gè)奧運(yùn)會(huì)標(biāo)準(zhǔn)游泳池的水量加熱到沸騰。

為什么AI需要用這么多的強(qiáng)大GPU來訓(xùn)練？因?yàn)榇笳Z言模型的規(guī)模實(shí)在太大。GPT-3模型擁有1750億參數(shù)，而據(jù)推測，GPT-4擁有1.8萬億參數(shù)，是GPT-3的十倍。要訓(xùn)練這種規(guī)模的模型，需要在大規(guī)模數(shù)據(jù)集上反復(fù)迭代，每一次迭代都需要計(jì)算和調(diào)整其中數(shù)十億、數(shù)百億乃至數(shù)千億個(gè)參數(shù)的值，這些計(jì)算最終會(huì)表現(xiàn)為晶體管的開開關(guān)關(guān)，和集成電路中細(xì)細(xì)的電流以及熱量。

能量無法創(chuàng)造也無法消滅，它只能從一種形式轉(zhuǎn)化成另一種形式。對于電子計(jì)算機(jī)來說，它最主要的能量轉(zhuǎn)化方式，就是從電能轉(zhuǎn)化成熱能。

大語言模型也是如此。它對電能和冷卻水的需求，正帶來越來越嚴(yán)重的環(huán)境問題。

回收“電熱水器”中的熱量？

就在前幾天，有微軟公司的工程師說，為了訓(xùn)練GPT-6，微軟和OpenAI建造了巨大的數(shù)據(jù)中心，將會(huì)使用10萬塊英偉達(dá)H100 GPU性能比A100更強(qiáng)，當(dāng)然功耗也更大但是，這些GPU不能放在同一個(gè)州，否則會(huì)導(dǎo)致電網(wǎng)負(fù)荷過大而崩潰。

AI發(fā)展帶來的能源短缺問題，已經(jīng)開始浮現(xiàn)。在今年的達(dá)沃斯世界經(jīng)濟(jì)論壇上，OpenAI的CEO山姆阿爾特曼（Sam Altman）認(rèn)為，核聚變可能是能源的發(fā)展方向。但要開發(fā)出真正可用的核聚變技術(shù)，可能還需要一些時(shí)間。

水的問題也是一樣。過去幾年，那些在AI大模型領(lǐng)域先行一步的大企業(yè)們，都面臨水消耗大幅增長的局面。2023 年6月，微軟公司發(fā)布了2022年度環(huán)境可持續(xù)發(fā)展報(bào)告，其中用水一項(xiàng)，有超過20%的顯著增長。谷歌公司也類似。

有研究者認(rèn)為，AI的發(fā)展，是這些科技巨頭用水量劇增的主要原因要冷卻瘋狂發(fā)熱的芯片，水冷系統(tǒng)是最常見的選擇。為AI提供硬件基礎(chǔ)的數(shù)據(jù)中心，如同一個(gè)巨大的“電熱水器”。

如何讓這些散失的熱能不至于白白浪費(fèi)？最容易想到也容易實(shí)現(xiàn)的，是熱回收技術(shù)。比方說，將數(shù)據(jù)中心回收的熱量用于提供民用熱水，冬季提供民用采暖�，F(xiàn)在有一些企業(yè)已經(jīng)著手在回收廢熱再利用了，例如中國移動(dòng)哈爾濱數(shù)據(jù)中心、阿里巴巴千島湖數(shù)據(jù)中心等。

這大概也算是一種解法，但并不能從根本上解決問題。AI產(chǎn)業(yè)的發(fā)展速度之快，在人類歷史上沒有任何產(chǎn)業(yè)能與之相比。平衡AI技術(shù)的發(fā)展與環(huán)境的可持續(xù)性，可能會(huì)是我們未來幾年的重要議題之一；技術(shù)進(jìn)步和能源消耗之間的復(fù)雜關(guān)系，從來沒有這么急迫地出現(xiàn)在人類面前。

本文受科普中國星空計(jì)劃項(xiàng)目扶持

出品：中國科協(xié)科普部

監(jiān)制：中國科學(xué)技術(shù)出版社有限公司、北京中科星河文化傳媒有限公司