展會(huì)信息港展會(huì)大全

1次訓(xùn)練2.4億度電,AI為什么那么耗電?
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-04-12 15:45:52   瀏覽:6678次  

導(dǎo)讀:僅僅是GPT-4的GPU,一次訓(xùn)練就會(huì)用去2.4億度電。AI為什么那么耗電?它們用掉的電都跑到哪里去了?有可能回收這些電轉(zhuǎn)化成的能量嗎? 撰文 | 猛犸 今天我們所說的人工智能(AI),主要指的是生成式人工智能。而其中一大部分,是基于大語言模型的生成式人工智...

僅僅是GPT-4的GPU,一次訓(xùn)練就會(huì)用去2.4億度電。AI為什么那么耗電?它們用掉的電都跑到哪里去了?有可能回收這些電轉(zhuǎn)化成的能量嗎?

撰文 | 猛犸

今天我們所說的人工智能(AI),主要指的是生成式人工智能。而其中一大部分,是基于大語言模型的生成式人工智能。

它們需要大規(guī)模的數(shù)據(jù)中心來訓(xùn)練和推理。這些數(shù)據(jù)中心由大量服務(wù)器組成,服務(wù)器消耗的電能絕大部分轉(zhuǎn)化成了熱能,最后通過水冷系統(tǒng)釋放出來。所以也可以說,AI的物理硬件是個(gè)巨大的“電熱水器”。

這個(gè)說法聽起來好像有點(diǎn)奇怪。我們都知道,服務(wù)器是一種電子計(jì)算機(jī),而計(jì)算機(jī)中處理的是信息。信息和能量又有什么關(guān)系呢?

還真有。

處理信息需要消耗能量

1961年,在IBM公司工作的物理學(xué)家拉爾夫蘭道爾(Rolf Landauer)發(fā)表了一篇論文,提出了后來被稱為“蘭道爾原理”(Landauer's Principle)的理論。這一理論認(rèn)為,計(jì)算機(jī)中存儲(chǔ)的信息發(fā)生不可逆的變化時(shí),會(huì)向周圍環(huán)境散發(fā)一點(diǎn)點(diǎn)熱量,其散發(fā)的熱量和計(jì)算機(jī)當(dāng)時(shí)所處的溫度有關(guān)溫度越高,散發(fā)的熱量越多。

蘭道爾原理連接起了信息和能量;更具體地說,連接到了熱力學(xué)第二定律上。因?yàn)檫壿嬌喜豢赡娴男畔⑻幚聿僮鳎簿鸵馕吨螠缌诵畔,這會(huì)導(dǎo)致物理世界中熵的增加,從而消耗能量。

這一原理自提出以來遭受過不少質(zhì)疑。但是近十幾年來,蘭道爾原理已被實(shí)驗(yàn)證明。2012年,《自然》雜志發(fā)表了一篇文章,研究團(tuán)隊(duì)首次測量到了一“位”(bit)數(shù)據(jù)被刪除時(shí)釋放的微量熱量。后來的幾次獨(dú)立實(shí)驗(yàn),也都證明了蘭道爾原理。

所以,處理信息是有能量成本的。

現(xiàn)在的電子計(jì)算機(jī)在計(jì)算時(shí)實(shí)際消耗的能量,是這個(gè)理論值的數(shù)億倍?茖W(xué)家們一直在努力尋找更高效的計(jì)算方法,以降低成本。不過從目前的研究進(jìn)展情況來看,也許只有真正的室溫超導(dǎo)材料能廣泛應(yīng)用于計(jì)算設(shè)備時(shí),這個(gè)能耗才有可能離蘭道爾原理所描述的理論值近一些。

AI大模型確實(shí)需要大量計(jì)算。它的工作過程大致可以分為訓(xùn)練和推理兩個(gè)階段。在訓(xùn)練階段,首先需要收集和預(yù)處理大量的文本數(shù)據(jù),用作輸入數(shù)據(jù)。然后在適當(dāng)?shù)哪P图軜?gòu)中初始化模型參數(shù),處理輸入的數(shù)據(jù),嘗試生成輸出;再根據(jù)輸出與預(yù)想之間的差異,反復(fù)調(diào)整參數(shù),直到模型的性能不再顯著提高為止。而在推理階段中,則會(huì)先加載已經(jīng)訓(xùn)練好的模型參數(shù),預(yù)處理需要推理的文本數(shù)據(jù),再讓模型根據(jù)學(xué)習(xí)到的語言規(guī)律生成輸出。

無論是訓(xùn)練還是推理階段,都是一連串信息重組過程,也同樣遵循蘭道爾原理。而我們也不難推知,模型的參數(shù)量越大,需要處理的數(shù)據(jù)越多,所需的計(jì)算量也就越大,所消耗的能量也就越大,釋放的熱量也就越多。

只不過,這只是AI耗電中微不足道的一小部分。更大的消耗來自另一個(gè)我們更熟悉的物理定律:焦耳定律。這就要從集成電路說起了。

更“大頭”能耗來自電流

今天的電子計(jì)算機(jī)建立在集成電路的基礎(chǔ)上。我們經(jīng)常把集成電路叫做芯片。每個(gè)芯片中,都有許多晶體管。

不嚴(yán)格地描述,晶體管可以理解成微小的開關(guān)。這些開關(guān)串聯(lián)或者并聯(lián)在一起,就可以實(shí)現(xiàn)邏輯運(yùn)算。“開”和“關(guān)”表示兩種狀態(tài),也就是所謂的1和0,這就是計(jì)算的基本單位“位”。它是計(jì)算機(jī)二進(jìn)制的基矗計(jì)算機(jī)通過快速改變電壓,來撥動(dòng)這些開關(guān)。

改變電壓,需要電子流入或流出。而電子流入流出,就構(gòu)成了電流。又因?yàn)樵陔娐分锌偸怯须娮瑁彤a(chǎn)生了熱能。焦耳定律告訴我們,產(chǎn)生的熱量與電流的平方成正比,與導(dǎo)體電阻成正比,與通電時(shí)間成正比。

集成電路技術(shù)發(fā)展到今天,芯片中的晶體管已經(jīng)變得極為微校所以,單個(gè)晶體管所產(chǎn)生的熱量并不會(huì)太高。但問題是,芯片上的晶體管實(shí)在是已經(jīng)多到了常人無法想象的程度比如,在IBM前幾年發(fā)布的等效2納米制程芯片中,每平方毫米面積上,平均有3.3億個(gè)晶體管。再小的熱量,乘上這個(gè)規(guī)模,結(jié)果一定相當(dāng)可觀。

一個(gè)可能讓人大跌眼鏡的有趣事實(shí)是,今天芯片單位體積的功率,比太陽核心多出好幾個(gè)數(shù)量級(jí)。典型的CPU芯片功率大概是每立方厘米100瓦,即每立方米1億瓦;而太陽核心的功率只有每立方米不到300瓦。

在OpenAI訓(xùn)練大語言模型GPT-4時(shí),完成一次訓(xùn)練需要約三個(gè)月時(shí)間,使用大約25000塊英偉達(dá)A100 GPU。每塊A100 GPU都擁有540億個(gè)晶體管,功耗400瓦,每秒鐘可以進(jìn)行19.5萬億次單精度浮點(diǎn)數(shù)的運(yùn)算,每次運(yùn)算又涉及到許多個(gè)晶體管的開關(guān)。

容易算出,僅僅是這些 GPU,一次訓(xùn)練就用了2.4億度電。這些電能幾乎全部轉(zhuǎn)化成了熱能,這些能量可以將大約200萬立方米冰水大概是1000個(gè)奧運(yùn)會(huì)標(biāo)準(zhǔn)游泳池的水量加熱到沸騰。

為什么AI需要用這么多的強(qiáng)大GPU來訓(xùn)練?因?yàn)榇笳Z言模型的規(guī)模實(shí)在太大。GPT-3模型擁有1750億參數(shù),而據(jù)推測,GPT-4擁有1.8萬億參數(shù),是GPT-3的十倍。要訓(xùn)練這種規(guī)模的模型,需要在大規(guī)模數(shù)據(jù)集上反復(fù)迭代,每一次迭代都需要計(jì)算和調(diào)整其中數(shù)十億、數(shù)百億乃至數(shù)千億個(gè)參數(shù)的值,這些計(jì)算最終會(huì)表現(xiàn)為晶體管的開開關(guān)關(guān),和集成電路中細(xì)細(xì)的電流以及熱量。

能量無法創(chuàng)造也無法消滅,它只能從一種形式轉(zhuǎn)化成另一種形式。對于電子計(jì)算機(jī)來說,它最主要的能量轉(zhuǎn)化方式,就是從電能轉(zhuǎn)化成熱能。

大語言模型也是如此。它對電能和冷卻水的需求,正帶來越來越嚴(yán)重的環(huán)境問題。

回收“電熱水器”中的熱量?

就在前幾天,有微軟公司的工程師說,為了訓(xùn)練GPT-6,微軟和OpenAI建造了巨大的數(shù)據(jù)中心,將會(huì)使用10萬塊英偉達(dá)H100 GPU性能比A100更強(qiáng),當(dāng)然功耗也更大但是,這些GPU不能放在同一個(gè)州,否則會(huì)導(dǎo)致電網(wǎng)負(fù)荷過大而崩潰。

AI發(fā)展帶來的能源短缺問題,已經(jīng)開始浮現(xiàn)。在今年的達(dá)沃斯世界經(jīng)濟(jì)論壇上,OpenAI的CEO山姆阿爾特曼(Sam Altman)認(rèn)為,核聚變可能是能源的發(fā)展方向。但要開發(fā)出真正可用的核聚變技術(shù),可能還需要一些時(shí)間。

水的問題也是一樣。過去幾年,那些在AI大模型領(lǐng)域先行一步的大企業(yè)們,都面臨水消耗大幅增長的局面。2023 年6月,微軟公司發(fā)布了2022年度環(huán)境可持續(xù)發(fā)展報(bào)告,其中用水一項(xiàng),有超過20%的顯著增長。谷歌公司也類似。

有研究者認(rèn)為,AI的發(fā)展,是這些科技巨頭用水量劇增的主要原因要冷卻瘋狂發(fā)熱的芯片,水冷系統(tǒng)是最常見的選擇。為AI提供硬件基礎(chǔ)的數(shù)據(jù)中心,如同一個(gè)巨大的“電熱水器”。

如何讓這些散失的熱能不至于白白浪費(fèi)?最容易想到也容易實(shí)現(xiàn)的,是熱回收技術(shù)。比方說,將數(shù)據(jù)中心回收的熱量用于提供民用熱水,冬季提供民用采暖,F(xiàn)在有一些企業(yè)已經(jīng)著手在回收廢熱再利用了,例如中國移動(dòng)哈爾濱數(shù)據(jù)中心、阿里巴巴千島湖數(shù)據(jù)中心等。

這大概也算是一種解法,但并不能從根本上解決問題。AI產(chǎn)業(yè)的發(fā)展速度之快,在人類歷史上沒有任何產(chǎn)業(yè)能與之相比。平衡AI技術(shù)的發(fā)展與環(huán)境的可持續(xù)性,可能會(huì)是我們未來幾年的重要議題之一;技術(shù)進(jìn)步和能源消耗之間的復(fù)雜關(guān)系,從來沒有這么急迫地出現(xiàn)在人類面前。

本文受科普中國星空計(jì)劃項(xiàng)目扶持

出品:中國科協(xié)科普部

監(jiān)制:中國科學(xué)技術(shù)出版社有限公司、北京中科星河文化傳媒有限公司

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港