當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能動(dòng)態(tài) > 跨越AI大模型的門檻：尤洋教授的理論與實(shí)踐指南

跨越AI大模型的門檻：尤洋教授的理論與實(shí)踐指南
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-12-28 18:49:46 瀏覽：7131次

導(dǎo)讀：作者｜蘇霍伊編輯｜栗子在GPT-3.5尚未嶄露頭角之前，新加坡國立大學(xué)校長青年教授、潞晨科技創(chuàng)始人兼董事長尤洋就意識(shí)到，大模型會(huì)成為未來的重要發(fā)展方向。早在2018年，他便參與了谷歌BERT模型的訓(xùn)練，并成功將預(yù)訓(xùn)練時(shí)間從三天縮短至76分鐘，時(shí)至今日這...

作者｜蘇霍伊

編輯｜栗子

在GPT-3.5尚未嶄露頭角之前，新加坡國立大學(xué)校長青年教授、潞晨科技創(chuàng)始人兼董事長尤洋就意識(shí)到，大模型會(huì)成為未來的重要發(fā)展方向。

早在2018年，他便參與了谷歌BERT模型的訓(xùn)練，并成功將預(yù)訓(xùn)練時(shí)間從三天縮短至76分鐘，時(shí)至今日這一優(yōu)化方法仍被多家企業(yè)采用。

2020年時(shí)，OpenAI推出了全球最大規(guī)模的預(yù)訓(xùn)練語言模型GPT-3，這激起了尤洋對(duì)大型模型開發(fā)的興趣。到了2023年，人工智能領(lǐng)域迎來了大模型的爆發(fā)之年。其熱潮迅速席卷全球，AI成為各行業(yè)的兵家必爭之地。

據(jù)IDC（國際數(shù)據(jù)公司）預(yù)測，到2026年，AI軟件市場規(guī)模將達(dá)到76.9億美元。我們每個(gè)人都能明顯感受到，人工智能正從感知理解世界走向生成創(chuàng)造世界的階段，并推動(dòng)產(chǎn)業(yè)智能化加速進(jìn)入拐點(diǎn)。

作為高性能計(jì)算研究者，尤洋也在密切關(guān)注著大模型行業(yè)的最新動(dòng)態(tài)。

他十分看好中國的AI底色。“得益于國家政策扶持、資本和人才的匯聚，當(dāng)前國內(nèi)的AI行業(yè)正經(jīng)歷著快速成長期。”尤洋認(rèn)為，“我們的研究型大學(xué)和科研機(jī)構(gòu)在AI基礎(chǔ)研究、技術(shù)開發(fā)和人才培養(yǎng)上扮演著核心角色，這些努力正不斷增強(qiáng)中國AI產(chǎn)業(yè)在全球的競爭力。”

但“一片向好”的同時(shí)，尤洋也意識(shí)到，無論是AI初學(xué)者還是業(yè)內(nèi)人士，都面臨著大模型的“門檻”。

初學(xué)者涉足大模型領(lǐng)域需要克服高技術(shù)“門檻”，大模型的復(fù)雜性和技術(shù)的不斷更新又增加了理解和掌握這些技術(shù)的挑戰(zhàn)。

而從業(yè)者面前的“門檻”則在于如何巧妙地“駕馭”這一尖端技術(shù)。想要在激烈的市場競爭中脫穎而出，就需要從業(yè)者找到最大化大模型潛能的策略，以實(shí)現(xiàn)降本增效。

為了幫助人們跨越這道“坎”，尤洋萌生了撰寫一本關(guān)于“大模型實(shí)戰(zhàn)指南”的構(gòu)想。他希望能在人們與大模型之間，搭建一座高效連通的“橋梁”。

他對(duì)「甲子光年」表示：“我想和更多人分享我在高性能計(jì)算和AI大模型領(lǐng)域的知識(shí)和經(jīng)驗(yàn)，希望通過這本《實(shí)戰(zhàn)AI大模型》，為讀者提供我個(gè)人的見解和建議，并與更多人探討相關(guān)議題。”

上線一周《實(shí)戰(zhàn)AI大模型》就榮登京東圖書榜人工智能書籍的第一名，圖片來源：受訪者提供

1.實(shí)戰(zhàn)AI大模型：從新手到專家的必備指南

在了解《實(shí)戰(zhàn)AI大模型》之前，我們有必要先了解一下本書的作者，尤洋教授。

尤洋畢業(yè)于美國加州伯克利大學(xué)。在研究生期間，他就以第一作者身份獲得2015年國際并行與分布式處理大會(huì)（IPDPS）的最佳論文。在伯克利期間，尤洋獲得了Lotfi A. Zadeh Prize，這是頒發(fā)給在軟計(jì)算及其應(yīng)用領(lǐng)域做出杰出貢獻(xiàn)的伯克利大學(xué)博士畢業(yè)生的獎(jiǎng)項(xiàng)。2017年，他的團(tuán)隊(duì)打破了ImageNet訓(xùn)練速度的世界記錄，被NSF、ScienceDaily、Science NewsLine和i-programmer等科技媒體廣泛報(bào)道。

尤洋在2023甲子引力年終盛典上發(fā)表主題演講，圖片來源：「甲子光年」拍攝

真正讓尤洋在AI業(yè)內(nèi)享負(fù)盛名的是他提出的一系列AI訓(xùn)練方法。

2018年，博士期間尤洋以第一作者發(fā)表論文《Imagenet training in minutes》，獲國際并行處理大會(huì)(ICPP)最佳論文獎(jiǎng)，位列313篇論文中的第一名，論文所提出LARS優(yōu)化器刷新了ImageNet訓(xùn)練速度的世界紀(jì)錄，將AlexNet模型的訓(xùn)練時(shí)間縮短到僅24分鐘。

2019年，尤洋再次作為第一作者提出LAMB優(yōu)化器，成功將BERT的預(yù)訓(xùn)練時(shí)間，從原本的三天三夜縮短至76 分鐘，比Adam優(yōu)化器快出整整72倍，成為機(jī)器學(xué)習(xí)領(lǐng)域的主流優(yōu)化器。

此外，尤洋團(tuán)隊(duì)還研發(fā)了CowClip算法，顯著提升了CTR預(yù)測模型的訓(xùn)練速度。2021年，他入選福布斯30歲以下精英榜(亞洲)并獲得IEEE-CS超算杰出新人獎(jiǎng)。

正因在AI大模型領(lǐng)域的多年深耕與建樹，讓尤洋看到了大模型理論與實(shí)踐之間的巨大鴻溝。

對(duì)于今天的人們來說，經(jīng)過整整一年的媒體報(bào)道，AI大模型的名字已并不陌生，部分領(lǐng)域的從業(yè)者也早已開始運(yùn)用AI大模型進(jìn)行業(yè)務(wù)優(yōu)化。

例如，AI圖像生成產(chǎn)品Midjourney、Stable Diffusion和DALL-E等，允許用戶通過文字描述生成圖像；在音頻領(lǐng)域，微軟的Speech Studio服務(wù)讓用戶能夠創(chuàng)建與自己聲音相似的虛擬分身。

不過，這些產(chǎn)品僅僅是讓用戶可以享受到AI對(duì)自身工作帶來的便利。但對(duì)于更專業(yè)的技術(shù)人員、或要求更高的企業(yè)級(jí)用戶來說，僅僅在應(yīng)用層面的認(rèn)知是遠(yuǎn)遠(yuǎn)不夠的。

例如，Transformer模型、BERT模型、GPT模型分別是什么，有什么特點(diǎn)？不同模型各自的優(yōu)勢(shì)是什么？訓(xùn)練難點(diǎn)在哪里？

尤洋認(rèn)為，只有掌握了深度學(xué)習(xí)的基本概念、經(jīng)典算法和網(wǎng)絡(luò)架構(gòu)，才能更好地理解和應(yīng)用AI大模型。

這就是尤洋寫這本《實(shí)戰(zhàn)AI大模型》的初衷和目標(biāo)。他希望通過這本書，為讀者提供一份詳細(xì)的指南和參考，提供一個(gè)理論與實(shí)踐相結(jié)合的全面視角，讓讀者能夠理解并運(yùn)用AI大模型。

在尤洋的觀點(diǎn)中，每個(gè)模型，無論是BERT、GPT或PaLM，都是人工智能技術(shù)演進(jìn)的結(jié)晶，背后包含了深厚的理論基礎(chǔ)和實(shí)踐經(jīng)驗(yàn)。也正因如此，他選擇對(duì)每種模型進(jìn)行單獨(dú)討論，以確保對(duì)每種模型的深度和廣度都有充分的覆蓋。

對(duì)于訓(xùn)練這些模型所需的技術(shù)，書中進(jìn)行了全面的介紹。從高性能計(jì)算（HPC）到并行處理，從大規(guī)模優(yōu)化方法到內(nèi)存優(yōu)化，每一種技術(shù)都是精心挑選并深入研究的，它們是AI大模型訓(xùn)練的基石，也是構(gòu)建高性能AI系統(tǒng)的關(guān)鍵。

例如：

Transformer模型通過其獨(dú)特的“注意力機(jī)制”在自然語言處理（NLP）領(lǐng)域成為核心，顯著提升了機(jī)器理解和生成文本的準(zhǔn)確性；

BERT模型通過雙向訓(xùn)練機(jī)制增強(qiáng)了文本處理的準(zhǔn)確性和靈活性，廣泛應(yīng)用于語言理解任務(wù)；

ALBERT模型作為BERT的優(yōu)化版，以更高的效率和更小的模型尺寸解決了NLP挑戰(zhàn)；

T5模型展示了統(tǒng)一框架處理多種文本任務(wù)的能力，對(duì)AI系統(tǒng)的通用性有重要意義；

GPT系列以其強(qiáng)大的文本生成能力在NLP任務(wù)中取得重大進(jìn)展；

Google的PaLM模型是大模型領(lǐng)域的里程碑，展示了AI在理解和生成人類語言方面的最新進(jìn)展。

當(dāng)然，本書的內(nèi)容遠(yuǎn)不止此。除了詳細(xì)介紹各個(gè)模型的原理、訓(xùn)練方法和應(yīng)用場景外，本書還探討了分布式系統(tǒng)、并行策略和內(nèi)存優(yōu)化等關(guān)鍵技術(shù)。

創(chuàng)新工場與零一萬物的創(chuàng)始人兼CEO李開復(fù)對(duì)本書給予了高度評(píng)價(jià)：“這本書不僅深入淺出地闡釋了AI大模型的核心概念，還緊密貼合AI 2.0這一有史以來最重要的技術(shù)革命。”

2.Colossal-AI：大模型訓(xùn)練的顛覆性技術(shù)

掌握理論知識(shí)只是實(shí)踐的起點(diǎn)。

在AI的應(yīng)用中，我們需要解決大模型訓(xùn)練的一系列挑戰(zhàn)，例如計(jì)算資源的管理，訓(xùn)練效率的優(yōu)化等。

為了實(shí)現(xiàn)了理論與實(shí)踐的完美結(jié)合，尤洋特別在書中引入了Colossal-AI系統(tǒng)。

這是一個(gè)集成的大規(guī)模深度學(xué)習(xí)系統(tǒng)。它通過數(shù)據(jù)并行、模型并行和流水線并行等策略，有效分散了計(jì)算和存儲(chǔ)負(fù)擔(dān)，使得在有限資源下進(jìn)行大模型訓(xùn)練成為可能。

“GPT-3在什么都沒干的情況下，就要消耗3200G內(nèi)存。”尤洋指出，自2016年以來，人工智能模型的規(guī)模經(jīng)歷了指數(shù)級(jí)的增長。從微軟的2千萬參數(shù)模型到GPT-4的約1萬億到100萬億參數(shù)，模型規(guī)模每18個(gè)月至少增長40倍；而自2019年后，這一增長速率更是達(dá)到了約340倍。

然而，GPU內(nèi)存每18個(gè)月僅增長1.7倍，這使得現(xiàn)有硬件設(shè)備在訓(xùn)練大型模型時(shí)往往難以滿足所需的巨大計(jì)算資源和存儲(chǔ)空間。

換言之，目前硬件跟不上模型的發(fā)展速度，是大模型最需要克服的難題。

為了應(yīng)對(duì)挑戰(zhàn)，分布式訓(xùn)練技術(shù)或許是最優(yōu)解決方案。通過在多個(gè)計(jì)算節(jié)點(diǎn)上分割并同時(shí)執(zhí)行大型模型的訓(xùn)練任務(wù)，可以更有效地利用計(jì)算資源，加速訓(xùn)練過程。即使是普通工程師，通過整合公開的免費(fèi)數(shù)據(jù)集如C4、GitHub、Books等，也能訓(xùn)練出效果不錯(cuò)的大型模型。此外，選擇合適的基準(zhǔn)模型，如基于GPT-3的設(shè)計(jì)思路，同樣是訓(xùn)練過程中的關(guān)鍵步驟。

大模型的訓(xùn)練，需要大量的GPU和內(nèi)存資源。以高中數(shù)學(xué)為例，即使是訓(xùn)練一個(gè)非常小的模型，也需要進(jìn)行大量的計(jì)算操作和內(nèi)存資源。分布式優(yōu)化技術(shù)、高效的通信機(jī)制、數(shù)據(jù)并行和分布式存儲(chǔ)等技術(shù)對(duì)訓(xùn)練和部署企業(yè)級(jí)大型模型而言是至關(guān)重要的。同時(shí)，選擇合適的基座模型并結(jié)合數(shù)據(jù)并行和張量并行等方法，對(duì)于實(shí)現(xiàn)高效訓(xùn)練具有決定性影響。

而Colossal-AI系統(tǒng)作為尤洋教授主創(chuàng)的一個(gè)先進(jìn)的大模型訓(xùn)練工具，解決了在單GPU上訓(xùn)練大型模型時(shí)遇到的內(nèi)存限制問題，這也是在《實(shí)戰(zhàn)AI大模型》中特別強(qiáng)調(diào)的一部分。

ColossalChat的使用展示，圖片來源：受訪者提供

例如，Colossal-AI全球首個(gè)開源了最接近ChatGPT原始技術(shù)方案。它基于LLaMA模型，包含完整RLHF流程的類Chat模型復(fù)現(xiàn)方案ColossalChat。僅需不到百億參數(shù)模型的微調(diào)，即可達(dá)到類似GPT-3.5和ChatGPT的效果。

此外，Colossal-AI基于在大模型民主化的專業(yè)技術(shù)積累，開源完整Stable Diffusion預(yù)訓(xùn)練和個(gè)性化微調(diào)方案，在預(yù)訓(xùn)練時(shí)間加速的同時(shí)，經(jīng)濟(jì)成本降低6.5倍，個(gè)性化微調(diào)硬件成本降低7倍！更重要的是，它在個(gè)人電腦的RTX 2070/3050上即可快速完成微調(diào)任務(wù)流程，讓Stable Diffusion等AIGC模型的觸手可及。

“通過Colossal-AI，我在書中提供了詳細(xì)的實(shí)戰(zhàn)教程，包括訓(xùn)練BERT、GPT-3、PaLM、ViT和會(huì)話系統(tǒng)等模型的步驟，深入講解了系統(tǒng)的關(guān)鍵技術(shù)和優(yōu)勢(shì)，幫助用戶提升研究和工作效率。最后，通過實(shí)戰(zhàn)教程，將理論知識(shí)轉(zhuǎn)化為實(shí)踐。”尤洋向「甲子光年」介紹道，“畢竟，動(dòng)手實(shí)踐是理解和掌握復(fù)雜AI大模型的關(guān)鍵。”

尤洋開發(fā)Colossal-AI的初衷源于他的專業(yè)領(lǐng)域高性能計(jì)算。

他的主要目標(biāo)是提高大模型訓(xùn)練的效率和降低其成本。Colossal-AI提供了多種訓(xùn)練方法，如混合精度訓(xùn)練、梯度累積，以及數(shù)據(jù)并行、張量并行和流水線并行等技術(shù)。通過這些方法，能夠優(yōu)化模型訓(xùn)練的過程，有效地跨節(jié)點(diǎn)擴(kuò)展模型，這恰恰也是傳統(tǒng)訓(xùn)練方法無法實(shí)現(xiàn)的。

并且，它的API設(shè)計(jì)簡潔易用，適應(yīng)者可以快速上手，將更多的時(shí)間和精力用于模型的設(shè)計(jì)和優(yōu)化，而不是解決底層的技術(shù)問題。

Colossal-AI的路線主要分為三部分：

首先，開發(fā)用于訓(xùn)練大模型的系統(tǒng)Colossal-AI，適用于GPT、LLaMA等模型，旨在節(jié)省時(shí)間和成本；

其次，訓(xùn)練特定行業(yè)的大模型，參數(shù)規(guī)模在100億到200億之間；

最后，開發(fā)PaaS平臺(tái)，將需要訓(xùn)練大模型的客戶整合到平臺(tái)中，形成正向循環(huán)。

目前，尤洋的重點(diǎn)是繼續(xù)開發(fā)和優(yōu)化Colossal-AI，同時(shí)協(xié)助企業(yè)進(jìn)行大模型的私有化部署，并計(jì)劃未來在商業(yè)化方面進(jìn)一步發(fā)展。

他始終堅(jiān)信，AI行業(yè)的開放性對(duì)技術(shù)的發(fā)展至關(guān)重要。AI技術(shù)沒有絕對(duì)的知識(shí)產(chǎn)權(quán)，通過開源，技術(shù)才能走得更遠(yuǎn)。

“這種開放性和生態(tài)系統(tǒng)的建設(shè)，即吸引大量用戶使用和提供反饋，是未來AI技術(shù)競爭的關(guān)鍵。只有不斷地迭代和優(yōu)化，才能吸引更多的用戶，這對(duì)于建立一個(gè)強(qiáng)大的AI生態(tài)系統(tǒng)至關(guān)重要。”尤洋解釋道。

3.從學(xué)術(shù)研究到商業(yè)應(yīng)用

從高性能計(jì)算的學(xué)術(shù)研究出發(fā)，最終走向了AI技術(shù)的商業(yè)應(yīng)用。尤洋的經(jīng)歷讓他深刻認(rèn)識(shí)到，AI在處理大規(guī)模數(shù)據(jù)時(shí)對(duì)高性能計(jì)算的依賴。

這也激發(fā)了尤洋創(chuàng)立Colossal-AI平臺(tái)的想法。他希望通過Colossal-AI來提升AI處理計(jì)算的效率，幫助AI企業(yè)加快產(chǎn)品開發(fā)速度，從而節(jié)省成本。

這個(gè)想法最終促使尤洋走上了創(chuàng)業(yè)之路。在成為新加坡國立大學(xué)計(jì)算機(jī)系首位校長青年教授后，尤洋于2021年7月回國創(chuàng)立了潞晨科技。

得益于其在技術(shù)創(chuàng)新方面的積累，潞晨科技吸引了多家投資機(jī)構(gòu)的支持。

2021年8月，潞晨科技獲得由創(chuàng)新工場和真格基金合投的超千萬元種子輪融資；2022年9月，又獲得藍(lán)馳創(chuàng)投領(lǐng)投的600萬美元天使輪融資。

不久前，尤洋帶領(lǐng)團(tuán)隊(duì)榮獲AAAI 2023杰出論文獎(jiǎng)，引起AI界廣泛關(guān)注。而后潞晨科技便在今年5月宣布完成A輪融資，金額高達(dá)數(shù)億元。據(jù)公司介紹，這是潞晨科技成立18個(gè)月內(nèi)的第三輪融資，資金將主要用于團(tuán)隊(duì)擴(kuò)張和業(yè)務(wù)拓展。

同年11月，潞晨科技宣布完成近億元A+輪融資，本次融資由某世界500強(qiáng)科技巨頭領(lǐng)投，同時(shí)大灣區(qū)基金和新加坡電信投資公司（SingTel Innov8）也參與了投資。

在潞晨科技，尤洋和團(tuán)隊(duì)致力于克服大模型訓(xùn)練和應(yīng)用中的難題。公司推出了包括Colossal-AI在內(nèi)的一系列服務(wù)，這些服務(wù)完全開源，涵蓋了異構(gòu)管理系統(tǒng)、并行技術(shù)以及系統(tǒng)部署，旨在幫助用戶高效地部署AI模型。尤洋表示：“我想將微調(diào)成本降至幾百元人民幣，讓大家用最的低成本就能訓(xùn)練GPT模型。”

“我們的愿景是為企業(yè)提供流暢的部署和訓(xùn)練體驗(yàn)。”未來，他希望用戶可以在服務(wù)器、終端，甚至是手機(jī)上定義好模型，將其通過Colossal AI部署至云端，支持CPU、GPU、TPU、FPGA等多種硬件平臺(tái)和TensorFlow、PyTorch、Keras、Theano等多種編程框架。這將更高效地幫助初創(chuàng)公司能夠最大化效率、最小化成本，從而部署自己的模型和系統(tǒng)。

根據(jù)公司生態(tài)圖，Colossal-AI的用戶增長速度超過了傳統(tǒng)軟件，吸引了來自全球各地的用戶，包括中國、美國、歐洲、印度和東南亞等地區(qū)，目前已獲得GitHub星數(shù)三萬五千多顆，細(xì)分賽道排名世界第一。Colossal-LLaMA開源模型三周內(nèi)在Hugging Face下載量突破18萬。

大模型的時(shí)代，機(jī)遇與挑戰(zhàn)共存。

通過有效利用分布式訓(xùn)練技術(shù)和企業(yè)級(jí)大模型解決方案，可以加速訓(xùn)練過程，提升訓(xùn)練強(qiáng)度，推動(dòng)大模型應(yīng)用達(dá)到新水平。尤洋呼吁共同努力，推動(dòng)大模型技術(shù)的進(jìn)步，為科學(xué)、商業(yè)和社會(huì)帶來更廣泛的利益。