隨著技術(shù)的飛速發(fā)展,AI系統(tǒng)正變得越來越復(fù)雜和強大,它如何塑造我們的未來呢?讓我們一起探索這個充滿潛力的領(lǐng)域。
想象一下,如果人工智能(AI)是一棟摩天大樓,那么AI系統(tǒng)就是支撐這座大樓的堅實地基。它不僅連接著底層的硬件設(shè)施,還支撐著上層的應(yīng)用程序,是AI時代的中流砥柱。
一、基本概念
從類比的角度理解 AI 系統(tǒng):AI 時代連接硬件和上層應(yīng)用的中間層軟硬件基礎(chǔ)設(shè)施。
因此在部分語境中,又有人稱為 AI Infra 人工智能的基礎(chǔ)設(shè)施,但是因為基礎(chǔ)設(shè)施更偏向于底層硬件、集群等內(nèi)容,而 AI 系統(tǒng)是多的是強調(diào)讓 AI 執(zhí)行起來的系統(tǒng)體系結(jié)構(gòu),因此更愿意稱包括軟硬件的內(nèi)容為 AI 系統(tǒng)。
傳統(tǒng)本地部署時代,三大基礎(chǔ)軟件(數(shù)據(jù)庫、操作系統(tǒng)、中間件)實現(xiàn)控制硬件交互、存儲管理數(shù)據(jù)、網(wǎng)絡(luò)通信調(diào)度等共性功能,抽象并隔絕底層硬件系統(tǒng)的復(fù)雜性,讓上層應(yīng)用開發(fā)者能夠?qū)W⒂跇I(yè)務(wù)邏輯和應(yīng)用功能本身的創(chuàng)新實現(xiàn)。
云時代同理,形成了 IaaS、PaaS、SaaS 三層架構(gòu),其中 PaaS 層提供應(yīng)用開發(fā)環(huán)境和基礎(chǔ)的數(shù)據(jù)分析管理服務(wù)。類比來看,我們認(rèn)為,進(jìn)入 AI 時代也有承擔(dān)類似功能的、連接算力和應(yīng)用的基礎(chǔ)設(shè)施中間層即 AI 系統(tǒng),提供基礎(chǔ)模型服務(wù)、賦能模型微調(diào)和應(yīng)用開發(fā)。
二、詳細(xì)定義
開發(fā)者一般通過編程語言 Python 和 AI 開發(fā)框架(例如 PyTorch、MindSpore 等)API 編碼和描述以上 AI 模型,聲明訓(xùn)練作業(yè)和部署模型流程。由最開始 AlexNet 是作者直接通過 CUDA 實現(xiàn)網(wǎng)絡(luò)模型,到目前有通過 Python 語言靈活和輕松調(diào)用的框架,到大家習(xí)慣使用 HuggingFace 進(jìn)行神經(jīng)網(wǎng)絡(luò)語言模型訓(xùn)練,背后是系統(tǒng)工程師貼合實際需求不斷研發(fā)新的工具,并推動深度學(xué)習(xí)生產(chǎn)力提升的結(jié)果。
但是這些 AI 編程語言和 AI 開發(fā)框架應(yīng)對自動化機器學(xué)習(xí)、強化學(xué)習(xí)等多樣執(zhí)行方式,以及細(xì)分的應(yīng)用場景顯得越來越低效,不夠靈活,需要用戶自定義一些特殊優(yōu)化,沒有好的工具和系統(tǒng)的支撐,這些問題一定程度上會拖慢和阻礙算法工程師研發(fā)效率,影響算法本身的發(fā)展。因此,目前開源社區(qū)中也不斷涌現(xiàn)針對特定應(yīng)用領(lǐng)域而設(shè)計的框架和工具,例如 Hugging Face 提供語言預(yù)訓(xùn)練模型 ModelZoo 和社區(qū),F(xiàn)airSeq 自然語言處理中的序列到序列模型開發(fā)套件和MMDetection 物體檢測套件,針對自動化機器學(xué)習(xí)設(shè)計的 NNI 加速庫等,進(jìn)而針對特定領(lǐng)域模型應(yīng)用負(fù)載進(jìn)行定制化設(shè)計和性能優(yōu)化,并提供更簡化的接口和應(yīng)用體驗。
由于不同領(lǐng)域的輸入數(shù)據(jù)格式不同,預(yù)測輸出結(jié)果不同,數(shù)據(jù)獲取方式不同,造成模型結(jié)構(gòu)和訓(xùn)練方式產(chǎn)生非常多樣的需求,各家公司和組織不斷研發(fā)新的針對特定領(lǐng)域的 AI 開發(fā)框架或上層應(yīng)用接口封裝,以支持特定領(lǐng)域數(shù)據(jù)科學(xué)家快速驗證和實現(xiàn)新的 AI 想法,工程化部署和批量訓(xùn)練成熟的模型。如 Meta 推出的 Caffe 與 Torch 演化到 PyTorch,谷歌 TensorFlow 及新推出的 JAX,基于 PyTorch 構(gòu)建的 HuggingFace 等。AI 開發(fā)工具與 AI 開發(fā)框架本身也是隨著用戶的模型構(gòu)建與程序編寫與部署需求不斷演進(jìn)。
這其中快速獲取用戶的原因,有一些是其提供了針對應(yīng)用場景非常簡化的模型操作,并提供模型中心快速微調(diào)相應(yīng)的模型,有一些是因為其能支持大規(guī)模模型訓(xùn)練或者有特定領(lǐng)域模型結(jié)構(gòu)的系統(tǒng)優(yōu)化。
AI 系統(tǒng)自身設(shè)計挑戰(zhàn)較高(如更大的規(guī)模、更大的超參數(shù)搜索空間、更復(fù)雜的模型結(jié)構(gòu)設(shè)計),人工智能的代表性開發(fā)框架 PyTorch 是 Meta 開發(fā),后續(xù)貢獻(xiàn)給 Linux 開源基金會;TensorFlow 是谷歌(谷歌)從 2016 年開源;華為(HUAWEI)為了避免美國全面封鎖 AI 領(lǐng)域推出自研的 AI 框架 MindSpore。
硬件廠商圍繞其設(shè)計了大量的專有 AI 芯片(如 GPU、TPU、NPU 等)來加速 AI 算法的訓(xùn)練微調(diào)和部署推理,微軟(Microsoft)、亞馬遜(Amazon)、特斯拉(Tesla)等公司早已部署數(shù)以萬計的 GPU 用于 AI 模型的訓(xùn)練,OpenAI 等公司不斷挑戰(zhàn)更大規(guī)模的分布式模型訓(xùn)練。
英偉達(dá)(NVIDIA)、華為(HUAWEI)、英特爾(Intel)、谷歌(谷歌)等公司不斷根據(jù) AI 模型特點設(shè)計新的 AI 加速器芯片和對應(yīng)的 AI 加速模塊,如張量核 Tensor Core、脈動陣列等提供更大算力 AI 加速器。
上述從頂層的 AI 算法應(yīng)用、開發(fā)框架到底層應(yīng)用所介紹的 AI 全棧相關(guān)內(nèi)容中則是指 AI 系統(tǒng)(AI System),是圍繞深度學(xué)習(xí)而衍生和設(shè)計的系統(tǒng),因此也叫做深度學(xué)習(xí)系統(tǒng)(Deep Learning System)。
但是 AI 系統(tǒng)很多也可以應(yīng)用于機器學(xué)習(xí)算法或使用機器學(xué)習(xí)算法,例如自動化機器學(xué)習(xí)、集群管理系統(tǒng)等。同時這些系統(tǒng)設(shè)計方法具有一定的通用性,有些繼承自機器學(xué)習(xí)系統(tǒng)或者可以借鑒用于機器學(xué)習(xí)系統(tǒng)。即使作為系統(tǒng)工程師,也需要密切關(guān)注算法和應(yīng)用的演進(jìn),才能緊跟潮流設(shè)計出貼合應(yīng)用實際的工具與系統(tǒng)。
AI系統(tǒng)的發(fā)展是AI領(lǐng)域進(jìn)步的基石。隨著技術(shù)的不斷進(jìn)步,我們可以預(yù)見,AI系統(tǒng)將變得更加智能和高效,為未來的創(chuàng)新和突破提供強大的支持。這不僅是技術(shù)的勝利,更是人類智慧的體現(xiàn)。讓我們拭目以待,AI系統(tǒng)將如何繼續(xù)塑造我們的世界?
本文由 @章魚AI小丸子 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)