芝能智芯出品
人工智能(AI)正在推動(dòng)數(shù)據(jù)中心基礎(chǔ)設(shè)施的轉(zhuǎn)型,以滿足日益增長(zhǎng)的AI工作負(fù)載需求。
隨著AI系統(tǒng)的規(guī)模不斷擴(kuò)大,下一代計(jì)算服務(wù)器、交換機(jī)、光電鏈路以及靈活、冗余的網(wǎng)絡(luò)解決方案變得至關(guān)重要。關(guān)鍵創(chuàng)新,如先進(jìn)的連接技術(shù)、通過(guò)Chiplet實(shí)現(xiàn)的定制硅片解決方案以及光學(xué)連接的普及,正在重新定義AI集群的部署和運(yùn)營(yíng)方式。
Part 1連接技術(shù):實(shí)現(xiàn)可擴(kuò)展的AI集群
無(wú)論是位于單個(gè)數(shù)據(jù)中心還是分布在多個(gè)位置,擴(kuò)展AI集群都依賴于高性能連接技術(shù)。
AI的前端網(wǎng)絡(luò)(處理數(shù)據(jù)流)和后端ML網(wǎng)絡(luò)(處理大規(guī)模AI計(jì)算)需要低延遲、高速通信。光電鏈路和靈活、冗余的網(wǎng)絡(luò)越來(lái)越多地支持這一點(diǎn),確保即使需求增長(zhǎng)也能平穩(wěn)運(yùn)行。一項(xiàng)關(guān)鍵創(chuàng)新是從基于銅的系統(tǒng)轉(zhuǎn)向先進(jìn)的光學(xué)連接解決方案,如可插拔光學(xué)模塊和共封裝光學(xué)器件(CPO)。
這些技術(shù)通過(guò)減少延遲和增加帶寬來(lái)提高性能,這對(duì)于需要快速數(shù)據(jù)交換的AI任務(wù)至關(guān)重要。
將微型光學(xué)引擎直接集成到芯片封裝中,用光纖取代電氣互連。結(jié)合電氣I/O芯片,CPO芯片可提供針對(duì)不同應(yīng)用優(yōu)化的混合搭配解決方案,從而提高AI處理速度和效率。
AI工作負(fù)載變得越來(lái)越復(fù)雜,定制硅片解決方案變得至關(guān)重要。Chiplet可實(shí)現(xiàn)針對(duì)特定AI任務(wù)量身定制的專用硬件。
Chiplet基于低成本基板構(gòu)建,在不犧牲性能的情況下提高了價(jià)格承受能力。其靈活的配置可幫助數(shù)據(jù)中心滿足各種計(jì)算需求。
芯片生態(tài)系統(tǒng)以通用芯片互連(UCIe)等芯片到芯片接口為基礎(chǔ),可實(shí)現(xiàn)I/O、計(jì)算和內(nèi)存芯片之間的無(wú)縫通信。例如:
●I/O芯片:可能采用多標(biāo)準(zhǔn)SerDes,并配備PCIe Gen6、CXL 3.0或112Gbps以太網(wǎng)控制器。
●計(jì)算芯片:利用基于Arm的內(nèi)核進(jìn)行高性能處理。
●內(nèi)存擴(kuò)展芯片:具有低延遲DDR或HBM,確保更快的數(shù)據(jù)訪問(wèn),從而進(jìn)一步提高AI性能。
Part 2經(jīng)濟(jì)高效地?cái)U(kuò)展性能
Chiplet的模塊化特性允許以較低的成本實(shí)現(xiàn)可擴(kuò)展的性能。傳統(tǒng)的單片芯片開(kāi)發(fā)成本高昂且耗時(shí),但Chiplet具有預(yù)先驗(yàn)證的可重復(fù)使用組件,可縮短開(kāi)發(fā)時(shí)間和生產(chǎn)成本。這對(duì)于AI驅(qū)動(dòng)的行業(yè)至關(guān)重要,因?yàn)樾屎透斓纳鲜袝r(shí)間至關(guān)重要。
Chiplet還有助于管理功耗隨著數(shù)據(jù)中心規(guī)模的擴(kuò)大,這一點(diǎn)非常重要。芯片間接口的創(chuàng)新解決了與信號(hào)和電源完整性相關(guān)的挑戰(zhàn),例如串?dāng)_和互連損耗。電力輸送和封裝技術(shù)的進(jìn)步以及時(shí)鐘解決方案的改進(jìn)也提高了密集信號(hào)布線和時(shí)鐘/數(shù)據(jù)對(duì)齊的效率。
光學(xué)連接技術(shù)(尤其是在芯片生態(tài)系統(tǒng)中)正在改變AI數(shù)據(jù)中心格局。CPO和高密度光學(xué)I/O解決方案正在突破AI集群功能的界限。通過(guò)將光學(xué)組件直接集成到芯片設(shè)計(jì)中,AI系統(tǒng)可以以更低的延遲和更高的能效處理更大的數(shù)據(jù)量。
密集的光纖陣列和先進(jìn)的扇出技術(shù)
●光纖陣列:多種波長(zhǎng)和先進(jìn)的扇出技術(shù)確保光學(xué)I/O能夠滿足AI日益增長(zhǎng)的數(shù)據(jù)需求。
●性能提升:這些創(chuàng)新不僅提高了速度,還提高了能源效率,這在耗電巨大的AI領(lǐng)域至關(guān)重要。
●模塊化混合光學(xué)和電氣I/O芯片:可為各種AI應(yīng)用提供量身定制的解決方案,從大規(guī)模訓(xùn)練模型到實(shí)時(shí)推理。
通過(guò)芯片對(duì)芯片接口實(shí)現(xiàn)的不斷擴(kuò)展的芯片生態(tài)系統(tǒng)可實(shí)現(xiàn)各種定制AI系統(tǒng)。這包括I/O、計(jì)算和內(nèi)存擴(kuò)展芯片,每個(gè)芯片都針對(duì)特定任務(wù)進(jìn)行了優(yōu)化。
多標(biāo)準(zhǔn)SerDes I/O芯片支持PCIe Gen6和112Gbps以太網(wǎng)等高速協(xié)議,而基于Arm的計(jì)算芯片則為AI工作負(fù)載提供處理能力。內(nèi)存擴(kuò)展芯片具有低延遲DDR或HBM,可確保AI模型快速訪問(wèn)數(shù)據(jù)。
●UCIe:管理串?dāng)_和補(bǔ)償互連損耗,實(shí)現(xiàn)信號(hào)完整性。
●電源完整性和封裝技術(shù):進(jìn)一步確保AI系統(tǒng)的可擴(kuò)展性和可靠性。
連接技術(shù)、芯片架構(gòu)以及光學(xué)和電氣解決方案生態(tài)系統(tǒng)正在推動(dòng)人工智能數(shù)據(jù)中心的未來(lái)。從先進(jìn)的光電鏈路和共封裝光學(xué)器件到可定制的芯片設(shè)計(jì),人工智能基礎(chǔ)設(shè)施正在建立在可擴(kuò)展、靈活且高效的解決方案之上。
小結(jié)
這些創(chuàng)新使AI集群能夠在性能和地理分布方面實(shí)現(xiàn)擴(kuò)展,從而使數(shù)據(jù)中心能夠滿足AI不斷增長(zhǎng)的計(jì)算需求,同時(shí)控制成本和能耗。