過去一年來,圍繞2023 Arm全面計算解決方案(TCS23)中的CPU集群催生出許多令人矚目的產(chǎn)品和發(fā)布,并共同推動AI等新的高級應(yīng)用激增。
5月底,Arm發(fā)布了Arm終端計算子系統(tǒng)(CSS),以30%以上的計算和圖形性能提升應(yīng)對要求苛刻的實際應(yīng)用中的安卓工作負(fù)載,同時也以59%的AI推理速度的提升支持更廣泛的人工智能、機器學(xué)習(xí)和計算視覺工作負(fù)載。該平臺包括了第二代Armv9.2 CPU集群,內(nèi)含Arm性能最強的 Arm Cortex-X925 CPU 以及效率最高的Cortex-A725 和更新后的 Cortex-A520 CPU,讓三納米工藝上的性能和效率達(dá)到全新水平。
Arm終端事業(yè)部高級產(chǎn)品經(jīng)理Manish Pandey
“AI運行于Arm平臺和CPU集群之上,這些工作負(fù)載的計算密集度越來越高。Arm不斷發(fā)展技術(shù),以應(yīng)對這一挑戰(zhàn)!痹贏rm終端事業(yè)部高級產(chǎn)品經(jīng)理Manish Pandey看來,新的Armv9.2
CPU集群的問世,水到渠成。
作為Arm終端CSS核心之一的CPU家族Cortex-X/A系列,不僅在性能上顯著提升,而且產(chǎn)品名稱也有所變化,彰顯Arm的創(chuàng)新成績與服務(wù)客戶的底氣,而其中最值得大書特書的當(dāng)屬Cortex-X925。
作為迄今Arm速度最快、性能最強的CPU,Cortex-X925比前一代產(chǎn)品的單線程性能提升了36%,AI性能提高了46%。
Cortex-X系列是Arm于2020年推出的、以提高單線程性能為目標(biāo)并且在過去四代年產(chǎn)品不斷迭代升級的CPU。
另一款CPUArm
Cortex-A725實現(xiàn)了性能與效率的最佳平衡,與前一代相比,其性能效率提升了35%。
針對最新的3nm工藝節(jié)點更新并優(yōu)化的 Cortex-A520,能耗降低了15%。
功耗的降低有助于延長電池續(xù)航時間。在現(xiàn)實環(huán)境的體驗中,Arm在40個指標(biāo)上平均實現(xiàn)了30%的提升。
這些成果的取得,源自于Arm對關(guān)鍵用戶體驗指標(biāo)搜集、設(shè)計和分析的結(jié)果。毫無疑問,每一個數(shù)字,對于芯片設(shè)計客戶來說都意味著效率的提升、成本的降低、產(chǎn)品上市的提前,等等不一而足。而從終端消費者的角度來說,自然就等于更好的移動設(shè)備體驗。
在高端移動設(shè)備之外,該集群能夠擴展到更廣泛的應(yīng)用空間。如在PC筆記本領(lǐng)域,Cortex-A925與目前市面上的設(shè)備相比同樣具備非常出色的性能。DSU與高效能的Cortex-A725相結(jié)合,提供了驚人的可擴展性,能夠?qū)崿F(xiàn)非常優(yōu)異的多線程性能。
有形的“性能”與無形的“效率”,均保持兩位數(shù)增速
性能指標(biāo)的提升,背后是技術(shù)的強力支持。
除了聚焦單線程性能的提升,Arm更是基于每時鐘周期指令數(shù)(IPC)、頻率、編譯器、操作系統(tǒng)(OS)、封裝等多個因素大膽革新,以前沿的微架構(gòu)功能、可配置性和先進的物理解決方案,讓Arm終端CSS的性能得到了根本性的改變和提升。
Cortex-X925的性能改善正是得益于微架構(gòu)的重大突破:在此先進的工藝節(jié)點上實現(xiàn)的3.8GHz頻率,輔以對響應(yīng)速度、網(wǎng)頁瀏覽、圖像和視頻以及更出色的高幀率游戲體驗等一系列的優(yōu)化,實現(xiàn)了在Geekbench 6、應(yīng)用啟動速度及Speedometer 2瀏覽器基準(zhǔn)測試中提升了約15%,而熱門的大語言模型(LLM)上,詞元(Token)首次響應(yīng)時間縮短了約40%,AI網(wǎng)絡(luò)推理速度提升高達(dá)35%。
Cortex-X在多個指標(biāo)上也實現(xiàn)了性能和功耗的雙重改進。
在動態(tài)電壓頻率調(diào)整(DVFS)曲線的操作點上端,Cortex-X925在關(guān)鍵時刻達(dá)到峰值性能,這表現(xiàn)在設(shè)備響應(yīng)速度顯著提升;Cortex-X925在給定的功耗范圍內(nèi)提升了性能,使得在功耗和熱設(shè)計受限的設(shè)備中能夠?qū)崿F(xiàn)更多功能。
構(gòu)建Cortex-X核心的目的不僅是為了取得卓越的基準(zhǔn)測試結(jié)果,更是為了滿足AI等實際應(yīng)用的需求。
對于“基準(zhǔn)測試無關(guān)緊要”這一觀點,Manish
Pandey并不認(rèn)同,他認(rèn)為這一觀點產(chǎn)生的原因在于基準(zhǔn)測試被不當(dāng)使用甚至被濫用例如以不合理的方式在CPU上運行。以游戲為例,由于設(shè)備上總是同時運行著多個應(yīng)用而游戲并非單線程在運行,因此可用的硬件資源量受到限制它不可能運行在最大的CPU核心上,也不會耗費所有的功率預(yù)算,內(nèi)存系統(tǒng)也并非完全占用。Arm通過對在真實設(shè)備上運行并分析程序的上下文,對各個應(yīng)用進行逐個分析,了解并行運行任務(wù)的上下文,以及哪些風(fēng)險可以被序列化以實現(xiàn)所需的性能,在基準(zhǔn)測試與實際應(yīng)用之間存在巨大差異的環(huán)境下的得出準(zhǔn)確的判斷。
“從性能方面來看,我們達(dá)成了既定目標(biāo)并有信心在下一代設(shè)備的CPU
IPC方面保持領(lǐng)先!盡anish
Pandey說。
“性能”的提升意味著用戶能察覺手機上應(yīng)用的快速運行和流暢度,而“效率”的成果則偏于無形。
至今已經(jīng)發(fā)展了14代的Arm Cortex-A700系列對效率更是有獨特的詮釋。
Cortex-A725以持續(xù)的AI和游戲體驗和在3nm工藝上實現(xiàn)最佳的物理解決方案,將性能效率推向新的高度。與去年產(chǎn)品相比,其能效提高了25%;借助更好的預(yù)取器和更大的L2緩存,L3流量減少了20%,為LLM提供了更多余量以提升性能。
Arm Cortex-A520也是Arm終端CSS的CPU組件之一。雖然其所采用的微架構(gòu)更新頻率較低,Arm依然與專用集成電路(ASIC)/芯片團隊緊密合作,通過更新實現(xiàn)流程,確保在微架構(gòu)不變的情況下,在此次更新的版本中為合作伙伴提供最佳的3nm工藝解決方案。
DSU :支撐“集群”功能的實現(xiàn)與支持
在現(xiàn)實生活和工作中,不同的應(yīng)用對不同的指標(biāo)有各自的敏感性:ML或游戲?qū)彺娲笮『途彺嫱掏铝枯^為敏感,AI智能攝像頭一類的應(yīng)用對緩存大小敏感度低,但關(guān)注內(nèi)存延遲,而低強度線程的工作負(fù)載則對漏電比較敏感。
這就是多個CPU、GPU并存于集群中的原因。但如何讓其在合適的時間各自能發(fā)揮最大的價值?DSU通過單個實現(xiàn)達(dá)到動態(tài)應(yīng)對不同的應(yīng)用,并達(dá)成最佳效果。
DynamIQ Shared
Unit通過前所未有的設(shè)計靈活性和更多的面向智能解決方案的計算處理,賦能下一波創(chuàng)新。它將大核和小核CPU組合成一個完全集成的集群,使得可穿戴設(shè)備、XR、移動設(shè)備、大屏幕計算、汽車和基礎(chǔ)設(shè)施等各類設(shè)備在功率和性能方面均能獲得新的增強優(yōu)勢。其關(guān)鍵性能指標(biāo),如緩存大小、帶寬、延遲、漏電和動態(tài)功耗等與實際應(yīng)用之間存在緊密的聯(lián)動。
此番推出的DSU-120至少包括三項更新:一是推出中高切片斷電模式(Middle high slice power down);二是新增了Quick Nap(QNap)模式,后者是介于RAM的運作(Functional)模式和保留(Retention)模式之間一項可支持合作伙伴在不影響性能前提下顯著降低漏電的功能,在為大型配置運行DSU時,可以使用整個DSU,但當(dāng)需要降低功耗或滿足不同帶寬要求時,又可以適當(dāng)縮小規(guī)模,大幅降低工作負(fù)載的功耗;此外,Arm還引入了硬件自動化。
優(yōu)化三部曲:務(wù)實、穩(wěn)健地解鎖所有高難度挑戰(zhàn)
在針對規(guī)模龐大的實際應(yīng)用進行優(yōu)化之前,開發(fā)者需要解決定義、設(shè)計、證明三大問題。以游戲為例,如果要提升25%的游戲性能,就要區(qū)分好是指每秒幀數(shù)增加25%,電池續(xù)航時間延長25%,或是游戲的復(fù)雜度提高25%,還是最終用戶的體驗滿意度提升25%?這要求Arm必須能夠從每個應(yīng)用中提取關(guān)鍵區(qū)域。
在更深層級還需要考慮設(shè)備的限制條件,如屏幕的具體刷新率,決定每秒幀數(shù)的哪些因素,電池的續(xù)航能力以及在持續(xù)使用場景下的散熱能力;針對系統(tǒng)級芯片(SoC)的設(shè)計選擇,更需考慮DDR帶寬如何在GPU、ISP和CPU之間動態(tài)分配等問題。
應(yīng)用商店里有超過 300 萬個應(yīng)用,每天還有 3,000 個新應(yīng)用上架,針對每一個應(yīng)用進行優(yōu)化是不現(xiàn)實的,因此需要對應(yīng)用進行分類,并找出不同應(yīng)用之間的共性,定義并確定需要改進的指標(biāo),將游戲、AI、基準(zhǔn)測試分解為小的應(yīng)用,然后采用合適的工具來設(shè)計CPU達(dá)成這些目標(biāo),即使是特定限制條件、無法使用整個系統(tǒng)資源的環(huán)境下也能在CPU上重放并找出瓶頸進行針對性的優(yōu)化。
在性能之外,Arm同時也高度關(guān)注效率和能耗,并設(shè)計出新的電源模型來理解每項改進所帶來的貢獻。
Manish Pandey表示,最終Arm將所有這些成果綜合起來,確保所有的解決方案都經(jīng)過了優(yōu)化并達(dá)到了預(yù)先設(shè)定的所有指標(biāo)。
以卓越的解決方案與合作伙伴共同成長
Arm持續(xù)關(guān)注新的技術(shù),并根據(jù)新的市場需求不斷引入技術(shù)。作為Arm性能最強、效率最高、用途最廣泛的一個全面的Armv9.2 CPU集群,其不僅勝任新的計算密集型工作負(fù)載,還能持續(xù)提供出色的性能和用戶體驗。
“Arm所打造的不僅僅只是技術(shù)本身,還有為強大的軟件生態(tài)系統(tǒng)提供支持!盡anish Pandey表示,Arm的最終目標(biāo)是在各細(xì)分市場推出卓越的產(chǎn)品,同時也專注于人工智能與更加新的解決方案,幫助合作伙伴快速推出更卓越的產(chǎn)品,賦能合作伙伴加速成功。