全新命名規(guī)則,增強(qiáng)端側(cè)AI能力——Arm發(fā)布全新CPU+Cortex-X925、GPU+Immortalis-G925及終端計(jì)算子系統(tǒng)
掃描二維碼
隨時(shí)隨地手機(jī)看文章
從ChatGPT到AI手機(jī)、AI PC,AI正在各種不同型態(tài)的設(shè)備上落地。而作為幾百億臺移動設(shè)備和嵌入式設(shè)備的計(jì)算核心的供應(yīng)商,Arm也敏銳捕捉到了這一新的重大機(jī)遇,持續(xù)在全線的新產(chǎn)品中增加AI的功能和特性,助力實(shí)現(xiàn)設(shè)備端的AI賦能。
近日,Arm在北京召開了發(fā)布會,Arm終端事業(yè)部產(chǎn)品管理副總裁JamesMcNiven向記者介紹了其新推出的CPU超大核“Cortex-X925”、GPU“Immortalis-G925”以及全新的終端計(jì)算子系統(tǒng)(CSS for Client)。
Arm Cortex-X925:單線程每時(shí)鐘指令 (IPC) 性能實(shí)現(xiàn)最大同比增幅
眾所周知,Arm的CPU命名體系在過去經(jīng)歷了多次變化,以適應(yīng)其不斷擴(kuò)展的產(chǎn)品線和技術(shù)發(fā)展。最初,Arm的處理器以簡單的數(shù)字和字母組合命名,如 ARM1、ARM2 等。數(shù)字的變化代表著處理器的世代和技術(shù)進(jìn)步。2004年Arm推出了Cortex品牌,標(biāo)志著一個新的命名和產(chǎn)品策略開啟。其中面向性能需求較高的CPU Core被命名為Cortex-A。從Cortex-A5一直到Cortex-A78,每一代的性能逐步提升。而在2020年,為了給最高端的智能手機(jī)和其他計(jì)算密集型設(shè)備提供極致計(jì)算性能,Arm又推出了Cortex-X系列作為Cortex-A系列的補(bǔ)充。從Cortex-X1到Cortex-X4,依舊是延續(xù)了Arm每代際之間的雙位數(shù)性能提升。而今年的CPU超大核,已經(jīng)不再命名為Cortex-X5,而是被命名為“Cortex-X925”。
據(jù)James介紹,今年改名是因?yàn)镃ortex-X925實(shí)現(xiàn)了自Cortex-X系列推出以來、歷代產(chǎn)品中最高的每時(shí)鐘周期指令數(shù)(IPC)增幅,希望通過這一命名更清晰地展示其與前代產(chǎn)品的差異。Cortex-X925結(jié)合了新設(shè)計(jì)帶來的微架構(gòu)改進(jìn)及頻率提升,在Geekbench中單線程性能提高了36%。以人工智能性能為例,與去年的Cortex-X4 CPU相比,詞元首次響應(yīng)時(shí)間提高了41%,大型語言模型(LLM)的初始響應(yīng)能力顯著增強(qiáng)。這些成就實(shí)現(xiàn)得益于其微架構(gòu)的顯著演進(jìn)——Arm帶來了迄今為止最寬的解碼和矢量設(shè)計(jì),最終實(shí)現(xiàn)了50%TOPS增長。此外,通過更強(qiáng)的可配置性和更大的私有L2緩存,保留了經(jīng)過CPU的指令和數(shù)據(jù)。同時(shí),Arm的RTL和物理設(shè)計(jì)團(tuán)隊(duì)也進(jìn)行了進(jìn)一步的協(xié)作,針對最新的3nm工藝優(yōu)化了頻率和效率。
此外,和超大核X925一同發(fā)布的還有大核Arm Cortex-A725,更新后的小核A520,以及更新后的DSU-120,確保新的產(chǎn)品可以覆蓋最廣泛的消費(fèi)電子設(shè)備。
Arm Immortalis G925: AI能力增強(qiáng)同時(shí)功耗降低
據(jù)悉,今年發(fā)布的新款I(lǐng)mmortalis-G925 GPU是Arm“迄今為止性能最高、效率最高的 GPU”。與上一代G720相比,它在圖形應(yīng)用程序上的速度提高了37%,復(fù)雜物體的光線追蹤性能提高了52%,AI和ML工作負(fù)載提高了34%,同時(shí)功耗降低了30%。
值得一提的是,G925也針對AI相關(guān)的用例進(jìn)行了優(yōu)化。在超級采樣任務(wù)中,開發(fā)者可以使用神經(jīng)網(wǎng)絡(luò)對圖像進(jìn)行向上拓展,其性能可提高近30%。而在其他圖像處理任務(wù),如分割和分類速度提升了 41%。此外,該GPU還可用于語言處理和語音轉(zhuǎn)文本任務(wù),速度比其前代產(chǎn)品高出50%。
在游戲玩家最為關(guān)注的光追方面,G925上也得到了進(jìn)一步的增強(qiáng),據(jù)了解,在渲染與 G720 具有相同保真度的光線追蹤透明度時(shí),G925的速度提高了 27%,但如果開發(fā)者選擇略微降低質(zhì)量,GPU性能將提高52%,而內(nèi)存流量將減少57%。
將光追引入移動設(shè)備是Immortails的使命,而Arm一直致力于讓開發(fā)者盡可能輕松地在移動設(shè)備上實(shí)現(xiàn)游戲主機(jī)級內(nèi)容。據(jù)James介紹,Arm正在與Epic Games合作,確保他們的桌面平臺渲染器能夠在其Immortails GPU上快速高效地運(yùn)行。今年,Arm還將持續(xù)開展全球范圍內(nèi)的開發(fā)者教育活動,以確保游戲開發(fā)者能夠?qū)⒏嗑蕛?nèi)容帶入到移動設(shè)備中。
此外,和Immortalis-G925一同發(fā)布的全新GPU還包括Mali-G725和Mail-G625,分別針對高端市場和入門市場。
Arm終端計(jì)算子系統(tǒng)(CSS for Client):首次提供Arm CPU和GPU物理實(shí)現(xiàn)
將全新的CPU、GPU以及內(nèi)部高速互連IP相結(jié)合,就組成了Arm最新的終端計(jì)算子系統(tǒng)(CSS for Client)。作為Arm TCS的全新?lián)Q代升級,Arm終端計(jì)算子系統(tǒng)(CSS for Client)是Arm首次在終端領(lǐng)域提供基于Arm CPU和GPU優(yōu)化設(shè)計(jì)的物理實(shí)現(xiàn)解決方案。這讓構(gòu)建和部署基于Arm架構(gòu)的解決方案變得更加簡單,讓客戶能夠確保萬無一失。
為了給業(yè)界提供卓越的性能表現(xiàn),Arm融合了最新的Armv9.2CPU(Arm Cortex-X925、Arm Cortex-A725和Arm Cortex-A520)和Immortalis GPU,以及最新版本的CoreLink系統(tǒng)互連和系統(tǒng)內(nèi)存管理單元(SMMU),并對內(nèi)存及SoC其他組成部分的計(jì)算路徑進(jìn)行了深度優(yōu)化。據(jù)James介紹,Arm終端計(jì)算子系統(tǒng)已經(jīng)準(zhǔn)備就緒,可直接被納入Arm合作伙伴的SoC設(shè)計(jì)中。通過充分利用領(lǐng)先代工廠的3nm工藝優(yōu)勢,Arm力求提供更多價(jià)值,以物理實(shí)現(xiàn)的形式提供IP。Arm終端計(jì)算子系統(tǒng)將幫助客戶加速實(shí)現(xiàn)高性能、高效率及縮短產(chǎn)品上市時(shí)間。
值得一提的是,Arm終端計(jì)算子系統(tǒng)不僅僅是一個硬件平臺方案,而是一個融合了軟硬件協(xié)同優(yōu)化的系統(tǒng)設(shè)計(jì)方案。可以通過軟件和工具組合在 終端CSS 上進(jìn)一步優(yōu)化性能和功耗,Arm終端CSS結(jié)合了軟件以及世界上最大的移動設(shè)備生態(tài)系統(tǒng),提供一個AI優(yōu)化計(jì)算平臺所需的計(jì)算性能和效率,將成為新一代終端AI產(chǎn)品和服務(wù)的基石。
Arm終端CSS的完整解決方案會針對不同用例或某些測試基準(zhǔn)來設(shè)定目標(biāo),并將其分解到單個IP當(dāng)中。以游戲《原神》為例,Arm先從系統(tǒng)層面進(jìn)行分析,然后針對GPU、圖形性能、CPU 等設(shè)定提升的目標(biāo),將各類游戲機(jī)制和計(jì)算能力推向極限。每個單一IP的性能提升都為終端 CSS 的整體性能添磚加瓦。
為了讓開發(fā)者能夠充分利用Arm終端CSS的性能優(yōu)勢,Arm發(fā)布了全新的面向 AI 的 KleidiAI,以及面向計(jì)算機(jī)視覺的 KleidiCV。Kleidi其實(shí)是一組高度優(yōu)化的機(jī)器學(xué)習(xí) (ML) 軟件內(nèi)核,并且為開發(fā)者提供了實(shí)現(xiàn)Arm CPU最佳性能的路徑,幫助其解鎖未來Armv9架構(gòu)的創(chuàng)新和性能。
據(jù)James介紹,當(dāng)前AI和機(jī)器視覺領(lǐng)域的諸多解決方案,大多是基于CPU構(gòu)建而來;70% 的第三方安卓ML工作負(fù)載都運(yùn)行在CPU上。因此,CPU性能越高,開發(fā)者就能越快地將功能推出,并專注于下一個創(chuàng)新。而Kleidi的作用正是如此——這些小型、高度優(yōu)化的內(nèi)核,旨在集成到涉及AI或計(jì)算視覺的任何地方。它們可使開發(fā)者在部署到任何Arm CPU上時(shí)均能獲得優(yōu)異性能。舉例來說,基于Cortex-X925的Kleidi技術(shù)運(yùn)行最新Llama 3和Phi-3 LLM的速度要比參考實(shí)現(xiàn)快2.9倍,而且只用不到24小時(shí)就能實(shí)現(xiàn)。
“我們的最終目標(biāo),是讓我們的合作伙伴,以及我們的生態(tài)系統(tǒng)能夠不斷創(chuàng)新、實(shí)現(xiàn)差異化并更快地進(jìn)入市場?!盝ames總結(jié)到,“Arm 終端 CSS 帶來了 Armv9.2 的能效優(yōu)勢,憑借物理實(shí)現(xiàn)和持續(xù)的軟件優(yōu)化,它將徹底革新開發(fā)者和消費(fèi)者的體驗(yàn)。我們很高興能夠提供面向未來 AI 的平臺,Arm 平臺是這一未來的基石?!?