AMD MI1000 Instinct Accelerator 7nm GPU för HPC officiellt lanserat med 11,5 Teraflops of Peak Double-Precision Floating Point Performance

AMD: s första GPU någonsin baserad på CDNA-arkitekturen, MI100 är officiell. MI100 Instinct Accelerator GPU hävdas som "världens snabbaste HPC GPU" med 11,5 teraflops av topp-precision med flytande punktprestanda. GPU hävdar att de packar dubbelt så många beräkningsenheter som föregående generation samtidigt som de håller sig inom samma effektbegränsning på 300 watt.

AMD meddelade idag det nya MI100 Instinct-accelerator. GPU: n är baserad på CDNA-motorn som skiljer sig något från RDNA Architecture som driver den senaste AMD Radeon RX 6000-serien av grafikkort. MI100 Instinct Accelerator efterträder MI50 och MI60 Instinct-acceleratorer som lanserades för två år sedan. Trots den relativt lilla tidsperioden mellan generationerna tillåter den nya GPU-arkitekturen och Compute Engine AMD GPU att överträffa förväntningarna.

AMD MI1000 Instinct Accelerator 7nm GPU för HPC-branschspecifikationer och funktioner:

MI100 GPU är den första som införlivar AMDs CDNA-arkitektur (Compute DNA). GPU: n har 210 beräkningsenheter ordnade i fyra matriser. CDNA-arkitekturen är ett betydande evolutionärt språng jämfört med GCN-arkitekturen och den innehåller nya matrix-kärnmotorer som ökar beräkningsflödet för olika numeriska format.

AMD hävdar att den nya AMD-matrix-kärntekniken ger MI100 en 7x större topp-precision med flytande punktprestanda jämfört med MI50. Företaget hävdar att MI100 Instinct Accelerator erbjuder 46,1 teraflops peak single-precision matrix (FP32), 23,1 teraflops peak single-precision (FP32), 184,6 teraflops peak half-precision (FP16) floating-point performance och 92,3 peak teraflops of bfloat16 performance .

De MI100 får också AMD: s Infinity Fabric Technology som påstås erbjuda cirka 2x peer-to-peer-topp I / O-bandbredden över PCIe 4.0 med upp till 340 GB / s sammanlagd bandbredd per kort. I verkliga implementeringar kan MI100 GPU: er konfigureras med upp till två integrerade fyrkantiga GPU-bikupor, var och en ger upp till 552 Gbps peer-to-peer I / O-bandbredd.

På samma sätt ger fyra stackar 8 GB HBM2-minne totalt 32 GB HBM2-minne på varje MI100 GPU. Med en klockhastighet på 1,2 GHz erbjuder minnet 1,23 Tbps minnesbandbredd. MI100s stöd för PCIe Gen 4.0-teknik möjliggör 64 Gbps maximal teoretisk transportdatabandbredd mellan CPU och GPU.

Är AMD MI100 Accelerator GPU bättre än NVIDIA A100 GPU?

Strikt på papper verkar AMD: s MI100 GPU bättre än NVIDIA A100 GPU som är rankad till 9,7 teraflops av högsta teoretiska prestanda. I verkligheten erbjuder NIVIDIA A100 dock högre prestanda FP64 Linpack-körningar.

AMDs CDNA och RDNA Architecture är i huvudsak desamma, varvid den största skillnaden är slutanvändarscenarier. Det finns dock några grundläggande skillnader som inte tillåter att CDNA-arkitekturen används för spel- eller visuellt innehåll.

Förresten förbereder AMD ROCm, som är företagets öppen källkodsverktyg som består av kompilatorer, programmerings-API: er och bibliotek. Denna verktygssats kommer att tjäna som bas för arbetsbelastningar för exaskala-datorer. Den senaste ROCm 4.0 har uppgraderat kompilatorn till öppen källkod och enhetlig för att stödja både OpenMP 5.0 och HIP. Enkelt uttryckt sträcker sig konkurrensen mellan AMD och NVIDIA inom HPC-segmentet utöver enkla funktioner och rå processorkraft.