跳到主要内容

AMD Instinct MI210 (64GB HBM2e PCIe HPC)

产品概述

AMD Instinct MI210 是 AMD 2022-03-22 发布的 MI200 系列入门级数据中心 GPU,PCIe 形态6nm TSMC FinFET 制程,CDNA 2 架构(专为 HPC + AI 训练优化),104 CU(6,656 流处理器),22.6 TF FP64 vector / 45.3 TF FP64 matrix(FP64 性能是 NVIDIA A100 的 1.2×,HPC 之王),181 TF FP16/BF16181 TOPS INT864 GB HBM2e 1.6 TB/s 带宽,PCIe Gen 4 + 3× Infinity Fabric Link(300 GB/s P2P)。MI210 是 欧洲 LUMI 百亿亿次超算(芬兰,2022 部署)首选加速卡,主打 HPC + AI 训练混合工作负载

核心规格

项目参数
架构CDNA 2(专为 HPC + AI 优化)
制程TSMC 6nm FinFET
晶体管292 亿(推测)
芯片封装Multi-Chip Module(2 GCD + 4 MCD,与 MI250 同构)
计算单元 (CU)104
流处理器6,656
Matrix Core416(双精度 / 单精度矩阵)
FP64 Vector (峰值)22.6 TFLOPS
FP64 Matrix (峰值)45.3 TFLOPS
FP32 Vector (峰值)22.6 TFLOPS
FP32 Matrix (峰值)45.3 TFLOPS
FP16 / BF16 (峰值)181 TFLOPS
INT8 (峰值)181 TOPS
INT4 (峰值)181 TOPS
内存64 GB HBM2e(4,096-bit 总线)
内存时钟1.6 GHz
内存带宽1.6 TB/s
ECCFull-chip ECC(RAS 支持)
接口PCIe Gen 4(64 GB/s 主机带宽)
Infinity Fabric Link3 个(300 GB/s 峰值 P2P)
总 I/O 带宽364 GB/s(PCIe 64 + IF 300)
TDP300W
散热被动散热(服务器风冷/液冷)
形态PCIe 双槽全高
首发日期2022-03-22
价格$4,000-$4,500(2022 上市,2024 现 $2,500-3,000)

与 MI250 / MI250X 对比

指标MI210MI250MI250X
架构CDNA 2CDNA 2CDNA 2
GCD 数1(多芯片封装)22
CU 数104208220
流处理器6,65613,31214,080
FP64 Vector22.6 TF45.3 TF47.9 TF
FP64 Matrix45.3 TF90.5 TF95.7 TF
FP16/BF16181 TF362 TF383 TF
INT8181 TOPS362 TOPS383 TOPS
内存64 GB HBM2e128 GB HBM2e128 GB HBM2e
内存带宽1.6 TB/s3.2 TB/s3.2 TB/s
形态PCIe 双槽OAM 模块(服务器)OAM 模块(服务器)
TDP300W560W560W
IF Link 数368
FP64 vs A1001.2×2.4×2.5×

性能实测(HPC + AI 训练)

工作负载MI210 (181 TF FP16)NVIDIA A100 (312 TF FP16 Tensor)备注
FP64 HPC(LAMMPS 分子动力学)1.2× A100基准MI210 优势
HPL Linpack(FP64 峰值)22.6-45.3 TF9.7 TFMI210 2.3-4.7×
ResNet-50 训练(FP16)~750 img/s~1,500 img/sA100 2×
BERT-Large 训练(FP16)~120 seq/s~250 seq/sA100 2×
GPT-2 1.5B 训练(BF16)~25 samples/s~55 samples/sA100 2×
天气预报(WRF)1.4× A100基准MI210 优势
量子化学(VASP)1.3× A100基准MI210 优势
地球系统模式(ICON)1.2× A100基准MI210 优势

FP64 优势:MI210 的 22.6 TF FP64 vector + 45.3 TF FP64 matrix 是 NVIDIA A100 (9.7 TF FP64) 的 2.3-4.7×。在 HPC 工作负载(分子动力学、量子化学、地球系统模拟、天体物理)中,MI210 显著领先 A100。

适用场景

  • HPC 工作负载(天气预报、气候模拟、地球系统、量子化学、分子动力学)
  • AI 训练(中等规模)(ResNet-50、BERT-Large、GPT-2 1.5B)
  • 超算中心(欧洲 LUMI 百亿亿次超算、美国 Frontier 部分节点)
  • 数据中心 PCIe 服务器(不需要 OAM 主板)
  • 科学计算(OpenFOAM、WRF、Quantum ESPRESSO、Gaussian、NAMD)
  • EDA 验证(Synopsys VCS、Cadence Genus)
  • 教学/研究实验室(ROCm 软件栈完整)
  • 混合精度训练(FP64 + FP16 + INT8 同时支持)

厂商信息

项目信息
厂商AMD Inc.(美国圣克拉拉)
代工TSMC 台湾(6nm FinFET 工艺)
封装CoWoS-S(台积电,2 GCD + 4 MCD 多芯片)
软件栈AMD ROCm 5.x / 6.x(开源)、HCCHIP(CUDA 转换层)
AI 框架PyTorch(ROCm 后端)、TensorFlow ROCm、ONNX Runtime、MEGAPIXEL
HPC 应用OpenMPI、OpenACC、OpenMP 5.0、Cray MPI、AOMP
首发客户LUMI 超算(芬兰,2022 部署,欧洲首台百亿亿次超算)、Argonne、LLNL、CSCS 瑞士
价格$4,000-$4,500(2022 上市),$2,500-$3,000(2024 现货价)
2026 状态仍在销售(EOL 预计 2027),MI300X/MI325X 已成主力,MI210 退守入门 HPC

关键特性

  • CDNA 2 架构(专为 HPC + AI 优化,无图形输出)
  • 6nm TSMC 制程,292 亿晶体管(推测)
  • 104 CU + 416 Matrix Core
  • 22.6 TF FP64 vector / 45.3 TF FP64 matrix(A100 的 2.3-4.7×,FP64 王者)
  • 181 TF FP16/BF16(FP16/BF16 强项)
  • 181 TOPS INT8(AI 推理能力)
  • 64 GB HBM2e(4,096-bit 总线)
  • 1.6 TB/s 内存带宽(MI250 3.2 TB/s 的一半)
  • Full-chip ECC(数据可靠性)
  • PCIe Gen 4 + 3× Infinity Fabric Link(300 GB/s P2P)
  • Multi-GPU Hive(最多 4 卡直接互联,无需 PCIe Switch)
  • OCP Accelerator Module 兼容
  • Linux 64-bit(RHEL、Ubuntu、CentOS、SLES)
  • ROCm 开源(无需授权费用,CUDA 替代品)

相关卡