AMD Instinct MI400 系列 (CDNA 5)

产品概述

AMD Instinct MI400 系列 于 CES 2026（1月5日） 正式发布，采用 CDNA 5 架构，2026 H2 量产。包含五个定位不同的 SKU：

型号	定位	显存	算力 (FP4)
MI455X	旗舰训练+推理	432GB HBM4	40 PFLOPS (dense)
MI450	高性价比训练	288GB HBM4	28 PFLOPS (dense)
MI440X	企业推理	216GB HBM4	25 PFLOPS (dense)
MI430X	HPC / 科学计算	192GB HBM4	20 PFLOPS (dense)
MI400X	通用 / 边缘推理	128GB HBM4	12 PFLOPS (dense)

旗舰 MI455X 采用 TSMC N2 (2nm) 制程（计算芯粒）+ 3nm 辅助芯粒，晶体管数约 3,200 亿，配备 432GB HBM4 显存、19.6 TB/s 带宽、40 PFLOPS FP4 算力（dense），TDP 约 1,200–1,500 W。

MI400 系列是 AMD Helios 机柜的核心 —— 72 颗 MI455X + 36 颗 EPYC Venice CPU + Pensando Vulcano NIC，通过 Ultra Accelerator Link (UALink) 实现 260 TB/s 规模互联，是 AMD 对标 NVIDIA Vera Rubin NVL72 的旗舰机柜方案。

核心规格（MI455X 旗舰）

项目	参数
架构	CDNA 5
制程	TSMC N2 (2nm) 计算芯粒 + 3nm 辅助芯粒
晶体管数	~3,200 亿
显存	432 GB HBM4
显存带宽	19.6 TB/s
FP4 Matrix	40 PFLOPS（dense）
FP8 Matrix	20 PFLOPS（dense）
FP16/BF16 Matrix	10 PFLOPS
FP32	250 TFLOPS（推测）
TDP	1200–1500 W
PCIe	Gen 6
DC 网络	Pensando Vulcano 800G NIC
首发	CES 2026（1月5日发布），2026 H2 量产

📌 数据约定：AMD 仍采用 dense（密集） 算力为官方标准；NVIDIA 同期产品（Rubin R200）采用 sparse（稀疏）算力，不可直接比较。本表 MI400 算力均为 dense。

MI455X vs MI350 代际升级

指标	MI350 (CDNA 4)	MI455X (CDNA 5)	提升
架构	CDNA 4	CDNA 5	新一代
制程	TSMC 3nm	TSMC N2 (2nm)	更先进
显存	288 GB HBM3e	432 GB HBM4	1.5×
显存带宽	8 TB/s	19.6 TB/s	2.45×
FP4 (dense)	20 PFLOPS	40 PFLOPS	2×
FP8 (dense)	10 PFLOPS	20 PFLOPS	2×
TDP	~1,000 W	~1,200–1,500 W	+20–50%
PCIe	Gen 5	Gen 6	2×
发布时间	2025-Q4	CES 2026，H2 量产	—

AMD Helios 机柜（72-GPU 超级节点）

项目	配置
GPU 数	72 颗 MI455X
CPU 数	36 颗 EPYC Venice（256 核/颗）
HBM 总量	31.1 TB HBM4（432GB × 72）
Scale-up 互联	Ultra Accelerator Link 260 TB/s
Scale-out 网络	Pensando Vulcano 800G
FP4 算力（机柜）	2.88 EFLOPS（dense）
FP8 算力（机柜）	1.44 EFLOPS（dense）
TDP（机柜）	~110 kW
散热	液冷必需

Ultra Accelerator Link (UALoF / UALink) = AMD + Broadcom + Intel 共同推动的开放标准 scale-up 互联，目标取代 NVLink 单家生态。Helios 是首批 260 TB/s 级 UALoF 机柜。

MI455X vs Rubin R200（同期对比）

指标	MI455X (CDNA 5)	Rubin R200
显存	432 GB HBM4	288 GB HBM4
显存带宽	19.6 TB/s	22 TB/s
FP4 算力	40 PFLOPS (dense)	50 PFLOPS (sparse)
FP4 dense 折算	40 PF	~25 PF
NVLink/UALink	260 TB/s (机柜)	3.6 TB/s/GPU
CPU	EPYC Venice	Vera ARM 88 核
DC 网络	Pensando 800G	ConnectX-9 14.4 Tbps
生态	ROCm 7/8	CUDA 13
标准化	UALink 开放	NVLink 封闭
晶体管	3,200 亿	3,360 亿
制程	TSMC N2	TSMC 3nm

AMD 优势：开放生态、显存大、scale-up 标准化；NVIDIA 优势：软件生态成熟、DC 网络、每 GPU NVLink 速度。

部署推荐配置

场景	推荐配置
700B+ 模型训练	Helios 机柜（72×MI455X，单机柜可运行 700B 模型）
1T+ 巨型模型训练	多机柜 + UALink 跨机柜互联
超低延迟推理	MI455X / MI440X + FP4 + vLLM/AMD-SGLang
科学计算	MI430X + ROCm 8 + OpenMP
多模态生成	MI455X（432GB 完整保留）

ROCm 软件生态

ROCm 7.x（2025 GA）：PyTorch / JAX / Triton 全优化
ROCm 8.x（2026）：CDNA 5 首发，全面支持 FP4 / FP8 / MXFP4
vLLM 0.7+（AMD-SGLang 优化版）
AMD Composable Kernel (CK)：类比 CUDA Cores，开源
MIGraphX / ONNX-Runtime：推理引擎
Infinity Hub：AMD 官方参考实现

适用场景

✅ 大规模 LLM 训练（700B+ 模型，Helios 72-GPU 节点）
✅ 开放生态偏好（UALoF 开放互联、ROCm 开源）
✅ 超低延迟推理（FP4 + 大显存）
✅ 科学计算（FP64 优势 + 大显存）
❌ 旧 NVIDIA 生态绑定场景（CUDA-only）
❌ 边缘部署（功耗/体积不可接受）

厂商信息

项目	内容
厂商	AMD Corporation
首次披露	2025-06 Advancing AI 大会
正式发布	CES 2026（1月5日）
产品页	https://www.amd.com/en/products/accelerators/instinct.html
首发	2026
OEM 合作伙伴	Dell / HPE / Supermicro / Lenovo
机柜	AMD Helios（72 GPU）

产品概述​

核心规格（MI455X 旗舰）​

MI455X vs MI350 代际升级​

AMD Helios 机柜（72-GPU 超级节点）​

MI455X vs Rubin R200（同期对比）​

部署推荐配置​

ROCm 软件生态​

适用场景​

厂商信息​

相关产品​