跳到主要内容

AMD Instinct MI400 (CDNA Next)

产品概述

AMD Instinct MI400 是 MI350 之后的下一代旗舰 GPU,采用 CDNA Next 架构,2026 年正式出货。配备 432GB HBM4 显存、19.6 TB/s 带宽40 PFLOPS FP4 算力(dense),TDP 约 1,000 W

MI400 是 AMD Helios 机柜的核心 —— 72 颗 MI400 GPU + 36 颗 EPYC Venice CPU + Pensando Vulcano NIC,通过 Ultra Accelerator Link (UALoF) 实现 260 TB/s 规模互联,是 AMD 对标 NVIDIA NVL72 的旗舰机柜方案。

核心规格(每 GPU)

项目参数
架构CDNA Next
制程TSMC 3nm / 2nm(推测)
晶体管数~2,000 亿(推测)
显存432 GB HBM4
显存带宽19.6 TB/s
FP4 Matrix40 PFLOPS(dense)
FP8 Matrix20 PFLOPS(dense)
FP16/BF16 Matrix10 PFLOPS
FP32250 TFLOPS(推测)
TDP~1,000 W(液冷必需
PCIeGen 6
DC 网络Pensando Vulcano 800G NIC(推测)
首发2026

📌 数据约定:AMD 仍采用 dense(密集) 算力为官方标准;NVIDIA 同期产品(Rubin R200)采用 sparse(稀疏)算力,不可直接比较。本表 MI400 算力均为 dense。

MI400 vs MI350 代际升级

指标MI350 (CDNA 4)MI400 (CDNA Next)提升
架构CDNA 4CDNA Next新一代
制程TSMC 3nmTSMC 3/2nm更先进
显存288 GB HBM3e432 GB HBM41.5×
显存带宽8 TB/s19.6 TB/s2.45×
FP4 (dense)20 PFLOPS40 PFLOPS
FP8 (dense)10 PFLOPS20 PFLOPS
TDP~1,000 W~1,000 W持平
PCIeGen 5Gen 6
发布时间2025-Q42026

AMD Helios 机柜(72-GPU 超级节点)

项目配置
GPU 数72 颗 MI400
CPU 数36 颗 EPYC Venice(256 核/颗)
HBM 总量31.1 TB HBM4(432GB × 72)
Scale-up 互联Ultra Accelerator Link 260 TB/s
Scale-out 网络Pensando Vulcano 800G
FP4 算力(机柜)2.88 EFLOPS(dense)
FP8 算力(机柜)1.44 EFLOPS(dense)
TDP(机柜)~80 kW
散热液冷必需

Ultra Accelerator Link (UALoF / UALink) = AMD + Broadcom + Intel 共同推动的开放标准 scale-up 互联,目标取代 NVLink 单家生态。Helios 是首批 260 TB/s 级 UALoF 机柜。

MI400 vs Rubin R200(同期对比)

指标MI400 (CDNA Next)Rubin R200
显存432 GB HBM4288 GB HBM4
显存带宽19.6 TB/s22 TB/s
FP4 算力40 PFLOPS (dense)50 PFLOPS (sparse)
FP4 dense 折算40 PF~25 PF
NVLink/UALoF260 TB/s (机柜)3.5 TB/s/GPU
CPUEPYC VeniceVera ARM 88 核
DC 网络Pensando 800GConnectX-9 14.4 Tbps
生态ROCm 7/8CUDA 13
标准化UALoF 开放NVLink 封闭

AMD 优势:开放生态、显存大、scale-up 标准化;NVIDIA 优势:软件生态成熟、DC 网络、每 GPU NVLink 速度。

部署推荐配置

场景推荐配置
700B+ 模型训练Helios 机柜(72 GPU,单机柜可运行 700B 模型
1T+ 巨型模型训练多机柜 + UALoF 跨机柜互联
超低延迟推理MI400 + FP4 + vLLM/AMD-SGLang
科学计算MI400 + ROCm 7/8 + OpenMP
多模态生成MI400(432GB 完整保留)

ROCm 软件生态

  • ROCm 7.x(2025 GA):PyTorch / JAX / Triton 全优化
  • ROCm 8.x(2026):CDNA Next 首发,全面支持 FP4 / FP8
  • vLLM 0.7+(AMD-SGLang 优化版)
  • AMD Composable Kernel (CK):类比 CUDA Cores,开源
  • MIGraphX / ONNX-Runtime:推理引擎
  • Infinity Hub:AMD 官方参考实现

适用场景

  • 大规模 LLM 训练(700B+ 模型,Helios 72-GPU 节点)
  • 开放生态偏好(UALoF 开放互联、ROCm 开源)
  • 超低延迟推理(FP4 + 大显存)
  • 科学计算(FP64 优势 + 大显存)
  • ❌ 旧 NVIDIA 生态绑定场景(CUDA-only)
  • ❌ 边缘部署(功耗/体积不可接受)

厂商信息

项目内容
厂商AMD Corporation
首次披露2025-06 Advancing AI 大会
产品页https://www.amd.com/en/products/accelerators/instinct.html
首发2026
OEM 合作伙伴Dell / HPE / Supermicro / Lenovo
机柜AMD Helios(72 GPU)

相关产品