AMD MI400 + Helios 机柜：432GB HBM4 + 260 TB/s UALoF 开放互联

2026年4月22日 · 阅读需 5 分钟

Industry Research Team

2026 年 AMD 推出 MI400（CDNA Next） + Helios 72-GPU 机柜，这是 AMD 对标 NVIDIA NVL72 的旗舰方案。本文将分析 MI400 的关键规格、Helios 机柜的开放互联（UALoF）战略，以及与 Rubin R200 的对比。

MI400 核心规格

项目	MI400	上一代 MI350	提升
架构	CDNA Next	CDNA 4	新一代
制程	TSMC 3nm / 2nm	TSMC 3nm	更先进
显存	432 GB HBM4	288 GB HBM3e	1.5×
显存带宽	19.6 TB/s	8 TB/s	2.45×
FP4 Tensor (dense)	40 PFLOPS	20 PFLOPS	2×
FP8 Tensor (dense)	20 PFLOPS	10 PFLOPS	2×
TDP	~1,000 W	~1,000 W	持平
PCIe	Gen 6	Gen 5	2×
发布时间	2026	2025	—

432 GB HBM4 = 全球单卡最大显存。相比 NVIDIA Rubin R200 的 288 GB，多 50%。这对超大模型推理是关键优势。

CDNA Next 架构亮点

AMD 在 CDNA Next 上的关键演进：

FP4 矩阵引擎：原生支持 MXFP4 / NVFP4
增强的稀疏计算：比 CDNA 4 提升 2× sparse throughput
更大的 Infinity Cache：~512 MB
异构调度器：CPU+GPU 协同优化（EPYC Venice 协同）

Helios 机柜：AMD 的 NVL72 回应

Helios 是 AMD 的机柜级方案，对标 NVIDIA GB300 NVL72 / Rubin NVL72：

项目	Helios 机柜	NVIDIA Rubin NVL72
GPU 数	72 颗 MI400	72 颗 Rubin
CPU 数	36 颗 EPYC Venice	36 颗 Vera
HBM 总量	31.1 TB HBM4	20.7 TB HBM4
Scale-up 互联	UALoF 260 TB/s	NVLink 6 252 TB/s
Scale-out 网络	Pensando Vulcano 800G	ConnectX-9 14.4 Tbps
FP4 算力 (dense)	2.88 EFLOPS	3.6 EFLOPS (sparse)
FP4 dense 折算	2.88 EF	1.8 EF
TDP（机柜）	~80 kW	~130 kW
散热	液冷必需	液冷必需

AMD Helios 在 dense 算力上超越 NVIDIA Rubin NVL72（2.88 vs 1.8 EFLOPS）。但 NVIDIA 的 sparse 算力翻倍后达到 3.6 EFLOPS，所以是"互有胜负"。

UALoF：开放互联挑战 NVLink

Ultra Accelerator Link（UALoF / UALink） 是 AMD + Broadcom + Intel 共同推动的开放标准 scale-up 互联协议：

目标：取代 NVLink 单家封闭生态
2026 首发：AMD Helios 72-GPU 机柜
后续：Intel Jaguar Shores、AWS UltraServers

UALoF 关键特性：

特性	UALoF	NVLink 6
标准化	开放标准	NVIDIA 私有
带宽（机柜级）	260 TB/s	252 TB/s
厂商	AMD/Broadcom/Intel	NVIDIA only
生态	ROCm + Open	CUDA only
未来扩展性	高	受限

UALoF 的真正威胁不是当下，而是未来。如果 UALoF 能在 2-3 年内构建完整生态，NVIDIA 的封闭互联优势将被削弱。

ROCm 8 软件生态

AMD 在 ROCm 上持续投入：

ROCm 7.x（2025 GA）：PyTorch / JAX / Triton 全优化
ROCm 8.x（2026）：CDNA Next 首发，全面支持 FP4 / FP8
vLLM 0.7+（AMD-SGLang 优化版）
AMD Composable Kernel (CK)：类比 CUDA Cores，开源
MIGraphX / ONNX-Runtime：推理引擎
Infinity Hub：AMD 官方参考实现

部署推荐

场景	推荐配置
700B+ 模型训练	Helios 机柜（72 GPU，单机柜可运行 700B 模型）
1T+ 巨型模型训练	多机柜 + UALoF 跨机柜互联
超低延迟推理	MI400 + FP4 + vLLM/AMD-SGLang
科学计算	MI400 + ROCm 7/8 + OpenMP
多模态生成	MI400（432GB 完整保留）
偏好开放生态	UALoF + ROCm 8（避免 NVIDIA 锁定）

MI400 vs Rubin R200（同期旗舰对比）

指标	MI400 (CDNA Next)	Rubin R200
显存	432 GB HBM4 ✅	288 GB HBM4
显存带宽	19.6 TB/s	22 TB/s ✅
FP4 dense	40 PF ✅	25 PF
FP8 dense	20 PF	12.5 PF
每 GPU 互联	UALoF (开放) ✅	NVLink 6 (封闭)
每 GPU 网络	Pensando 800G	ConnectX-9 14.4 Tbps ✅
CPU	EPYC Venice	Vera ARM 88 核 ✅
生态	ROCm 8 (开源) ✅	CUDA 13 (成熟) ✅
标准化	UALoF ✅	NVLink ❌
TDP	1,000 W ✅	1,800 W

AMD 优势：显存大、FP4 dense 算力领先、开放互联、功耗较低 NVIDIA 优势：HBM 带宽、CPU 集成、DC 网络、CUDA 生态

详细产品页

总结

AMD MI400 + Helios 是 AMD 在 AI 算力上的最强反击：

CDNA Next + 432 GB HBM4 在硬件规格上不输 NVIDIA
Helios 72-GPU 机柜 在 dense 算力上甚至超过 NVIDIA NVL72
UALoF 开放互联 是对 NVLink 封闭的真正威胁
ROCm 8 生态 持续改善，但仍需时间

2026 年，AMD 是唯一能正面挑战 NVIDIA 的 GPU 厂商。

MI400 核心规格​

CDNA Next 架构亮点​

Helios 机柜：AMD 的 NVL72 回应​

UALoF：开放互联挑战 NVLink​

ROCm 8 软件生态​

部署推荐​

MI400 vs Rubin R200（同期旗舰对比）​

详细产品页​

总结​