跳到主要内容

AMD MI400 + Helios 机柜:432GB HBM4 + 260 TB/s UALoF 开放互联

· 阅读需 5 分钟
AI Compute Cards Wiki Editorial
Industry Research Team

2026 年 AMD 推出 MI400(CDNA Next) + Helios 72-GPU 机柜,这是 AMD 对标 NVIDIA NVL72 的旗舰方案。本文将分析 MI400 的关键规格、Helios 机柜的开放互联(UALoF)战略,以及与 Rubin R200 的对比。

MI400 核心规格

项目MI400上一代 MI350提升
架构CDNA NextCDNA 4新一代
制程TSMC 3nm / 2nmTSMC 3nm更先进
显存432 GB HBM4288 GB HBM3e1.5×
显存带宽19.6 TB/s8 TB/s2.45×
FP4 Tensor (dense)40 PFLOPS20 PFLOPS
FP8 Tensor (dense)20 PFLOPS10 PFLOPS
TDP~1,000 W~1,000 W持平
PCIeGen 6Gen 5
发布时间20262025

432 GB HBM4 = 全球单卡最大显存。相比 NVIDIA Rubin R200 的 288 GB,多 50%。这对超大模型推理是关键优势。

CDNA Next 架构亮点

AMD 在 CDNA Next 上的关键演进:

  1. FP4 矩阵引擎:原生支持 MXFP4 / NVFP4
  2. 增强的稀疏计算:比 CDNA 4 提升 2× sparse throughput
  3. 更大的 Infinity Cache:~512 MB
  4. 异构调度器:CPU+GPU 协同优化(EPYC Venice 协同)

Helios 机柜:AMD 的 NVL72 回应

Helios 是 AMD 的机柜级方案,对标 NVIDIA GB300 NVL72 / Rubin NVL72

项目Helios 机柜NVIDIA Rubin NVL72
GPU 数72 颗 MI40072 颗 Rubin
CPU 数36 颗 EPYC Venice36 颗 Vera
HBM 总量31.1 TB HBM420.7 TB HBM4
Scale-up 互联UALoF 260 TB/sNVLink 6 252 TB/s
Scale-out 网络Pensando Vulcano 800GConnectX-9 14.4 Tbps
FP4 算力 (dense)2.88 EFLOPS3.6 EFLOPS (sparse)
FP4 dense 折算2.88 EF1.8 EF
TDP(机柜)~80 kW~130 kW
散热液冷必需液冷必需

AMD Helios 在 dense 算力上超越 NVIDIA Rubin NVL72(2.88 vs 1.8 EFLOPS)。但 NVIDIA 的 sparse 算力翻倍后达到 3.6 EFLOPS,所以是"互有胜负"。

Ultra Accelerator Link(UALoF / UALink) 是 AMD + Broadcom + Intel 共同推动的开放标准 scale-up 互联协议:

  • 目标:取代 NVLink 单家封闭生态
  • 2026 首发:AMD Helios 72-GPU 机柜
  • 后续:Intel Jaguar Shores、AWS UltraServers

UALoF 关键特性:

特性UALoFNVLink 6
标准化开放标准NVIDIA 私有
带宽(机柜级)260 TB/s252 TB/s
厂商AMD/Broadcom/IntelNVIDIA only
生态ROCm + OpenCUDA only
未来扩展性受限

UALoF 的真正威胁不是当下,而是未来。如果 UALoF 能在 2-3 年内构建完整生态,NVIDIA 的封闭互联优势将被削弱。

ROCm 8 软件生态

AMD 在 ROCm 上持续投入:

  • ROCm 7.x(2025 GA):PyTorch / JAX / Triton 全优化
  • ROCm 8.x(2026):CDNA Next 首发,全面支持 FP4 / FP8
  • vLLM 0.7+(AMD-SGLang 优化版)
  • AMD Composable Kernel (CK):类比 CUDA Cores,开源
  • MIGraphX / ONNX-Runtime:推理引擎
  • Infinity Hub:AMD 官方参考实现

部署推荐

场景推荐配置
700B+ 模型训练Helios 机柜(72 GPU,单机柜可运行 700B 模型
1T+ 巨型模型训练多机柜 + UALoF 跨机柜互联
超低延迟推理MI400 + FP4 + vLLM/AMD-SGLang
科学计算MI400 + ROCm 7/8 + OpenMP
多模态生成MI400(432GB 完整保留)
偏好开放生态UALoF + ROCm 8(避免 NVIDIA 锁定)

MI400 vs Rubin R200(同期旗舰对比)

指标MI400 (CDNA Next)Rubin R200
显存432 GB HBM4288 GB HBM4
显存带宽19.6 TB/s22 TB/s
FP4 dense40 PF ✅25 PF
FP8 dense20 PF12.5 PF
每 GPU 互联UALoF (开放) ✅NVLink 6 (封闭)
每 GPU 网络Pensando 800GConnectX-9 14.4 Tbps
CPUEPYC VeniceVera ARM 88 核
生态ROCm 8 (开源) ✅CUDA 13 (成熟) ✅
标准化UALoF ✅NVLink ❌
TDP1,000 W ✅1,800 W

AMD 优势:显存大、FP4 dense 算力领先、开放互联、功耗较低 NVIDIA 优势:HBM 带宽、CPU 集成、DC 网络、CUDA 生态

详细产品页

总结

AMD MI400 + Helios 是 AMD 在 AI 算力上的最强反击

  1. CDNA Next + 432 GB HBM4 在硬件规格上不输 NVIDIA
  2. Helios 72-GPU 机柜 在 dense 算力上甚至超过 NVIDIA NVL72
  3. UALoF 开放互联 是对 NVLink 封闭的真正威胁
  4. ROCm 8 生态 持续改善,但仍需时间

2026 年,AMD 是唯一能正面挑战 NVIDIA 的 GPU 厂商