NVIDIA Vera Rubin 平台深度解析:6 芯片封装、288GB HBM4、50 PFLOPS FP4
NVIDIA Vera Rubin 平台是 Blackwell 之后 NVIDIA 推出的下一代旗舰计算平台。本文将从命名由来、6 芯片封装、内存子系统、算力矩阵、互联架构、机柜级方案、软件生态等角度对其进行深度解析。
命名由来:纪念天文学家 Vera Rubin
NVIDIA 选择了"Vera Rubin"作为下一代平台代号,纪念天文学家 Vera Florence Cooper Rubin(1928-2016)。她在 1960-70 年代通过研究星系自转曲线,首次确凿地证实了暗物质的存在。
NVIDIA 用她的名字命名 AI 算力革命的下一代平台,有着深刻的哲学寓意:
- 暗物质是"看不见"却主导宇宙质量的主体
- AI 算力是"看不见"却主导数字经济的底层基础设施
6 芯片封装(CoWoS-L)
Vera Rubin 平台采用业界首个 6 芯片 CoWoS-L 封装:
| 芯片 | 数量 | 角色 | 制程 |
|---|---|---|---|
| Vera CPU | 1 | Host CPU / 预取 / 互联主控 | TSMC 3NP |
| Rubin GPU Die | 2 | 矩阵计算核心 | TSMC 3NP / 4NP |
| I/O / HBM Base Die | 3 | HBM4 PHY + I/O + 互联 | TSMC 4NP |
相比 Blackwell B300 Ultra 的 2 芯片封装(仅 2 个 GPU die),Vera Rubin 芯片数提升 3 倍,晶体管数也大幅增长。
核心规格(每 GPU)
| 项目 | 参数 |
|---|---|
| 架构 | Rubin |
| 晶体管数 | ~3,400 亿(每 GPU) |
| 显存 | 288 GB HBM4 |
| 显存带宽 | 22 TB/s(HBM3e 的 2.75×) |
| FP4 Tensor(稀疏) | 50 PFLOPS |
| FP8 Tensor(稀疏) | 25 PFLOPS |
| FP16/BF16 Tensor | 12.5 PFLOPS |
| TDP | ~1,800 W(液冷必需) |
数据约定:NVIDIA Blackwell 之后的产品继续以 sparse(稀疏) 算力为官方口径。FP4 50 PF = dense 25 PF。跨厂商对比时 AMD MI400 的 40 PF FP4 dense = NVIDIA Rubin R200 的 80 PF FP4 sparse。
Vera CPU 详解
Vera Rubin 平台首次集成 NVIDIA 自研的 ARM 兼容 CPU:
- 88 个 Olympus 核心(推测,参照 NVIDIA Grace 的 72 核 Neoverse V2)
- TSMC 3NP 制程
- 1:1 与 Rubin GPU 配对(1 颗 Vera : 2 颗 Rubin die)
- 角色:host CPU + 预取器 + NVLink 6 主控 + PCIe Gen 6 root complex
这是 NVIDIA 在 CPU 设计上的重要里程碑——在收购 ARM 受阻后,NVIDIA 选择自研 ARM 兼容核心,与 Apple Silicon 路线类似。
NVLink 6 + ConnectX-9 互联
NVLink 6
| 项目 | NVLink 5(B300) | NVLink 6(Rubin) | 提升 |
|---|---|---|---|
| 每 GPU 带宽 | 1.8 TB/s | 3.5 TB/s | 2× |
| GPU-to-GPU 跳数 | 1 | 1(全互联 switch) | 同 |
| 机柜内 GPU 数 | 72 | 72 | 同 |
ConnectX-9(双 NIC)
| 项目 | ConnectX-8(B300) | ConnectX-9(Rubin) | 提升 |
|---|---|---|---|
| 每 GPU 端口 | 1× 1.6 Tbps | 2× 14.4 Tbps | 18× |
| 每 GPU 聚合 | 1.6 Tbps | 28.8 TB/s | 18,000× 字节速率 |
| 拓扑 | 3D Torus | 3D Torus / 全互联 | — |
ConnectX-9 28.8 TB/s 意味着 GPU 不会成为网络瓶颈。这是"in-network computing"的终极形态:GPU 间通信与本地 HBM 访问一样快。
Rubin NVL72 / NVL576 机柜
Rubin NVL72
| 项目 | 配置 |
|---|---|
| GPU 数 | 72 颗 Rubin |
| CPU 数 | 36 颗 Vera |
| HBM 总量 | 20.7 TB HBM4 |
| NVLink 聚合 | 252 TB/s |
| FP4 稀疏算力 | 3.6 EFLOPS |
| FP8 稀疏算力 | 1.8 EFLOPS |
| TDP(机柜) | ~130 kW |
Rubin NVL576
| 项目 | 配置 |
|---|---|
| GPU 数 | 576 颗 Rubin |
| CPU 数 | 288 颗 Vera |
| HBM 总量 | 165 TB HBM4 |
| NVLink 聚合 | 2,016 TB/s |
| FP4 稀疏算力 | 28.8 EFLOPS |
| FP8 稀疏算力 | 14.4 EFLOPS |
| TDP(机柜) | ~1 MW |
Rubin NVL576 = 28.8 EFLOPS FP4 = 1.5 ExaFLOPS FP8。这比 GB300 NVL72(约 0.5 EF FP8)提升 5.7 倍,是当前全球最强的 AI 超级节点。
与同期竞品对比
| 指标 | Rubin R200 | AMD MI400 | TPU 8t | Trainium 3 |
|---|---|---|---|---|
| 显存 | 288 GB HBM4 | 432 GB HBM4 | 216 GB HBM | 144 GB HBM |
| 显存带宽 | 22 TB/s | 19.6 TB/s | 6,528 GB/s | ~4.5 TB/s |
| FP4 算力 | 50 PF (sparse) | 40 PF (dense) | — | — |
| FP8 算力 | 25 PF (sparse) | 20 PF (dense) | 7 PF | 5.7 PF |
| 互联 | NVLink 6 + CX-9 | UALoF | 3D Torus | NeuronLink-v4 |
| TDP | 1,800 W | 1,000 W | N/A | 700 W |
| CPU | Vera 88 核 | EPYC Venice | Arm Axion | Xeon |
NVIDIA 优势:每 GPU 算力(dense 25 PF FP8)、NVLink 互联、ConnectX-9 网络、CUDA 生态。 AMD 优势:单卡显存(432 GB)、开放 UALoF 互联、Helios 机柜 72-GPU 集成。 Google 优势:JAX 训练范式、Pod 级(9,216 颗)超大规模。 AWS 优势:每美元性能(4.4× vs Trainium 2)、Trn3 UltraServer 144 chip。
软件生态
- CUDA 13.x:新增 Rubin 微架构支持
- cuDNN 10.x
- TensorRT-LLM 1.0+(FP4 / NVFP4 全优化)
- vLLM 0.8+(Vera Rubin 优化版)
- NCCL 2.21+(ConnectX-9 + NVLink 6 支持)
- NVFP4:继承自 Blackwell Ultra,2nd gen
适用场景
- ✅ 超大规模 LLM 训练(100B+ 参数,万卡级集群)
- ✅ 超低延迟超大模型推理(1T+ 参数实时响应)
- ✅ 科学研究(气候模拟、生物制药、密码学)
- ✅ 多模态生成(文生视频、4D 内容创作)
- ❌ 中小模型训练(成本过高,B300 Ultra 更经济)
- ❌ 边缘部署(功耗/体积不可接受)
详细产品页
总结
NVIDIA Vera Rubin 平台是 AI 算力进化的又一里程碑:
- 6 芯片封装 突破单 die 物理极限
- HBM4 + 22 TB/s 解决 memory wall
- 50 PF FP4 sparse 进入 50 PF 级别时代
- ConnectX-9 28.8 TB/s 解决网络瓶颈
- Rubin NVL576 28.8 EFLOPS 进入 exaFLOPS 时代
- Vera CPU 终结 NVIDIA 缺 CPU 的历史
2026 H2,AI 算力将再次飞跃。