NVIDIA Vera Rubin 平台深度解析：6 芯片封装、288GB HBM4、50 PFLOPS FP4

2026年4月22日 · 阅读需 6 分钟

Industry Research Team

NVIDIA Vera Rubin 平台是 Blackwell 之后 NVIDIA 推出的下一代旗舰计算平台。本文将从命名由来、6 芯片封装、内存子系统、算力矩阵、互联架构、机柜级方案、软件生态等角度对其进行深度解析。

命名由来：纪念天文学家 Vera Rubin

NVIDIA 选择了"Vera Rubin"作为下一代平台代号，纪念天文学家 Vera Florence Cooper Rubin（1928-2016）。她在 1960-70 年代通过研究星系自转曲线，首次确凿地证实了暗物质的存在。

NVIDIA 用她的名字命名 AI 算力革命的下一代平台，有着深刻的哲学寓意：

暗物质是"看不见"却主导宇宙质量的主体
AI 算力是"看不见"却主导数字经济的底层基础设施

6 芯片封装（CoWoS-L）

Vera Rubin 平台采用业界首个 6 芯片 CoWoS-L 封装：

芯片	数量	角色	制程
Vera CPU	1	Host CPU / 预取 / 互联主控	TSMC 3NP
Rubin GPU Die	2	矩阵计算核心	TSMC 3NP / 4NP
I/O / HBM Base Die	3	HBM4 PHY + I/O + 互联	TSMC 4NP

相比 Blackwell B300 Ultra 的 2 芯片封装（仅 2 个 GPU die），Vera Rubin 芯片数提升 3 倍，晶体管数也大幅增长。

核心规格（每 GPU）

项目	参数
架构	Rubin
晶体管数	~3,400 亿（每 GPU）
显存	288 GB HBM4
显存带宽	22 TB/s（HBM3e 的 2.75×）
FP4 Tensor（稀疏）	50 PFLOPS
FP8 Tensor（稀疏）	25 PFLOPS
FP16/BF16 Tensor	12.5 PFLOPS
TDP	~1,800 W（液冷必需）

数据约定：NVIDIA Blackwell 之后的产品继续以 sparse（稀疏） 算力为官方口径。FP4 50 PF = dense 25 PF。跨厂商对比时 AMD MI400 的 40 PF FP4 dense = NVIDIA Rubin R200 的 80 PF FP4 sparse。

Vera CPU 详解

Vera Rubin 平台首次集成 NVIDIA 自研的 ARM 兼容 CPU：

88 个 Olympus 核心（推测，参照 NVIDIA Grace 的 72 核 Neoverse V2）
TSMC 3NP 制程
1:1 与 Rubin GPU 配对（1 颗 Vera : 2 颗 Rubin die）
角色：host CPU + 预取器 + NVLink 6 主控 + PCIe Gen 6 root complex

这是 NVIDIA 在 CPU 设计上的重要里程碑——在收购 ARM 受阻后，NVIDIA 选择自研 ARM 兼容核心，与 Apple Silicon 路线类似。

NVLink 6 + ConnectX-9 互联

NVLink 6

项目	NVLink 5（B300）	NVLink 6（Rubin）	提升
每 GPU 带宽	1.8 TB/s	3.5 TB/s	2×
GPU-to-GPU 跳数	1	1（全互联 switch）	同
机柜内 GPU 数	72	72	同

ConnectX-9（双 NIC）

项目	ConnectX-8（B300）	ConnectX-9（Rubin）	提升
每 GPU 端口	1× 1.6 Tbps	2× 14.4 Tbps	18×
每 GPU 聚合	1.6 Tbps	28.8 TB/s	18,000× 字节速率
拓扑	3D Torus	3D Torus / 全互联	—

ConnectX-9 28.8 TB/s 意味着 GPU 不会成为网络瓶颈。这是"in-network computing"的终极形态：GPU 间通信与本地 HBM 访问一样快。

Rubin NVL72 / NVL576 机柜

Rubin NVL72

项目	配置
GPU 数	72 颗 Rubin
CPU 数	36 颗 Vera
HBM 总量	20.7 TB HBM4
NVLink 聚合	252 TB/s
FP4 稀疏算力	3.6 EFLOPS
FP8 稀疏算力	1.8 EFLOPS
TDP（机柜）	~130 kW

Rubin NVL576

项目	配置
GPU 数	576 颗 Rubin
CPU 数	288 颗 Vera
HBM 总量	165 TB HBM4
NVLink 聚合	2,016 TB/s
FP4 稀疏算力	28.8 EFLOPS
FP8 稀疏算力	14.4 EFLOPS
TDP（机柜）	~1 MW

Rubin NVL576 = 28.8 EFLOPS FP4 = 1.5 ExaFLOPS FP8。这比 GB300 NVL72（约 0.5 EF FP8）提升 5.7 倍，是当前全球最强的 AI 超级节点。

与同期竞品对比

指标	Rubin R200	AMD MI400	TPU 8t	Trainium 3
显存	288 GB HBM4	432 GB HBM4	216 GB HBM	144 GB HBM
显存带宽	22 TB/s	19.6 TB/s	6,528 GB/s	~4.5 TB/s
FP4 算力	50 PF (sparse)	40 PF (dense)	—	—
FP8 算力	25 PF (sparse)	20 PF (dense)	7 PF	5.7 PF
互联	NVLink 6 + CX-9	UALoF	3D Torus	NeuronLink-v4
TDP	1,800 W	1,000 W	N/A	700 W
CPU	Vera 88 核	EPYC Venice	Arm Axion	Xeon

NVIDIA 优势：每 GPU 算力（dense 25 PF FP8）、NVLink 互联、ConnectX-9 网络、CUDA 生态。 AMD 优势：单卡显存（432 GB）、开放 UALoF 互联、Helios 机柜 72-GPU 集成。 Google 优势：JAX 训练范式、Pod 级（9,216 颗）超大规模。 AWS 优势：每美元性能（4.4× vs Trainium 2）、Trn3 UltraServer 144 chip。

软件生态

CUDA 13.x：新增 Rubin 微架构支持
cuDNN 10.x
TensorRT-LLM 1.0+（FP4 / NVFP4 全优化）
vLLM 0.8+（Vera Rubin 优化版）
NCCL 2.21+（ConnectX-9 + NVLink 6 支持）
NVFP4：继承自 Blackwell Ultra，2nd gen

适用场景

✅ 超大规模 LLM 训练（100B+ 参数，万卡级集群）
✅ 超低延迟超大模型推理（1T+ 参数实时响应）
✅ 科学研究（气候模拟、生物制药、密码学）
✅ 多模态生成（文生视频、4D 内容创作）
❌ 中小模型训练（成本过高，B300 Ultra 更经济）
❌ 边缘部署（功耗/体积不可接受）

详细产品页

总结

NVIDIA Vera Rubin 平台是 AI 算力进化的又一里程碑：

6 芯片封装 突破单 die 物理极限
HBM4 + 22 TB/s 解决 memory wall
50 PF FP4 sparse 进入 50 PF 级别时代
ConnectX-9 28.8 TB/s 解决网络瓶颈
Rubin NVL576 28.8 EFLOPS 进入 exaFLOPS 时代
Vera CPU 终结 NVIDIA 缺 CPU 的历史

2026 H2，AI 算力将再次飞跃。

命名由来：纪念天文学家 Vera Rubin​

6 芯片封装（CoWoS-L）​

核心规格（每 GPU）​

Vera CPU 详解​

NVLink 6 + ConnectX-9 互联​

NVLink 6​

ConnectX-9（双 NIC）​

Rubin NVL72 / NVL576 机柜​

Rubin NVL72​

Rubin NVL576​

与同期竞品对比​

软件生态​

适用场景​

详细产品页​

总结​