跳到主要内容

NVIDIA Rubin R200 (Vera Rubin Platform)

产品概述

NVIDIA Rubin R200(代号 Vera Rubin,纪念 Vera Rubin 暗物质天文学家)是 Blackwell 之后的下一代旗舰平台2026 H2 正式出货。采用业界首个 6 芯片封装(6-die CoWoS-L)—— 1 颗 Vera CPU + 2 颗 Rubin GPU die + I/O / HBM base die,单颗 Rubin GPU 配备 288GB HBM422 TB/s 带宽50 PFLOPS FP4 稀疏算力。

Vera Rubin 平台还包含双独立 ConnectX-9 NIC(每 GPU 28.8 TB/s 聚合)和新版 NVLink 6(3.5 TB/s/GPU)。Rubin NVL72 机柜 = 576 颗 Rubin GPU + 288 颗 Vera CPU = 28.8 EF FP4 稀疏 / 1.5 ExaFLOPS FP8 算力。

核心规格(每 GPU)

项目参数
架构Rubin(Vera Rubin 平台)
制程TSMC 3NP / 4NP(混合)
封装6 芯片 CoWoS-L(1× Vera CPU + 2× Rubin die + 3× I/O/HBM)
晶体管数~3,400 亿(每 GPU)
显存288 GB HBM4(288 GB/颗 GPU 推断)
显存带宽22 TB/s
FP4 稀疏50 PFLOPS业界首款 50 PF 级别
FP8 稀疏25 PFLOPS
FP16/BF16 Tensor12.5 PFLOPS
NVLink 63.5 TB/s/GPU(第 6 代,2× 上一代)
DC 网络ConnectX-9, 28.8 TB/s/GPU(双 14.4 TB/s 端口)
TDP~1,800 W(液冷必需
首发2026 H2

⚠️ 数据约定:NVIDIA Blackwell 之后继续采用 sparse(稀疏)算力 为官方标准,与 AMD/Google dense(密集) 算力不可直接比较。本页 FP4 50 PF / FP8 25 PF 均为稀疏。

Rubin R200 vs B300 Ultra 代际升级

指标B300 UltraRubin R200提升
架构Blackwell UltraRubin新一代
制程TSMC 4NPTSMC 3NP更先进
封装2 die (CoWoS-L)6 die (CoWoS-L)3× 芯片数
显存288 GB HBM3e288 GB HBM4HBM3e → HBM4
显存带宽8 TB/s22 TB/s2.75×
FP4 稀疏14 PFLOPS50 PFLOPS3.6×
NVLink1.8 TB/s (Gen 5)3.5 TB/s (Gen 6)
DC 网络ConnectX-8 1.6 TbpsConnectX-9 28.8 Tbps18×
TDP1,400 W~1,800 W+29%
发布时间2026-012026 H2

Vera CPU(首次集成 ARM CPU)

项目参数
架构Vera(ARM-compatible Olympus 核心)
核心数88 个 Olympus 核心(推测)
制程TSMC 3NP
每 GPU 配对1:1(1 颗 Vera : 2 颗 Rubin GPU die
关键角色host CPU + 互联主控 + 预取器

命名由来:NVIDIA 在 2024 GTC 上将下一代平台命名为 "Vera Rubin",纪念天文学家 Vera Florence Cooper Rubin(1928-2016),其星系自转曲线研究证实了暗物质的存在 —— 与"看不见的 AI 算力革命"形成哲学呼应。

项目参数
每 GPU 带宽3.5 TB/s(双向)
GPU-to-GPU 跳数1(全互联 NVLink switch
机柜内 GPU 数72 颗(Vera Rubin NVL72)
机柜内 GPU 总带宽252 TB/s NVLink 聚合

ConnectX-9 网络

项目参数
每 GPU 端口2 × 14.4 Tbps(独立 NIC)
每 GPU 聚合28.8 TB/s
机柜级9,216 端口(Rubin NVL576)
网络拓扑3D Torus / 全互联

双 ConnectX-9 = 28.8 TB/s 意味着 GPU 不会成为网络瓶颈,这是"in-network computing"的终极形态。

Rubin NVL72 / NVL576 机柜

配置NVL72NVL576
GPU 数72576
CPU 数36288
HBM 总量20.7 TB HBM4165 TB HBM4
NVLink 聚合252 TB/s2,016 TB/s
FP4 稀疏算力3.6 EFLOPS28.8 EFLOPS
FP8 稀疏算力1.8 EFLOPS14.4 EFLOPS
TDP(机柜)~130 kW~1 MW
网络ConnectX-9ConnectX-9 × 1152 端口

Rubin NVL576 = 28.8 EFLOPS FP4 = 1.5 ExaFLOPS FP8 = 全球最强 AI 超级节点(vs GB300 NVL72 的 ~0.5 EF FP8,5.7× 提升)。

部署推荐配置

场景推荐配置
100B+ 模型训练Rubin NVL72(单机柜即可运行 100B 模型
1T+ 巨型模型训练Rubin NVL576 + NVLink Quantum-2 / Quantum-3
超低延迟推理Rubin R200 + FP4 + 推理优化软件
多模态长上下文Rubin R200(288GB HBM4 完整保留 KV)
科学计算Vera CPU + 大量 CPU 核 + Rubin GPU 加速

散热与基础设施

  • TDP ~1,800 W/颗 —— 必须液冷(Direct Liquid Cooling, DLC)
  • 较 B300 Ultra(1,400 W)提升 30%,机房需重新规划
  • Rubin NVL72 = 130 kW/机柜(约 2 个 GB300 NVL72)
  • Rubin NVL576 = 1 MW/机柜 —— 需专用 1MW 液冷机柜

软件生态

  • CUDA 13.x(新增 Rubin 微架构支持)
  • cuDNN 10.x
  • TensorRT-LLM 1.0+(FP4 / NVFP4 全优化)
  • vLLM 0.8+(Vera Rubin 优化版)
  • NCCL 2.21+(ConnectX-9 + NVLink 6 支持)
  • NVFP4(继承自 Blackwell Ultra,2nd gen)

适用场景

  • 超大规模 LLM 训练(100B+ 参数,万卡级集群)
  • 超低延迟超大模型推理(1T+ 参数实时响应)
  • 科学研究(气候模拟、生物制药、密码学)
  • 多模态生成(文生视频、4D 内容创作)
  • ❌ 中小模型训练(成本过高,B300 Ultra 更经济)
  • ❌ 边缘部署(功耗/体积不可接受)

厂商信息

项目内容
厂商NVIDIA Corporation
官方公告2024-03 GTC 大会首次披露
产品页https://www.nvidia.com/en-us/data-center/
首发2026 H2
代际命名Vera Rubin(纪念暗物质天文学家)
代际周期Blackwell (2024-2026) → Vera Rubin (2026-2028) → Feynman (2028+)

相关产品