NVIDIA GB200 (Grace Blackwell 200, 2024-Q4)
产品概述
NVIDIA GB200(Grace Blackwell 200) 是 NVIDIA 第二代 Grace Blackwell 超级芯片,2024-Q4 量产。将 B200 GPU 通过 NV-HBI 900 GB/s 高速接口与 Arm Grace 72-core CPU 配对,单 Superchip = 1 GPU + 1 CPU。72 颗 GB200 组成 NVL72 机柜,1 EFLOPS FP4 sparse,NVLink 5 130 TB/s 互联,ConnectX-8 800G 网络,是 NVIDIA 2024-2025 数据中心 AI 旗舰。
代际对比:
- GH200(2023-Q3):Grace + H100, FP8 1 PF sparse, NVLink 4 60 TB/s
- GB200(2024-Q4):Grace + B200, FP4 10 PF sparse, NVLink 5 130 TB/s, 1 EFLOPS / NVL72
- GB300(2025 H2):Vera 88 核 + B300 Ultra + ConnectX-9 1.6T, 1.08 EFLOPS / NVL72(已有页)
核心规格
| 项目 | 参数 |
|---|
| 架构 | Grace Blackwell 200 Superchip |
| GPU 芯片 | 1× B200(Blackwell) |
| CPU 芯片 | 1× Arm Grace(72 核 Neoverse V2) |
| NV-HBI | 900 GB/s 双向 CPU-GPU 互联 |
| CPU-GPU 一致性内存 | 统一寻址 |
| GPU 内存 | 192GB HBM3E |
| GPU 带宽 | 8 TB/s |
| CPU 内存 | 480GB LPDDR5X(Grace 上) |
| CPU 带宽 | 512 GB/s |
| FP4 sparse | 10 PFLOPS(B200 单 GPU) |
| FP8 dense | 2.25 PFLOPS |
| BF16 dense | 1.125 PFLOPS |
| TDP(单 Superchip) | 1000W |
| 板卡形态 | 主板集成(不可拆) |
| 量产 | 2024-Q4 |
| 单价 | ~$60,000-70,000(Superchip 模块) |
GB200 NVL72 机柜
| 项目 | 配置 |
|---|
| Superchip 数 | 72× GB200 |
| GPU 数 | 72× B200 |
| CPU 数 | 72× Arm Grace (72 核 × 72 = 5,184 核) |
| HBM 总量 | 13.8 TB HBM3E |
| LPDDR5X 总量 | 34.6 TB |
| NVLink 5 域内 | 130 TB/s 全互联 |
| ConnectX-8 出口 | 72× 800G = 57.6 Tb/s |
| FP4 sparse 总算力 | 720 PFLOPS |
| FP8 dense 总算力 | 162 PFLOPS |
| 机柜 TDP | ~120 kW |
| 机柜数 | 8(标准数据中心 row) |
| 价格 | ~$3M / 机柜(推测) |
GB200 NVL576(8 机柜)
| 项目 | 配置 |
|---|
| Superchip 数 | 576× GB200 |
| GPU 数 | 576× B200 |
| NVLink 5 域 | 跨机柜 130 TB/s |
| HBM 总量 | 110 TB |
| FP4 sparse 总算力 | 5.76 EFLOPS |
| FP8 dense 总算力 | 1.3 EFLOPS |
| 机柜 TDP | 960 kW |
| 价格 | ~$24M |
GB200 NVL576 优势:8 机柜 576 GPU 共享 130 TB/s NVLink 域,是 2024 业界最大单一 AI 计算域,对万亿参数 LLM 训练至关重要。
GH200 → GB200 → GB300 对比
| 指标 | GH200 (2023-Q3) | GB200 (2024-Q4) | GB300 (2025 H2) |
|---|
| GPU | H100 | B200 | B300 Ultra |
| CPU | Grace 72 核 | Grace 72 核 | Vera 88 核 |
| GPU 内存 | 96GB HBM3 | 192GB HBM3E | 288GB HBM3E |
| GPU 带宽 | 3.35 TB/s | 8 TB/s | 10 TB/s |
| NVLink 域 | 60 TB/s | 130 TB/s | 130 TB/s |
| 网络 | ConnectX-7 400G | ConnectX-8 800G | ConnectX-9 1.6T |
| FP4 sparse | N/A (FP8 2 PF) | 10 PF | 15 PF |
| FP8 dense | 1 PF | 2.25 PF | 3.75 PF |
| TDP (Superchip) | 1000W | 1000W | 1200W |
ConnectX-8 800G 网络
| 维度 | 规格 |
|---|
| 速率 | 800 Gb/s 单端口(2× ConnectX-7) |
| 端口数 | 2-4 per Superchip |
| 协议 | InfiniBand NDR / RoCE v2 |
| 延迟 | < 0.5 μs |
| GPUDirect | GPU-NIC 直接 DMA |
| 拥塞控制 | SHARP v3 |
| 2024 部署 | ORNL Aurora 后继、CSCS Alps、EuroHPC |
ConnectX-8 升级:2× 速率(400G → 800G),GPUDirect RDMA 3.0,支持 NVLink over IB(跨机柜 NVLink)。
Arm Grace 72 核
| 维度 | 规格 |
|---|
| 架构 | Arm Neoverse V2 |
| 核心数 | 72 核 |
| L3 Cache | 共享 192MB |
| LPDDR5X | 480GB |
| 带宽 | 512 GB/s |
| TDP | 200W(仅 CPU) |
| PCIe | Gen5 ×32 |
| 特性 | SVE2 增强 |
Grace vs Vera 升级:Vera 是 Grace 下一代(88 核 + 256MB L3 + 480GB LPDDR5X),GB200 仍用 Grace 72 核,GB300 才升级到 Vera。
GB200 适用场景
- ✅ 万亿参数 LLM 训练(NVL576 域,130 TB/s NVLink)
- ✅ MoE 模型训练(专家并行 + 张量并行)
- ✅ 超大规模 RLHF(576 GPU 同步)
- ✅ 多模态大模型(视频 + 文本 + 图像)
- ✅ AI for Science(气候、材料、生命科学)
- ✅ 云服务 AI(CoreWeave、Lambda、OVHcloud)
- ❌ 小规模推理(成本过高)
- ❌ 中国市场(出口管制)
GB200 客户
- Meta:Llama 4 / 5 训练(>$10B 订单)
- Microsoft Azure:OpenAI GPT-5 + Copilot
- Google Cloud:Gemini 1.5 / 2.0
- AWS:Anthropic Claude 4 + Bedrock
- CoreWeave:3 万+ GB200 部署(2025 H1)
- xAI Grok 3:Colossus 集群 100K+ GB200
- Oracle Cloud:OCI 部署
- Lambda Labs:Lambda 1-Click Cluster
厂商信息
GB200 vs GB300
| 指标 | GB200 (2024-Q4) | GB300 (2025 H2) |
|---|
| GPU | B200 | B300 Ultra |
| CPU | Grace 72 核 | Vera 88 核 |
| GPU 内存 | 192GB HBM3E | 288GB HBM3E |
| GPU 带宽 | 8 TB/s | 10 TB/s |
| 网络 | ConnectX-8 800G | ConnectX-9 1.6T |
| FP4 sparse | 10 PF | 15 PF |
| FP8 dense | 2.25 PF | 3.75 PF |
| TDP (Superchip) | 1000W | 1200W |
GB300 升级:GPU 内存 +50%(192→288GB)、算力 +50%(FP8 2.25→3.75 PF)、网络 2×(800G→1.6T),价格相当。
关键特性
- NVL72 域:72 GPU 共享 130 TB/s NVLink
- NVL576 域:576 GPU 跨 8 机柜 NVLink
- ConnectX-8 800G:单端口 800G
- Arm Grace 72 核:CPU + GPU 统一内存寻址
- FP4 10 PFLOPS:推理优化
- 缺点:TDP 1000W、出口管制、软件仅 CUDA
相关卡