NVIDIA GB200 (Grace Blackwell 200, 2024-Q4)

产品概述

NVIDIA GB200（Grace Blackwell 200） 是 NVIDIA 第二代 Grace Blackwell 超级芯片，2024-Q4 量产。将 B200 GPU 通过 NV-HBI 900 GB/s 高速接口与 Arm Grace 72-core CPU 配对，单 Superchip = 1 GPU + 1 CPU。72 颗 GB200 组成 NVL72 机柜，1 EFLOPS FP4 sparse，NVLink 5 130 TB/s 互联，ConnectX-8 800G 网络，是 NVIDIA 2024-2025 数据中心 AI 旗舰。

代际对比：

GH200（2023-Q3）：Grace + H100, FP8 1 PF sparse, NVLink 4 60 TB/s
GB200（2024-Q4）：Grace + B200, FP4 10 PF sparse, NVLink 5 130 TB/s, 1 EFLOPS / NVL72
GB300（2025 H2）：Vera 88 核 + B300 Ultra + ConnectX-9 1.6T, 1.08 EFLOPS / NVL72（已有页）

核心规格

| 项目 | 参数 |

发布	2024-03-18
架构	Grace Blackwell 200 Superchip
GPU 芯片	1× B200（Blackwell）
CPU 芯片	1× Arm Grace（72 核 Neoverse V2）
NV-HBI	900 GB/s 双向 CPU-GPU 互联
CPU-GPU 一致性内存	统一寻址
GPU 内存	192GB HBM3E
GPU 带宽	8 TB/s
CPU 内存	480GB LPDDR5X（Grace 上）
CPU 带宽	512 GB/s
FP4 sparse	20 PFLOPS（B200 单 GPU ×2 Superchip）
FP8 dense	4.5 PFLOPS
BF16 dense	2.25 PFLOPS
TDP（单 Superchip）	1000W
板卡形态	主板集成（不可拆）
量产	2024-Q4
单价	~$60,000-70,000（Superchip 模块）

GB200 NVL72 机柜

项目	配置
Superchip 数	72× GB200
GPU 数	72× B200
CPU 数	72× Arm Grace (72 核 × 72 = 5,184 核)
HBM 总量	13.8 TB HBM3E
LPDDR5X 总量	34.6 TB
NVLink 5 域内	130 TB/s 全互联
ConnectX-8 出口	72× 800G = 57.6 Tb/s
FP4 sparse 总算力	1,440 PFLOPS（72× 20 PFLOPS）
FP8 dense 总算力	324 PFLOPS（72× 4.5 PFLOPS）
机柜 TDP	~120 kW
机柜数	8（标准数据中心 row）
价格	~$3M / 机柜（推测）

GB200 NVL576（8 机柜）

项目	配置
Superchip 数	576× GB200
GPU 数	576× B200
NVLink 5 域	跨机柜 130 TB/s
HBM 总量	110 TB
FP4 sparse 总算力	11.52 EFLOPS（576× 20 PFLOPS）
FP8 dense 总算力	2.6 EFLOPS（576× 4.5 PFLOPS）
机柜 TDP	960 kW
价格	~$24M

GB200 NVL576 优势：8 机柜 576 GPU 共享 130 TB/s NVLink 域，是 2024 业界最大单一 AI 计算域，对万亿参数 LLM 训练至关重要。

GH200 → GB200 → GB300 对比

指标	GH200 (2023-Q3)	GB200 (2024-Q4)	GB300 (2025 H2)
GPU	H100	B200	B300 Ultra
CPU	Grace 72 核	Grace 72 核	Vera 88 核
GPU 内存	96GB HBM3	192GB HBM3E	288GB HBM3E
GPU 带宽	3.35 TB/s	8 TB/s	10 TB/s
NVLink 域	60 TB/s	130 TB/s	130 TB/s
网络	ConnectX-7 400G	ConnectX-8 800G	ConnectX-9 1.6T
FP4 sparse	N/A (FP8 2 PF)	10 PF	15 PF
FP8 dense	1 PF	2.25 PF	3.75 PF
TDP (Superchip)	1000W	1000W	1200W

ConnectX-8 800G 网络

维度	规格
速率	800 Gb/s 单端口（2× ConnectX-7）
端口数	2-4 per Superchip
协议	InfiniBand NDR / RoCE v2
延迟	< 0.5 μs
GPUDirect	GPU-NIC 直接 DMA
拥塞控制	SHARP v3
2024 部署	ORNL Aurora 后继、CSCS Alps、EuroHPC

ConnectX-8 升级：2× 速率（400G → 800G），GPUDirect RDMA 3.0，支持 NVLink over IB（跨机柜 NVLink）。

Arm Grace 72 核

维度	规格
架构	Arm Neoverse V2
核心数	72 核
L3 Cache	共享 192MB
LPDDR5X	480GB
带宽	512 GB/s
TDP	2700 W
PCIe	Gen5 ×32
特性	SVE2 增强

Grace vs Vera 升级：Vera 是 Grace 下一代（88 核 + 256MB L3 + 480GB LPDDR5X），GB200 仍用 Grace 72 核，GB300 才升级到 Vera。

GB200 适用场景

✅ 万亿参数 LLM 训练（NVL576 域，130 TB/s NVLink）
✅ MoE 模型训练（专家并行 + 张量并行）
✅ 超大规模 RLHF（576 GPU 同步）
✅ 多模态大模型（视频 + 文本 + 图像）
✅ AI for Science（气候、材料、生命科学）
✅ 云服务 AI（CoreWeave、Lambda、OVHcloud）
❌ 小规模推理（成本过高）
❌ 中国市场（出口管制）

GB200 客户

Meta：Llama 4 / 5 训练（>$10B 订单）
Microsoft Azure：OpenAI GPT-5 + Copilot
Google Cloud：Gemini 1.5 / 2.0
AWS：Anthropic Claude 4 + Bedrock
CoreWeave：3 万+ GB200 部署（2025 H1）
xAI Grok 3：Colossus 集群 100K+ GB200
Oracle Cloud：OCI 部署
Lambda Labs：Lambda 1-Click Cluster

厂商信息

项目	内容
公司	NVIDIA Corporation
产品页	https://www.nvidia.com/en-us/data-center/grace-blackwell/
CEO	Jensen Huang（黄仁勋）
代工	TSMC 4NP（B200）+ TSMC N3（Grace）
2024-Q4 量产	是
价格	Superchip ~$60-70K, NVL72 ~$3M

GB200 vs GB300

指标	GB200 (2024-Q4)	GB300 (2025 H2)
GPU	B200	B300 Ultra
CPU	Grace 72 核	Vera 88 核
GPU 内存	192GB HBM3E	288GB HBM3E
GPU 带宽	8 TB/s	10 TB/s
网络	ConnectX-8 800G	ConnectX-9 1.6T
FP4 sparse	10 PF	15 PF
FP8 dense	2.25 PF	3.75 PF
TDP (Superchip)	1000W	1200W

GB300 升级：GPU 内存 +50%（192→288GB）、算力 +50%（FP8 2.25→3.75 PF）、网络 2×（800G→1.6T），价格相当。

关键特性

NVL72 域：72 GPU 共享 130 TB/s NVLink
NVL576 域：576 GPU 跨 8 机柜 NVLink
ConnectX-8 800G：单端口 800G
Arm Grace 72 核：CPU + GPU 统一内存寻址
FP4 10 PFLOPS：推理优化
缺点：TDP 1000W、出口管制、软件仅 CUDA

产品概述​

核心规格​

GB200 NVL72 机柜​

GB200 NVL576（8 机柜）​

GH200 → GB200 → GB300 对比​

ConnectX-8 800G 网络​

Arm Grace 72 核​

GB200 适用场景​

GB200 客户​

厂商信息​

GB200 vs GB300​

关键特性​

相关卡​