跳到主要内容

NVIDIA B300 Ultra (Blackwell Ultra)

产品概述

NVIDIA B300 / B300 Ultra(代号 Miranda / GB300)是 Blackwell 架构的中期升级版本2026-01 正式出货。最大升级是显存从 192GB → 288GB HBM3e,FP4 稀疏算力达 14 PFLOPS,TDP 1,400W(必须液冷)。

专为超大 LLM 推理时代设计 —— 288GB 显存可单卡加载 70B 模型(FP16),剩余 100GB+ 空间用于 KV Cache。在 DeepSeek R1 实测中,Prefill 吞吐量 22,476 TGS,相比 H200 提升 8 倍

核心规格

项目参数
架构Blackwell Ultra(GB300)
制程TSMC 4NP
GPU 芯片2 颗 Blackwell Die(CoWoS-L 封装)
显存288 GB HBM3e(12-Hi 堆叠)
显存带宽8 TB/s
FP8 Tensor Core(密集)7,000 TFLOPS
FP8 Tensor Core(稀疏)~14 PFLOPS
FP4 Tensor Core(密集)7,000 TFLOPS
FP4 Tensor Core(稀疏)14 PFLOPS
FP16 Tensor Core(密集)3,500 TFLOPS
INT87,000 TOPS
TDP1,400 W液冷必需
NVLink 带宽1.8 TB/s(第 5 代)
PCIeGen 6(首次)
DC 网络ConnectX-8, 1.6 Tbps
首发2026-01 正式出货

B200 vs B300 Ultra 升级对比

指标B200B300 Ultra提升
架构BlackwellBlackwell Ultra中期升级
显存192 GB HBM3e288 GB HBM3e+50%
显存带宽8 TB/s8 TB/s持平
FP8 密集4,500 TFLOPS7,000 TFLOPS+56%
FP4 稀疏~9 PFLOPS14 PFLOPS+56%
TDP1,000 W1,400 W+40%
PCIeGen 5Gen 6
DC 网络ConnectX-7 (400G)ConnectX-8 (1.6T)
发布2024-Q42026-01

关键:FP4 是 Blackwell Ultra 的新精度等级(介于 FP8 与 INT4 之间),相比 FP8 再降 50% 显存占用。

H100 / H200 / B300 代际性能

指标H100H200B300提升
架构HopperHopperBlackwell Ultra
显存80GB HBM3141GB HBM3e288GB HBM3e3.6×
显存带宽3.35 TB/s4.8 TB/s8 TB/s2.4×
FP8 密集989 TFLOPS989 TFLOPS7,000 TFLOPS
TDP700W700W1,400W
NVLink900 GB/s900 GB/s1,800 GB/s
发布时间2023-032024-Q42026-01

DeepSeek 推理实测(vLLM 2026-02 报告)

DeepSeek-V3.2 (GB300)

测试配置:NVFP4 量化 + TP2(张量并行 2 卡)

场景吞吐量 (TGS)
Prefill-only(ISL=1)7,360
混合上下文(ISL=2k, OSL=1k)2,816

ISL = Input Sequence Length(输入序列长度),OSL = Output Sequence Length

DeepSeek-R1 (B300)

场景吞吐量 (TGS)
Prefill-only(ISL=2k, batch=256)22,476
混合上下文(ISL=2k, OSL=1k)3,072

R1 Prefill 吞吐量约为 V3.2 的 3 倍,得益于 R1 架构的 chain-of-thought 优化。

FP4 vs FP8 量化(DeepSeek-R1)

量化方案Prefill 提升混合上下文提升
NVFP4 + TP2 vs FP81.8×

NVFP4(NVIDIA FP4)是 Blackwell 新增的 4 位浮点格式,相比 FP8 再降 50% 显存吞吐量数倍提升。 在保持精度的同时(FP4 + 张量并行),DeepSeek-R1 混合上下文推理提升 8 倍

B300 vs H200 代际性能

指标B300 vs H200
Prefill 吞吐量(ISL=2k)
短输出吞吐量(ISL=2k, OSL=128)20×

短输出场景 20× 提升 —— B300 + NVFP4 + TP2 是高并发生产环境的最佳选择。

部署推荐配置(DeepSeek)

场景推荐配置
DeepSeek R1 在线服务B300 + NVFP4 + EP2(专家并行)
DeepSeek V3 推理 + 训练B300 + NVFP4 + TP2(张量并行)
长上下文文档理解B300(充分利用 288GB 显存)
成本敏感型推理B300 Spot + FP4 量化

EP2 = Expert Parallel 2(专家并行 2),适合 MoE 模型(DeepSeek 即 MoE) TP2 = Tensor Parallel 2(张量并行 2),通用加速

8 卡 DGX B300 系统

项目参数
GPU 总显存2.3 TB HBM3e(288×8)
GPU 互联NVLink 5.0 + ConnectX-8
峰值功耗~14 kW(2 个 H100 DGX)
适用模型400B+ 参数模型完整加载
散热必须液冷(DLC)

云端价格对比(2026-03)

供应商实例类型每 GPU/小时价格
AWSp6-b200.48xlarge(8 卡 B300)$11.70
DigitalOceanB300 GPU Droplet(即将推出)~$8.00(预估)
Oracle CloudOCI B300~$10.00(预估)

AWS p6-b200.48xlarge 是首批 8 卡 B300 实例之一。DigitalOcean 价格比 AWS 便宜约 30%

主流 GPU 推理成本对比(Llama 70B)

GPU吞吐量 (tok/s)每 GPU/小时Token 成本(相对)
H100 SXM~21,800$2.001.0×(基准)
H200 SXM~31,700$3.500.83×(省 17%)
B300(FP8)~100,000+~$8.000.58×(省 42%)
B300(FP4)~150,000+~$8.000.39×(省 61%)

关键洞察:B300 单价高,但单 Token 成本反而低 39-61% —— 这是云端推理的最佳选择。

散热与基础设施

  • TDP 1,400W —— 必须液冷(Direct Liquid Cooling, DLC)
  • 风冷方案不可行(vs H100 700W 风冷)
  • 8 卡 DGX B300 = 14kW(= 2 个 H100 DGX)
  • 机房需重新规划电力和散热

软件要求

  • CUDA 12.x
  • cuDNN 9.x
  • TensorRT-LLM 0.15+
  • NVFP4 支持(需 TensorRT 10+)
  • vLLM 0.6+(GB300 优化版)

适用场景

  • 大规模推理服务(70B+ 模型,10万+ tok/s)
  • 推理密集型负载(DeepSeek R1、o1 类推理模型)
  • 长上下文 KV Cache(288GB 完整保留)
  • 400B+ 参数模型部署(8 卡 DGX B300 完整加载)
  • 多节点训练集群(6.4 Tbps GPU 互联)
  • ❌ 中小规模推理(H200 更经济)
  • ❌ 无液冷机房(基础设施投入大)

厂商信息

项目内容
厂商NVIDIA Corporation
产品页https://www.nvidia.com/en-us/data-center/blackwell/
首发2026-01 正式出货
云端部署AWS / DigitalOcean / Oracle Cloud
OEM 合作伙伴Dell / HPE / Supermicro / Lenovo

相关产品