跳到主要内容

GPU (Graphics Processing Unit) 架构

什么是 GPU

GPU(Graphics Processing Unit) 最初为图形渲染设计,并行架构(数千个小型 ALU)天然适合 AI 矩阵运算。2007 年 NVIDIA 发布 CUDA,将 GPU 通用化为 GPGPU(General-Purpose GPU),开启 AI 加速时代。

当前 90%+ AI 训练和 70%+ 推理 在 GPU 上完成,CUDA 生态 是最大护城河。

GPU vs 其他 AI 芯片

维度GPUTPUASICNPU
通用性最强中(Google Cloud 限定)
算力密度极高
生态CUDA 垄断JAX/TF厂商自研分散
编程模型CUDA/OpenCL/SYCLXLA厂商 SDK厂商 SDK
价格高(仅云)
适用通用 AI / 训练 / 推理数据中心训练推理优化端侧/边缘

主要厂商

NVIDIA(占 AI GPU 市场 ~90%)

  • 数据中心:H100 / H200 / B100 / B200 / B300 / A100
  • 推理:L2 / L4 / L40S / T4
  • 工作站/消费:RTX 4090 / RTX 5090 / RTX 5080 / RTX 6000 Ada
  • 边缘:Jetson Orin / Jetson Thor

AMD(占 AI GPU 市场 ~5%)

  • 数据中心训练:MI250 / MI300X / MI300A / MI325X / MI350
  • 生态:ROCm(CUDA 替代,性能落后)

Intel(占 AI GPU 市场 ~3%)

  • 数据中心:Intel Max Series (Ponte Vecchio) / Flex Series
  • 消费级:Arc 系列
  • 集成 GPU:Meteor Lake / Lunar Lake NPU

主流 GPU 规格对比

GPU架构显存FP16 TensorTDP用途
NVIDIA B300 UltraBlackwell Ultra288GB HBM3e15 PFLOPS1,400W顶级训练
NVIDIA B200Blackwell192GB HBM3e2.25 PFLOPS1,000W数据中心
NVIDIA H200Hopper141GB HBM3e1.98 PFLOPS700W训练/推理
NVIDIA H100Hopper80GB HBM31.98 PFLOPS700W训练/推理
NVIDIA RTX 5090Blackwell32GB GDDR7419 TFLOPS575W消费级旗舰
AMD MI355XCDNA 4288GB HBM3E10 PFLOPS1,400W训练
AMD MI300XCDNA 3192GB HBM31.5 PFLOPS750W训练

编程模型

CUDA(NVIDIA)

  • CUDA C/C++ — 底层 API
  • cuDNN — 神经网络原语
  • cuBLAS — 矩阵运算
  • Triton — Python 高级编译器
  • 生态:PyTorch / TensorFlow / JAX / vLLM

ROCm(AMD)

  • HIP — CUDA 兼容 API
  • MIOpen — 深度学习库
  • 性能:约 NVIDIA 70-90%(取决于工作负载)

SYCL / oneAPI(Intel)

  • DPC++ — C++ + SYCL
  • oneMKL — 数学库
  • 生态较小,但开源

GPU 适用场景

  • 通用 AI 训练 / 推理(CUDA 生态成熟)
  • ✅ LLM 训练(GPT-3 / LLaMA / Mixtral)
  • ✅ Stable Diffusion 训练
  • ✅ 科学计算(HPC)
  • ✅ 数据中心多任务负载
  • ❌ 极致能效(应使用 ASIC)
  • ❌ 端侧(应使用 NPU)

选型建议

工作负载推荐 GPU
训练 GPT-4 类超大模型B200 / B300 / H200
训练 70B LLMH100 8-way / MI300X 8-way
训练 13B LLMH100 / A100
推理 70B+ LLMH100 NVL / H200
推理 13B LLML40S / L4
Stable Diffusion XLRTX 4090 / RTX 5090
边缘 AI 推理Jetson Orin / Thor
HPC + AI 联合MI300A / H100

详细产品页

NVIDIA 数据中心(H 系列 / A 系列)

NVIDIA Blackwell(B 系列)

NVIDIA Vera Rubin 平台(2026 H2)

  • NVIDIA Vera Rubin R200 - 6 芯片 CoWoS-L 封装, 288GB HBM4 22 TB/s, 50 PFLOPS FP4 sparse, ConnectX-9 28.8 TB/s
  • Rubin NVL72 (1 机柜): 72×R200 + 36×Vera, 1.4 EFLOPS FP4 sparse
  • Rubin NVL576 (8 机柜): 576×R200 + 288×Vera, 28.8 EFLOPS FP4 sparse, 1.1 MW 单机房

NVIDIA 推理 / 边缘

AMD

  • AMD MI210 - CDNA 2 64GB HBM2e 22.6 TF FP64 PCIe, 欧洲 LUMI 超算首选
  • AMD MI250 - CDNA 2 128GB HBM2e
  • AMD MI300X - CDNA 3 192GB HBM3 5.3 TB/s
  • AMD MI300A - CDNA 3 + Zen 4 APU 128GB HBM3
  • AMD MI325X - 256GB HBM3e 6 TB/s 1.3 PF FP8
  • AMD MI355X - 288GB HBM3E 8 TB/s 4.6 PF FP8 UALoF 600 GB/s
  • AMD MI350 - CDNA 4 288GB HBM3E
  • AMD MI400 - CDNA Next 432GB HBM4 40 PF FP4 dense, Helios 72-GPU rack

Intel

相关架构