跳到主要内容

NVIDIA GPU / CUDA

厂商: NVIDIA

分类: GPU 图形处理器

架构: Blackwell Ultra / Blackwell / Hopper / Ada Lovelace / Ampere / Volta / Pascal

简介

NVIDIA GPU 加速计算平台,涵盖 GeForce/RTX 游戏卡、RTX Professional 工作站卡、H100/B200 数据中心卡等全系列。所有 NVIDIA GPU 统一通过 CUDA 平台进行通用计算加速。

规格参数

Blackwell Ultra / Blackwell 架构( 至今)

型号算力显存带宽接口TDP制程
B300 SXM (Blackwell Ultra)9,000 TFLOPS (FP8) / 18,000 (FP4)270GB HBM3e7.7 TB/sSXM61,400WTSMC 4NP
B200 SXM4,500 TFLOPS (FP8) / 9,000 (FP4)192GB HBM3e8.0 TB/sSXM61,000WTSMC 4NP
B100 SXM3,500 TFLOPS (FP8) / 7,000 (FP4)192GB HBM3e8.0 TB/sSXM6700WTSMC 4NP
GB200 超级芯片 (2×B200+Grace)20,000 TFLOPS (FP8) / 40,000 (FP4)384GB HBM3e16 TB/sNVLink-C2C2,700WTSMC 4NP
GB300 超级芯片 (2×B300+Grace)40,000 TFLOPS (FP8) / 80,000 (FP4)540GB HBM3e15.4 TB/sNVLink-C2C2,800WTSMC 4NP

Hopper 架构( 至今)

型号算力显存带宽接口TDP制程
H200 SXM1,979 TFLOPS (FP8)141GB HBM3e4.8 TB/sSXM5700WTSMC 4N
H100 SXM51,979 TFLOPS (FP8) / 989 (FP16)80GB HBM33.35 TB/sSXM5700WTSMC 4N
H100 PCIe1,513 TFLOPS (FP8)80GB HBM32.0 TB/sPCIe 5.0350WTSMC 4N
H100 NVL (双卡)3,958 TFLOPS (FP8)2×80GB HBM32.0 TB/sNVLink700WTSMC 4N
H800 SXM5 (中国特供)1,979 TFLOPS (FP8)80GB HBM33.35 TB/sSXM5350WTSMC 4N

Ada Lovelace 架构( 至今)

型号算力显存带宽接口TDP制程
L40S362 TFLOPS (FP8) / 733 (INT8)48GB GDDR6 w/ECC864 GB/sPCIe 4.0300WTSMC 4N
L40362 TFLOPS (FP16) / 724 (INT8)48GB GDDR6864 GB/sPCIe 4.0300WTSMC 4N
L20119 TFLOPS (FP16) / 239 (INT8)48GB GDDR6864 GB/sPCIe 4.0275WTSMC 4N
L4242 TFLOPS (FP8) / 484 (INT8)24GB GDDR6300 GB/sPCIe 4.072WTSMC 4N
RTX 6000 Ada362 TFLOPS (FP8) / 733 (INT8)48GB GDDR6960 GB/sPCIe 4.0300WTSMC 4N

Ampere 架构( 至今)

型号算力显存带宽接口TDP制程
A100 SXM4 (80GB)312 TFLOPS (FP16) / 19.5 (FP32)80GB HBM2e2.0 TB/sSXM4400WTSMC 7N
A100 PCIe (80GB)312 TFLOPS (FP16) / 19.5 (FP32)80GB HBM2e2.0 TB/sPCIe 4.0250WTSMC 7N
A800 SXM4 (中国特供)312 TFLOPS (FP16)80GB HBM2e2.0 TB/sSXM4400WTSMC 7N
A40150 TFLOPS (FP16) / 37.4 (FP32)48GB GDDR6696 GB/sPCIe 4.0300WTSMC 7N
A30165 TFLOPS (FP16) / 10.3 (FP32)24GB HBM2e933 GB/sPCIe 4.0165WTSMC 7N
A10125 TFLOPS (FP16) / 31.2 (FP32)24GB GDDR6600 GB/sPCIe 4.0150WTSMC 7N
A16 (4×MIG)120 TFLOPS (FP16)4×16GB GDDR64×448 GB/sPCIe 4.0250WTSMC 7N

Volta / Pascal 架构( 至今)

型号算力显存带宽接口TDP制程
Tesla V100 SXM2 (32GB)125 TFLOPS (FP16) / 15.7 (FP32)32GB HBM2900 GB/sSXM2300WTSMC 12nm
Tesla V100 PCIe (16/32GB)125 TFLOPS (FP16) / 15.7 (FP32)16/32GB HBM2900 GB/sPCIe 3.0250WTSMC 12nm
Tesla T465 TFLOPS (FP16) / 8.1 (FP32)16GB GDDR6300 GB/sPCIe 3.070WTSMC 12nm
Tesla P100 (16GB)18.7 TFLOPS (FP16) / 10.6 (FP32)16GB HBM2720 GB/sSXM2/PCIe300WTSMC 16nm
Tesla P4047 TOPS (INT8) / 12 TFLOPS (FP32)24GB GDDR5X346 GB/sPCIe 3.0250WTSMC 16nm
Tesla P422 TOPS (INT8) / 5.5 TFLOPS (FP32)8GB GDDR5195 GB/sPCIe 3.075WTSMC 16nm

官方网站

访问官方网站

驱动下载

Windows

Linux

macOS

相关文档

操作系统支持

WindowsLinuxmacOSAndroid
⚠️ (仅AMD eGPU)

版本历史

版本发布时间说明
CUDA 12.82025-Q2支持 Blackwell 架构,B200/B100 全面支持
CUDA 12.42024-Q3Hopper 性能优化,H200 支持
CUDA 12.02023-Q2H100/H200 全面支持,FP8 原生支持
CUDA 11.82022-Q4Ada Lovelace (L40S/L4) 支持
CUDA 11.02020-Q3Ampere (A100) 支持,MIG 多实例
CUDA 10.02018-Q3Volta (V100) Tensor Core 增强
CUDA 9.02017-Q3Volta V100 首次支持

性能基准

型号任务性能指标
B200 × 8Llama 3 405B 训练~2.5 天 (预估)
H100 SXM5 × 8GPT-3 175B 训练~1.1 天 (MLPerf)
H100 SXM5Llama 2 70B 推理~120 tok/s (FP16)
H200 SXM5Llama 3 70B 推理~140 tok/s (FP8)
A100 SXM4 × 8GPT-3 175B 训练~3.5 天 (MLPerf)
L40S × 4Whisper-large-v3~18x 实时转录
L4 × 1Stable Diffusion XL~3.5s/img (batch=1)
Tesla T4 × 1BERT-large 推理~1,200 qps
RTX 4090Stable Diffusion XL~1.8s/img (batch=1)

定价信息

型号参考价格备注
B200 SXM$30,000-45,0002025 年量产
GB200 NVL$60,000-80,000超级芯片 (2 GPU + Grace CPU)
H100 SXM5$25,000-35,000市场价受供应影响波动大
H200 SXM5$30,000-40,000HBM3e 大显存版本
H800 SXM5$15,000-20,000中国特供版
A100 80GB$10,000-15,000已有大量二手市场
A800 80GB$8,000-12,000中国特供版
L40S$7,500-10,000推理/图形双用途
L4$3,000-4,500低功耗推理首选
Tesla T4$2,000-3,000入门推理卡(二手更低)
Tesla V100 32GB$2,500-4,000已停产,二手为主

快速安装

Linux(Ubuntu 22.04)

# 1. 安装 NVIDIA 驱动
sudo apt update
sudo apt install nvidia-driver-550

# 2. 安装 CUDA Toolkit
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update
sudo apt install -y cuda-toolkit-12-8

# 3. 验证安装
nvidia-smi
nvcc --version

Windows

下载并安装 NVIDIA Game Ready DriverCUDA Toolkit,重启后运行 nvidia-smi 验证。

代码示例

Python (PyTorch)

import torch

# 检查 CUDA 可用性
print(f"CUDA available: {torch.cuda.is_available()}")
print(f"GPU: {torch.cuda.get_device_name(0)}")
print(f"CUDA version: {torch.cuda.version.cuda}")

# 简单张量运算
x = torch.randn(1000, 1000).cuda()
y = torch.matmul(x, x)
print(f"GPU matrix multiply result shape: {y.shape}")

CUDA C (Hello World)

#include <stdio.h>
__global__ void hello() { printf("Hello from GPU thread %d!\n", threadIdx.x); }
int main() {
hello<<<1, 5>>>();
cudaDeviceSynchronize();
return 0;
}

编译: nvcc hello.cu -o hello && ./hello

架构特色

  • Blackwell 架构 (B200/B100): 双 Die 设计 (2080 亿晶体管),第二代 Transformer Engine,FP4 推理支持;NVLink 第五代 1.8TB/s 互联;10TB/s 芯片间互连统一为单 GPU
  • Hopper 架构 (H100/H200): 引入 Transformer Engine,自动在 FP8/FP16 间切换;TMA (Tensor Memory Accelerator) 异步内存搬运;FP8 精度原生支持
  • Ada Lovelace 架构 (L40S/L4): 第四代 Tensor Core,FP8 推理支持;AV1 编码硬件加速;Omniverse/图形渲染优化
  • Ampere 架构 (A100/A40): 第三代 Tensor Core,TF32/BF16 原生支持;MIG 多实例 GPU 虚拟化;结构化稀疏 2x 加速
  • Volta 架构 (V100): 首次引入 Tensor Core (FP16/FP32 混合精度);900GB/s HBM2 带宽
  • 软件栈: CUDA → cuDNN → cuBLAS → TensorRT → Triton (OpenAI),生态最为完善

模型兼容性

模型/框架支持情况备注
PyTorch✅ 原生CUDA 后端首选平台
TensorFlow✅ 原生完整 GPU 支持
JAX✅ 原生CUDA 后端
Llama / Qwen 等 LLMvLLM / TensorRT-LLM / llama.cpp 均支持
Stable DiffusionxFormers 加速
WhisperFaster-Whisper (CTranslate2)

大规模集群部署

基于全球 AI 超算集群数据统计,NVIDIA CUDA 在已公开的集群部署中累计超过 1,620,688 颗芯片,分布在 249 个集群中。

芯片型号统计

芯片型号总部署量集群数
NVIDIA H100 SXM5 80GB948,79278
NVIDIA A100191,78273
NVIDIA H200 SXM178,8008
NVIDIA V10086,37635
NVIDIA GH20059,90811
NVIDIA Tesla V100 SXM251,99616
NVIDIA GB20030,0001
NVIDIA A100 SXM4 80 GB20,65212
NVIDIA A100 SXM4 40 GB13,49611
NVIDIA Tesla P100 PCIe 16GB8,7442
NVIDIA Tesla K40c8,3202
NVIDIA Tesla K20X7,2242
NVIDIA P1005,1543
NVIDIA Tesla P100 SXM22,1561
NVIDIA Tesla K801,7281
NVIDIA Tesla V100 DGXS 32 GB1,5361
NVIDIA Tesla K40m1,4721
NVIDIA Tesla V100 SXM2 32 GB1,0441
NVIDIA A100 PCIe4922
NVIDIA A40 PCIe4001
NVIDIA Quadro RTX 50003601
NVIDIA L402561

知名部署集群 Top 10

#集群名称芯片总数芯片型号运营方
1xAI Colossus Memphis Phase 3230,000NVIDIA H100 SXM5 80GB ×200,000 + NVIDIA GB200 ×30,000xAI, United States of America
2xAI Colossus Memphis Phase 2200,000NVIDIA H100 SXM5 80GB ×150,000 + NVIDIA H200 SXM ×50,000xAI, United States of America
3xAI Colossus Memphis Phase 1100,000NVIDIA H100 SXM5 80GB ×100,000xAI, United States of America
4Meta 100k100,000NVIDIA H100 SXM5 80GB ×100,000Meta AI, United States of America
5OpenAI/Microsoft Goodyear Arizona100,000NVIDIA H100 SXM5 80GB ×100,000Microsoft,OpenAI, United States of America
6Oracle OCI Supercluster H200s65,536NVIDIA H200 SXM ×65,536Oracle, United States of America
7Tesla Cortex Phase 150,000NVIDIA H100 SXM5 80GB ×50,000Tesla, United States of America
8CoreWeave H200s42,000NVIDIA H200 SXM ×42,000CoreWeave, United States of America
9Oracle OCI Supercluster A100s32,768NVIDIA A100 ×32,768Oracle, United States of America
10Microsoft GPT-4 cluster25,000NVIDIA A100 ×25,000Microsoft,OpenAI, United States of America

相关产品

如果你在评估替代方案,以下产品可能也适合你的场景: