NVIDIA GPU / CUDA

厂商: NVIDIA

分类: GPU 图形处理器

架构: Blackwell Ultra / Blackwell / Hopper / Ada Lovelace / Ampere / Volta / Pascal

简介

NVIDIA GPU 加速计算平台，涵盖 GeForce/RTX 游戏卡、RTX Professional 工作站卡、H100/B200 数据中心卡等全系列。所有 NVIDIA GPU 统一通过 CUDA 平台进行通用计算加速。

规格参数

Blackwell Ultra / Blackwell 架构（至今）

型号	算力	显存	带宽	接口	TDP	制程
B300 SXM (Blackwell Ultra)	9,000 TFLOPS (FP8) / 18,000 (FP4)	270GB HBM3e	7.7 TB/s	SXM6	1,400W	TSMC 4NP
B200 SXM	4,500 TFLOPS (FP8) / 9,000 (FP4)	192GB HBM3e	8.0 TB/s	SXM6	1,000W	TSMC 4NP
B100 SXM	3,500 TFLOPS (FP8) / 7,000 (FP4)	192GB HBM3e	8.0 TB/s	SXM6	700W	TSMC 4NP
GB200 超级芯片 (2×B200+Grace)	20,000 TFLOPS (FP8) / 40,000 (FP4)	384GB HBM3e	16 TB/s	NVLink-C2C	2,700W	TSMC 4NP
GB300 超级芯片 (2×B300+Grace)	40,000 TFLOPS (FP8) / 80,000 (FP4)	540GB HBM3e	15.4 TB/s	NVLink-C2C	2,800W	TSMC 4NP

Hopper 架构（至今）

型号	算力	显存	带宽	接口	TDP	制程
H200 SXM	1,979 TFLOPS (FP8)	141GB HBM3e	4.8 TB/s	SXM5	700W	TSMC 4N
H100 SXM5	1,979 TFLOPS (FP8) / 989 (FP16)	80GB HBM3	3.35 TB/s	SXM5	700W	TSMC 4N
H100 PCIe	1,513 TFLOPS (FP8)	80GB HBM3	2.0 TB/s	PCIe 5.0	350W	TSMC 4N
H100 NVL (双卡)	3,958 TFLOPS (FP8)	2×80GB HBM3	2.0 TB/s	NVLink	700W	TSMC 4N
H800 SXM5 (中国特供)	1,979 TFLOPS (FP8)	80GB HBM3	3.35 TB/s	SXM5	350W	TSMC 4N

Ada Lovelace 架构（至今）

型号	算力	显存	带宽	接口	TDP	制程
L40S	362 TFLOPS (FP8) / 733 (INT8)	48GB GDDR6 w/ECC	864 GB/s	PCIe 4.0	300W	TSMC 4N
L40	362 TFLOPS (FP16) / 724 (INT8)	48GB GDDR6	864 GB/s	PCIe 4.0	300W	TSMC 4N
L20	119 TFLOPS (FP16) / 239 (INT8)	48GB GDDR6	864 GB/s	PCIe 4.0	275W	TSMC 4N
L4	242 TFLOPS (FP8) / 484 (INT8)	24GB GDDR6	300 GB/s	PCIe 4.0	72W	TSMC 4N
RTX 6000 Ada	362 TFLOPS (FP8) / 733 (INT8)	48GB GDDR6	960 GB/s	PCIe 4.0	300W	TSMC 4N

Ampere 架构（至今）

型号	算力	显存	带宽	接口	TDP	制程
A100 SXM4 (80GB)	312 TFLOPS (FP16) / 19.5 (FP32)	80GB HBM2e	2.0 TB/s	SXM4	400W	TSMC 7N
A100 PCIe (80GB)	312 TFLOPS (FP16) / 19.5 (FP32)	80GB HBM2e	2.0 TB/s	PCIe 4.0	250W	TSMC 7N
A800 SXM4 (中国特供)	312 TFLOPS (FP16)	80GB HBM2e	2.0 TB/s	SXM4	400W	TSMC 7N
A40	150 TFLOPS (FP16) / 37.4 (FP32)	48GB GDDR6	696 GB/s	PCIe 4.0	300W	TSMC 7N
A30	165 TFLOPS (FP16) / 10.3 (FP32)	24GB HBM2e	933 GB/s	PCIe 4.0	165W	TSMC 7N
A10	125 TFLOPS (FP16) / 31.2 (FP32)	24GB GDDR6	600 GB/s	PCIe 4.0	150W	TSMC 7N
A16 (4×MIG)	120 TFLOPS (FP16)	4×16GB GDDR6	4×448 GB/s	PCIe 4.0	250W	TSMC 7N

Volta / Pascal 架构（至今）

型号	算力	显存	带宽	接口	TDP	制程
Tesla V100 SXM2 (32GB)	125 TFLOPS (FP16) / 15.7 (FP32)	32GB HBM2	900 GB/s	SXM2	300W	TSMC 12nm
Tesla V100 PCIe (16/32GB)	125 TFLOPS (FP16) / 15.7 (FP32)	16/32GB HBM2	900 GB/s	PCIe 3.0	250W	TSMC 12nm
Tesla T4	65 TFLOPS (FP16) / 8.1 (FP32)	16GB GDDR6	300 GB/s	PCIe 3.0	70W	TSMC 12nm
Tesla P100 (16GB)	18.7 TFLOPS (FP16) / 10.6 (FP32)	16GB HBM2	720 GB/s	SXM2/PCIe	300W	TSMC 16nm
Tesla P40	47 TOPS (INT8) / 12 TFLOPS (FP32)	24GB GDDR5X	346 GB/s	PCIe 3.0	250W	TSMC 16nm
Tesla P4	22 TOPS (INT8) / 5.5 TFLOPS (FP32)	8GB GDDR5	195 GB/s	PCIe 3.0	75W	TSMC 16nm

官方网站

访问官方网站

驱动下载

Windows

Linux

macOS

macOS Driver (Legacy)

操作系统支持

Windows	Linux	macOS	Android
✅	✅	⚠️ (仅AMD eGPU)	❌

版本历史

版本	发布时间	说明
CUDA 12.8	2025-Q2	支持 Blackwell 架构，B200/B100 全面支持
CUDA 12.4	2024-Q3	Hopper 性能优化，H200 支持
CUDA 12.0	2023-Q2	H100/H200 全面支持，FP8 原生支持
CUDA 11.8	2022-Q4	Ada Lovelace (L40S/L4) 支持
CUDA 11.0	2020-Q3	Ampere (A100) 支持，MIG 多实例
CUDA 10.0	2018-Q3	Volta (V100) Tensor Core 增强
CUDA 9.0	2017-Q3	Volta V100 首次支持

性能基准

型号	任务	性能指标
B200 × 8	Llama 3 405B 训练	~2.5 天 (预估)
H100 SXM5 × 8	GPT-3 175B 训练	~1.1 天 (MLPerf)
H100 SXM5	Llama 2 70B 推理	~120 tok/s (FP16)
H200 SXM5	Llama 3 70B 推理	~140 tok/s (FP8)
A100 SXM4 × 8	GPT-3 175B 训练	~3.5 天 (MLPerf)
L40S × 4	Whisper-large-v3	~18x 实时转录
L4 × 1	Stable Diffusion XL	~3.5s/img (batch=1)
Tesla T4 × 1	BERT-large 推理	~1,200 qps
RTX 4090	Stable Diffusion XL	~1.8s/img (batch=1)

定价信息

型号	参考价格	备注
B200 SXM	$30,000-45,000	2025 年量产
GB200 NVL	$60,000-80,000	超级芯片 (2 GPU + Grace CPU)
H100 SXM5	$25,000-35,000	市场价受供应影响波动大
H200 SXM5	$30,000-40,000	HBM3e 大显存版本
H800 SXM5	$15,000-20,000	中国特供版
A100 80GB	$10,000-15,000	已有大量二手市场
A800 80GB	$8,000-12,000	中国特供版
L40S	$7,500-10,000	推理/图形双用途
L4	$3,000-4,500	低功耗推理首选
Tesla T4	$2,000-3,000	入门推理卡（二手更低）
Tesla V100 32GB	$2,500-4,000	已停产，二手为主

快速安装

Linux（Ubuntu 22.04）

# 1. 安装 NVIDIA 驱动
sudo apt update
sudo apt install nvidia-driver-550

# 2. 安装 CUDA Toolkit
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update
sudo apt install -y cuda-toolkit-12-8

# 3. 验证安装
nvidia-smi
nvcc --version

Windows

下载并安装 NVIDIA Game Ready Driver 和 CUDA Toolkit，重启后运行 nvidia-smi 验证。

代码示例

Python (PyTorch)

import torch

# 检查 CUDA 可用性
print(f"CUDA available: {torch.cuda.is_available()}")
print(f"GPU: {torch.cuda.get_device_name(0)}")
print(f"CUDA version: {torch.cuda.version.cuda}")

# 简单张量运算
x = torch.randn(1000, 1000).cuda()
y = torch.matmul(x, x)
print(f"GPU matrix multiply result shape: {y.shape}")

CUDA C (Hello World)

#include <stdio.h>
__global__ void hello() { printf("Hello from GPU thread %d!\n", threadIdx.x); }
int main() {
    hello<<<1, 5>>>();
    cudaDeviceSynchronize();
    return 0;
}

编译: nvcc hello.cu -o hello && ./hello

架构特色

Blackwell 架构 (B200/B100): 双 Die 设计 (2080 亿晶体管)，第二代 Transformer Engine，FP4 推理支持；NVLink 第五代 1.8TB/s 互联；10TB/s 芯片间互连统一为单 GPU
Hopper 架构 (H100/H200): 引入 Transformer Engine，自动在 FP8/FP16 间切换；TMA (Tensor Memory Accelerator) 异步内存搬运；FP8 精度原生支持
Ada Lovelace 架构 (L40S/L4): 第四代 Tensor Core，FP8 推理支持；AV1 编码硬件加速；Omniverse/图形渲染优化
Ampere 架构 (A100/A40): 第三代 Tensor Core，TF32/BF16 原生支持；MIG 多实例 GPU 虚拟化；结构化稀疏 2x 加速
Volta 架构 (V100): 首次引入 Tensor Core (FP16/FP32 混合精度)；900GB/s HBM2 带宽
软件栈: CUDA → cuDNN → cuBLAS → TensorRT → Triton (OpenAI)，生态最为完善

模型兼容性

模型/框架	支持情况	备注
PyTorch	✅ 原生	CUDA 后端首选平台
TensorFlow	✅ 原生	完整 GPU 支持
JAX	✅ 原生	CUDA 后端
Llama / Qwen 等 LLM	✅	vLLM / TensorRT-LLM / llama.cpp 均支持
Stable Diffusion	✅	xFormers 加速
Whisper	✅	Faster-Whisper (CTranslate2)

大规模集群部署

基于全球 AI 超算集群数据统计，NVIDIA CUDA 在已公开的集群部署中累计超过 1,620,688 颗芯片，分布在 249 个集群中。

芯片型号统计

芯片型号	总部署量	集群数
NVIDIA H100 SXM5 80GB	948,792	78
NVIDIA A100	191,782	73
NVIDIA H200 SXM	178,800	8
NVIDIA V100	86,376	35
NVIDIA GH200	59,908	11
NVIDIA Tesla V100 SXM2	51,996	16
NVIDIA GB200	30,000	1
NVIDIA A100 SXM4 80 GB	20,652	12
NVIDIA A100 SXM4 40 GB	13,496	11
NVIDIA Tesla P100 PCIe 16GB	8,744	2
NVIDIA Tesla K40c	8,320	2
NVIDIA Tesla K20X	7,224	2
NVIDIA P100	5,154	3
NVIDIA Tesla P100 SXM2	2,156	1
NVIDIA Tesla K80	1,728	1
NVIDIA Tesla V100 DGXS 32 GB	1,536	1
NVIDIA Tesla K40m	1,472	1
NVIDIA Tesla V100 SXM2 32 GB	1,044	1
NVIDIA A100 PCIe	492	2
NVIDIA A40 PCIe	400	1
NVIDIA Quadro RTX 5000	360	1
NVIDIA L40	256	1

知名部署集群 Top 10

#	集群名称	芯片总数	芯片型号	运营方
1	xAI Colossus Memphis Phase 3	230,000	NVIDIA H100 SXM5 80GB ×200,000 + NVIDIA GB200 ×30,000	xAI, United States of America
2	xAI Colossus Memphis Phase 2	200,000	NVIDIA H100 SXM5 80GB ×150,000 + NVIDIA H200 SXM ×50,000	xAI, United States of America
3	xAI Colossus Memphis Phase 1	100,000	NVIDIA H100 SXM5 80GB ×100,000	xAI, United States of America
4	Meta 100k	100,000	NVIDIA H100 SXM5 80GB ×100,000	Meta AI, United States of America
5	OpenAI/Microsoft Goodyear Arizona	100,000	NVIDIA H100 SXM5 80GB ×100,000	Microsoft,OpenAI, United States of America
6	Oracle OCI Supercluster H200s	65,536	NVIDIA H200 SXM ×65,536	Oracle, United States of America
7	Tesla Cortex Phase 1	50,000	NVIDIA H100 SXM5 80GB ×50,000	Tesla, United States of America
8	CoreWeave H200s	42,000	NVIDIA H200 SXM ×42,000	CoreWeave, United States of America
9	Oracle OCI Supercluster A100s	32,768	NVIDIA A100 ×32,768	Oracle, United States of America
10	Microsoft GPT-4 cluster	25,000	NVIDIA A100 ×25,000	Microsoft,OpenAI, United States of America

NVIDIA GPU / CUDA

简介

规格参数

Blackwell Ultra / Blackwell 架构（至今）

Hopper 架构（至今）

Ada Lovelace 架构（至今）

Ampere 架构（至今）

Volta / Pascal 架构（至今）

官方网站

驱动下载

Windows

Linux

macOS

相关文档

操作系统支持

版本历史

性能基准

定价信息

快速安装

Linux（Ubuntu 22.04）

Windows

代码示例

Python (PyTorch)

CUDA C (Hello World)

架构特色

模型兼容性

大规模集群部署

芯片型号统计

知名部署集群 Top 10

相关产品

简介​

规格参数​

Blackwell Ultra / Blackwell 架构（ 至今）​

Hopper 架构（ 至今）​

Ada Lovelace 架构（ 至今）​

Ampere 架构（ 至今）​

Volta / Pascal 架构（ 至今）​

官方网站​

驱动下载​

Windows​

Linux​

macOS​

相关文档​

操作系统支持​

版本历史​

性能基准​

定价信息​

快速安装​

Linux（Ubuntu 22.04）​

Windows​

代码示例​

Python (PyTorch)​

CUDA C (Hello World)​

架构特色​

模型兼容性​

大规模集群部署​

芯片型号统计​

知名部署集群 Top 10​

相关产品​

简介

规格参数

Blackwell Ultra / Blackwell 架构（至今）

Hopper 架构（至今）

Ada Lovelace 架构（至今）

Ampere 架构（至今）

Volta / Pascal 架构（至今）

官方网站

驱动下载

Windows

Linux

macOS

相关文档

操作系统支持

版本历史

性能基准

定价信息

快速安装

Linux（Ubuntu 22.04）

Windows

代码示例

Python (PyTorch)

CUDA C (Hello World)

架构特色

模型兼容性

大规模集群部署

芯片型号统计

知名部署集群 Top 10

相关产品