跳到主要内容

AI 算力卡发展史时间线(2006-2026)

从通用 GPU 到专用 AI 加速器,20 年算力进化之路。

2006-2011:CUDA 时代开启

年份事件意义
2006NVIDIA G80 (8800 GTS) 发布,CUDA 1.0 问世通用 GPU 计算元年,GPU 不再只是显卡
2007NVIDIA Tesla C870 发布首款专用 GPU 计算卡,无显示输出
2008NVIDIA Tesla C1060 (GT200)240 个 CUDA 核心,首款双精度支持
2009NVIDIA Fermi (Tesla C2050)ECC 内存,错误校正,进入 HPC 市场
2010NVIDIA CUDA 3.0正式支持 C++,cuDNN 前身
2011NVIDIA Tesla M2090 (Fermi)双精度 665 GFLOPS,超算标配

2012-2016:深度学习爆发

年份事件意义
2012AlexNet (CUDA)GPU 加速深度学习一战成名
2012NVIDIA K20 (Kepler)15.9 TFLOPS FP32,HPC 爆发
2013NVIDIA Tesla K4012GB 显存,首款 12GB GPU
2014NVIDIA CUDA 6.0Unified Memory,简化 GPU 编程
2015NVIDIA Tesla P100 (Pascal)首款 HBM 显存,HPC 内存带宽革命
2016NVIDIA Tesla P100 (量产)NVLink 1.0,160 GB/s GPU 间互联

2016-2020:AI 专用加速卡诞生

年份事件意义
2016Google TPU v1 (推理)首款非 GPU 架构 AI 加速器,~92 TOPS INT8
2017Google TPU v2 (训练+推理)180 TFLOPS BF16,TPU Pod 机架
2017NVIDIA V100 (Volta)Tensor Core 问世,AI 训练专用单元
2018Google TPU v3420 TFLOPS BF16,液冷 TPU Pod
2019NVIDIA A100 (Ampere)MIG 多实例 GPU,7nm,40GB HBM2
2020Google TPU v4 (Intrepid)1,086 TFLOPS BF16,稀疏架构

2021-2023:大模型时代

年份事件意义
2021NVIDIA H100 (Hopper)Transformer Engine,FP8 支持,LLM 训练之王
2022Google TPU v5e (Cydonia)单芯片推理优化,1,028 TFLOPS
2022Google TPU v5p (Cydonia)训练优化,1,444 TFLOPS,32GB HBM
2023NVIDIA H200141GB HBM3e,4.8 TB/s,大模型推理优化
2023AMD MI300X192GB HBM3,对标 H100,开源 ROCm
2023Cerebras WSE-22.6 万亿晶体管,85 PFLOPS,晶圆级
2023Intel Gaudi 26nm,Habana Labs 被收购后首款产品

2024-2025:Blackwell 与国产替代

年份事件意义
2024 Q1NVIDIA B200 (Blackwell)9 PFLOPS,192GB HBM3e,2nm 工艺
2024 Q2NVIDIA GB2002× B200 + Grace CPU,LLM 推理怪兽
2024 Q3AMD MI325X256GB HBM3e,对标 H200
2024 Q4AMD MI350X (CDNA 4)288GB HBM3e,9.2 PFLOPS
2024 Q4Google TPU v6e (Trillium)918 TFLOPS,32GB HBM,已 GA
2025 Q1Intel Gaudi 31,600 TFLOPS,128GB SRAM,对标 H100
2025 Q2NVIDIA B300 Ultra14 PFLOPS,288GB HBM3e,1,400W
2025 Q2AMD MI355X10.1 PFLOPS (MXFP6),288GB HBM3e
2025 H2华为昇腾 910C双 Die,780 TFLOPS,国产替代主力

2026(官宣 / 预期)

产品厂商关键信息
NVIDIA Rubin R200NVIDIA288GB HBM4,50 PFLOPS FP4 (稀疏),Vera CPU
AMD MI400 + HeliosAMD432GB HBM4,40 PFLOPS FP4,260 TB/s UALink
Google TPU Ironwood (v7)Google192GB HBM,~2,000 TFLOPS BF16
Cerebras WSE-4Cerebras1.4 万亿晶体管,125 PFLOPS FP8
AWS Trainium 3AWS3nm,~2,000 TFLOPS,128GB HBM
华为昇腾 920华为900+ TFLOPS BF16,4 Tbps 片间互联

算力增长曲线(FP16 训练算力)

年份 产品 FP16 算力
----------------------------------------
2006 Tesla C870 ~0.5 TFLOPS
2010 Tesla C2050 ~1.3 TFLOPS
2016 Tesla P100 ~10 TFLOPS
2017 V100 ~15 TFLOPS
2020 A100 ~312 TFLOPS
2021 H100 ~1,979 TFLOPS
2023 H200 ~1,979 TFLOPS (显存↑)
2024 B200 ~4,500 TFLOPS
2025 B300 Ultra ~7,000 TFLOPS
2026 Rubin R200 ~10,000 TFLOPS (FP4: 50 PFLOPS)
2026 AMD MI400 ~10,000 TFLOPS (FP4: 40 PFLOPS)

趋势:每 2-3 年算力 ~4×(摩尔定律 × Tensor Core 架构创新)

关键架构演进

NVIDIA 架构代号

架构年份关键创新
Tesla (G80)2006CUDA 1.0,通用 GPU 计算
Fermi2010ECC 内存,双精度
Kepler2012GPU Boost,动态频率
Maxwell2014能效优化
Pascal2016HBM 显存,NVLink 1.0
Volta2017Tensor Core,AI 训练专用
Turing2018RT Core,消费级光追
Ampere2020MIG,多实例 GPU
Hopper2022Transformer Engine,FP8
Blackwell20242nm,9 PFLOPS,192GB HBM3e
Rubin2026HBM4,50 PFLOPS FP4,Vera CPU

Google TPU 代际

年份关键创新
v12016首款 ASIC AI 加速器,推理专用
v22017训练+推理,TPU Pod
v32018液冷,~420 TFLOPS
v42020稀疏架构,1,086 TFLOPS
v5e2022推理优化,单芯片
v5p2022训练优化,32GB HBM
v6e (Trillium)2024918 TFLOPS,32GB HBM
v6p2024训练优化,64GB HBM
8t / 8i2026训练/推理拆分架构
Ironwood (v7)2026192GB HBM,~2,000 TFLOPS

贡献与纠错

发现时间线有误或缺失关键事件?提交 PR 帮助我们完善!


← 返回首页 | 未来路线图 → | 完整对比表 →