Skip to main content

AI 训练专用 ASIC 完整指南

AI 训练 ASIC(Application-Specific Integrated Circuit)是专为 AI 训练优化的定制芯片,区别于通用 GPU。它们通过牺牲灵活性换取更高能效比更优单位算力成本

主流 AI 训练 ASIC 对比

型号厂商制程算力 (BF16)显存互联提供方式
TPU 8t (Trillium 2 训练)Google3nm~3,500 TFLOPS216GB HBM3D Torus + Axion CPUGoogle Cloud
TPU 8i (Trillium 2 推理)Google3nm~5,500 TFLOPS288GB HBM3D TorusGoogle Cloud
Google TPU v7 (Ironwood)Google5nm2,307 TFLOPS192GB HBM3D Torus, 9,216 PodGoogle Cloud
Google TPU v6e (Trillium)Google5nm918 TFLOPS32GB HBM2D Torus, 256 PodGoogle Cloud
Google TPU v5pGoogle5nm459 TFLOPS95GB HBM3D Torus, 8,960 PodGoogle Cloud
AWS Trainium 3 (Trn3)Amazon3nm1,300 TFLOPS144GB HBMNeuronLink-v4, 144 UltraServerAWS Cloud (2025-12 GA)
AWS Trainium 2Amazon4nm667 TFLOPS96GB HBMNeuronLink, 64 UltraServerAWS Cloud
AWS Trainium 1Amazon7nm191 TFLOPS32GB HBMNeuronLink, 16 集群AWS Cloud
Intel Gaudi 3Intel5nm1,835 TFLOPS128GB HBM2e24× 200GbE商用
Intel Gaudi 2Intel7nm432 TFLOPS96GB HBM2e24× 100GbE商用

Google TPU 系列演进

名称算力 (BF16)HBM互联主要用途
v4275 TFLOPS32GB3D Torus训练
v5p459 TFLOPS95GB3D Torus训练
v5e197 TFLOPS16GB2D Torus推理
v6eTrillium918 TFLOPS32GB2D Torus训练/推理
v7Ironwood2,307 TFLOPS192GB3D Torus推理优先
8tTrillium 2 训练~3,500 TFLOPS216GB3D Torus + Axion CPU训练专用
8iTrillium 2 推理~5,500 TFLOPS288GB3D Torus推理专用

选型建议

按云服务商

  • Google Cloud:TPU v5p / v6e / v7 Ironwood / TPU 8t (训练) + 8i (推理) 拆分 (2026-04)
  • AWSTrainium 3 (2025-12 GA, 3nm) / Trainium 2
  • 本地 / 私有云:Intel Gaudi 3(开放标准以太网)

按规模

  • 超大规模(万亿参数):TPU 8t (216GB) + Cerebras WSE-3 / WSE-4
  • 大规模(百亿参数):TPU v6e, Gaudi 3, Trainium 2/3
  • 中等规模(十亿参数):TPU v5e, Gaudi 2, Trainium 1
  • 400B+ 模型训练Trn3 UltraServer (144 颗, 52 PFLOPS FP8)

关键优势 vs GPU

  • 能效比:每瓦特性能 2-3× 优势
  • 单位算力成本:30-50% 优势
  • 互联规模:8,000+ 芯片 Pod
  • 定制架构:避免 GPU 通用性带来的浪费

关键劣势

  • 软件生态成熟度:CUDA 仍占主导
  • 供应商锁定:TPU 仅 Google Cloud
  • 模型迁移成本:需要重新优化

详细产品页

相关类型