AI 加速卡选型指南 2025：从训练到推理，如何选择最适合的芯片？

2025年6月1日 · 阅读需 5 分钟

AI Compute Cards Wiki Editorial

Industry Research Team

AI 加速卡市场在 2025 年已经变得前所未有的丰富。从 NVIDIA 的 Blackwell 到华为的昇腾 910B，从 Google 的 TPU v6 到 Groq 的 LPU，开发者面对的选择比以往任何时候都多。

但这既是好事，也是难题——选错了卡，要么多花冤枉钱，要么性能不达标。

本文从实际工作负载出发，帮你梳理选型逻辑。

第一步：先搞清楚你的场景

🏋️ 训练（Training）

训练是芯片选型中最苛刻的场景。你需要的是：

高 FP8/FP16 算力：训练的核心是矩阵乘法，Tensor Core 数量决定一切
大显存：模型参数、梯度、优化器状态都要驻留显存。Llama 3 70B 全精度训练至少需要 140GB+ 显存
高带宽互联：多卡训练时，卡间通信带宽决定了 scaling efficiency
软件生态：PyTorch/TensorFlow/JAX 是否原生支持

首选：NVIDIA H100/H200/B200（生态最成熟，没有之一）

国产替代：华为昇腾 910B（torch_npu 适配良好，但生态差距仍在）

预算敏感：AMD ROCm（MI300X 性价比突出，但框架支持略逊）

⚡ 推理（Inference）

推理又分两个子场景：

在线推理（延迟敏感）

要求首 token 延迟（TTFT）极低、吞吐稳定。适合：

NVIDIA L40S / L4：推理优化的 Ada Lovelace 架构，FP8 支持，性价比高
Groq LPU：如果你能用 GroqCloud，LPU 的确定性延迟（800+ tok/s on Llama 3 8B）是杀手锏
Google Cloud TPU v5e：Cloud 上部署 JAX 模型的低延迟选择

离线批量推理（吞吐优先）

不在乎单请求延迟，只看总吞吐量和成本：

NVIDIA H200：大显存（141GB HBM3e）意味着可以塞进更大的 batch，提升整体吞吐
Intel Gaudi 3：性价比优于同代 NVIDIA，适合预算敏感的批量场景
Cerebras WSE-3：晶圆级芯片，单芯片即可运行大模型，省去分布式通信开销

📱 端侧推理（Edge）

Qualcomm Hexagon NPU：Android 端 AI 推理首选，支持 INT8 量化
Apple Neural Engine：iPhone/Mac 上的 CoreML 加速
AMD Ryzen AI NPU（XDNA）：Ryzen 7040/8040 系列集成的端侧 NPU，适合 PC AI 应用
Hailo-8L：边缘设备独立 NPU，性价比高

第二步：看预算

🏦 不差钱（企业级训练集群）

配置	预估成本	适合
8× H100 SXM5 (80GB)	$200,000-280,000	大模型训练首选
8× H200 SXM (141GB)	$240,000-320,000	需要更大显存的训练
8× B200 SXM	$240,000-360,000	Blackwell 最新架构
GB200 NVL (2 GPU + Grace)	$60,000-80,000/套	超级芯片方案

💰 性价比优先（训练+推理）

配置	预估成本	适合
4× L40S (48GB)	$30,000-40,000	中小规模训练+推理
8× L4 (24GB)	$24,000-36,000	轻量训练，推理为主
8× A100 80GB (二手)	$80,000-120,000	成熟方案，二手市场充足
AMD MI300X × 8	~$100,000-150,000	如果软件栈适配到位

🆓 免费/低成本（学习+实验）

方案	成本	适合
GroqCloud API	免费额度	LLM 推理实验
Google Colab (T4)	$10/月起	小规模实验
Hugging Face Spaces	免费	Demo 部署
Oracle OCI (A100)	按需付费	灵活的实验环境

第三步：生态兼容性

硬件再好，软件不支持也是白搭。以下矩阵揭示了当前主流框架和芯片的适配情况：

PyTorch 生态

芯片	支持状态	备注
NVIDIA CUDA	✅ 原生支持	PyTorch 官方发行版默认 CUDA 后端
AMD ROCm	✅ 官方支持	PyTorch 有 ROCm 预编译包
华为昇腾	⚠️ torch_npu	API 对齐 CUDA，迁移成本低，但社区资源不如 CUDA
Apple Silicon	✅ MPS 后端	M1/M2/M3/M4 系列 GPU，PyTorch MPS 后端支持
Intel GPU	⚠️ XPU 后端	oneAPI 支持 PyTorch，但成熟度有限
Google TPU	⚠️ 需要 JAX	PyTorch 可以通过 PJRT 跑 TPU，但非主流

LLM 推理框架

芯片	vLLM	TensorRT-LLM	llama.cpp
NVIDIA	✅ 最佳	✅ 最强优化	✅
AMD ROCm	✅	❌	✅
华为昇腾	⚠️ 社区版	❌	⚠️
Apple Silicon	❌	❌	✅ 原生
Intel GPU	❌	❌	✅

按模型规模的推荐矩阵

模型规模	训练推荐	推理推荐
< 7B（小模型）	L4 / L40S / A100	L4 / L40S / T4 / Groq LPU
7B - 70B（中型）	4-8× H100 / A100 / 昇腾 910B	H200 / L40S / Groq LPU
70B - 405B（大型）	8-32× H100/B200 / 昇腾 910B	H200 (141GB) / Cerebras WSE
> 405B（超大型）	GB200 NVL / DGX 超级集群	H200/B200 大容量集群

总结：一张图看懂选型逻辑

你的场景是什么？
├─ 训练大模型 → NVIDIA CUDA（生态最佳）→ 预算够？H100/B200；国产替代？昇腾 910B
├─ 训练中等模型 → A100 / L40S / AMD MI300X 均可
├─ 在线推理（低延迟）
│  ├─ 自建 → L40S / L4 / H200
│  └─ API → GroqCloud（LLM 推理延迟王者）
├─ 批量推理（高吞吐）
│  ├─ NVIDIA H200（大显存高吞吐）
│  └─ Intel Gaudi 3 / Cerebras（性价比路线）
├─ 端侧推理
│  ├─ 手机 → Qualcomm / Apple NPU
│  ├─ PC → AMD Ryzen AI NPU
│  └─ 边缘设备 → Hailo-8L / NVIDIA Jetson
└─ 学习实验 → 云上 T4 / L4 / GroqCloud 免费额度

本站收录了以上提及的绝大部分芯片的驱动下载和开发文档链接，欢迎按分类浏览。

第一步：先搞清楚你的场景​

🏋️ 训练（Training）​

⚡ 推理（Inference）​

📱 端侧推理（Edge）​

第二步：看预算​

🏦 不差钱（企业级训练集群）​

💰 性价比优先（训练+推理）​

🆓 免费/低成本（学习+实验）​

第三步：生态兼容性​

PyTorch 生态​

LLM 推理框架​

按模型规模的推荐矩阵​

总结：一张图看懂选型逻辑​