国产 AI 芯片格局 2025:昇腾、寒武纪、海光谁主沉浮?
· 5 min read
美国的出口管制持续升级,倒逼中国 AI 芯片产业加速自主化。2025 年的国产 AI 芯片市场已经不再是"能不能用"的讨论,而是"怎么选"的问题。
本文系统梳理国产 AI 芯片的主要玩家、核心产品、实际部署情况,帮助开发者和采购决策者看清竞争格局。
第一梯队:华为昇腾
产品:昇腾 910B(训练)、昇腾 310P/310(推理)
架构:达芬奇(Da Vinci)— 3D Cube 矩阵计算单元
核心数据:
| 指标 | 昇腾 910B | 昇腾 310P | 昇腾 310 |
|---|---|---|---|
| FP16 算力 | 400 TFLOPS | — | — |
| INT8 算力 | 640 TOPS | 70 TOPS | 22 TOPS |
| 显存 | 64GB HBM2e | 24GB LPDDR4X | 8GB LPDDR4 |
| TDP | 310W | 75W | 8W |
| 制程 | 7nm | 12nm | 12nm |
生态现状:
- CANN 软件栈:对标 CUDA,从驱动到编译器的完整软件栈
- torch_npu:PyTorch 的昇腾后端,API 与 CUDA 高度一致
- MindSpore:华为自研框架,但市场接受度有限
- 大模型适配:Llama、Qwen 等主流模型均已适配
实际部署:根据公开数据,昇腾 910B 已部署 6,000+ 芯片在华为盘古大模型集群中。
综合评价:国产 AI 芯片的绝对龙头。软件生态最完善,政企市场占有率最高。训练性能接近 H100 的 60-70%,推理性价比有竞争力。
第二梯队:寒武纪 & 海光
寒武纪 思元 MLU
产品:思元 590、思元 370
定位:AI 训练 + 推理
关键信息:
- 思元 590 算力对标 A100(FP32 ~30 TFLOPS,INT8 ~300 TOPS)
- 自研 MLUarch 架构 + BangC 编程语言
- 已有 PyTorch/TensorFlow 适配
- 主要部署在智慧城市、安防、科研等领域
现状:寒武纪曾是最受关注的 AI 芯片独角兽,但近年面临商业化困难和持续亏损。产品迭代速度慢于昇腾,市场份额被挤压。
海光信息 深算 DCU
产品:深算 Z100
架构特点:兼容 CUDA(基于 AMD ROCm 路线)
关键信息:
- 深算一号 FP32 算力 ~15 TFLOPS
- 最大的卖点:兼容 CUDA API,迁移成本低
- 主要部署在超算中心、金融机构等信创场景
- 制程受制于代工限制
现状:海光的兼容路线在短期内降低了软件迁移成本,但长期受制于 AMD 生态发展。
第三梯队:创业公司与跨界玩家
燧原科技 云燧 T21
- 面向云端 AI 训练
- 自研 GCU 架构 + 驭算软件栈
- 已有 PyTorch 适配
- 获得多家运营商和政府项目订单
壁仞科技 BR100/BR20X
- BR100 号称 FP16 算力 1000+ TFLOPS(理论峰值)
- 但实际落地进度慢于宣传
- 2024 年后转向更务实的产品路线
摩尔线程 MTT S5000
- 全功能 GPU(图形 + 计算 + AI)
- MUSA 架构兼容 CUDA API
- 驱动和软件栈成熟度在提升,但距离生产级 AI 训练仍有差距
- 更适合推理和小规模训练
百度 昆仑芯 P800
- 百度自研 AI 芯片
- 部署在百度搜索、智能云、自动驾驶等内部场景
- 公开技术细节有限,但内部大规模验证通过
国产 AI 芯片横向对比
| 芯片 | FP16 算力 (TFLOPS) | 显存 (GB) | CUDA 兼容 | 训练能力 | 部署规模 |
|---|---|---|---|---|---|
| 昇腾 910B | 400 | 64 HBM2e | ❌ CANN | ✅ 强 | 6,000+ |
| 寒武纪 590 | ~300 | — | ❌ BangC | ⚠️ | 千级 |
| 海光 DCU Z100 | ~30 (FP32) | — | ⚠️ ROCm 路线 | ⚠️ | 千级 |
| 燧原 T21 | ~200 | 32 HBM2e | ❌ 自研 | ✅ | 百级 |
| 壁仞 BR100 | ~1000 (声称) | — | ⚠️ | ⚠️ | 有限 |
| 百度昆仑芯 P800 | — | — | ❌ 自研 | ⚠️ | 内部 |
| 摩尔线程 MTT S5000 | ~100 | 32 GDDR6 | ⚠️ MUSA | ❌ 推理为主 | — |
软件生态对比(关键决策因素)
| 芯片 | PyTorch | vLLM 推理 | Hugging Face | CUDA 代码移植成本 |
|---|---|---|---|---|
| 昇腾 910B | ⚠️ torch_npu | ⚠️ 社区 | ⚠️ 部分 | 中(需改 device 名 + 算子适配) |
| 海光 DCU | ⚠️ ROCm 后端 | ⚠️ | ⚠️ | 低(兼容 CUDA API) |
| 寒武纪 590 | ⚠️ | ❌ | ❌ | 高(BangC 语言) |
| 燧原 T21 | ⚠️ | ❌ | ❌ | 高 |
| 摩尔线程 MTT | ⚠️ | ❌ | ❌ | 中(MUSA 兼容 CUDA) |
选型建议
政企 / 信创项目
首选昇腾 910B。原因:
- 软件生态最完善,社区支持最强
- 昇腾 + 麒麟/UOS 的组合是信创标配
- CANN 工具链成熟度领先其他国产方案 2-3 年
- 华为技术支持和文档最全面
CUDA 存量代码迁移
如果不想重写大量代码:
- 海光 DCU(ROCm 兼容路线)迁移成本最低
- 摩尔线程 MTT(MUSA 兼容路线)适合推理场景
- 昇腾的 torch_npu 迁移成本居中,但长期生态回报最高
纯推理场景
- 昇腾 310P:性价比最高的国产推理卡
- 摩尔线程 MTT S5000:如果需求是国产化全功能 GPU
- 寒武纪 370:特定场景(视觉、安防)有存量优势
2025-2026 展望
- 昇腾 920 即将到来:下一代昇腾将采用更先进制程,目标 FP8 算力对标 H200
- EDA 工具国产化:芯片设计工具的国产替代将帮助更多创业公司加速迭代
- CUDA 兼容成为标配:所有国产芯片都将至少提供 CUDA API 兼容层
- 推理市场加速分食:国产芯片在推理场景将率先达到可替代 NVIDIA 的水平
- 规模化部署验证:更多"万卡集群"国产方案将在运营商和金融行业落地
关键判断:国产 AI 芯片在 2025-2026 年将从"能用"跨入"好用"阶段。训练性能差距仍在(落后 1-2 代),但推理场景已经具备替换条件。
在 MirrorFrog 你可以找到以上所有国产芯片的驱动下载、开发文档和详细规格参数。