国产 AI 芯片格局 2025：昇腾、寒武纪、海光谁主沉浮？

2025年6月3日 · 阅读需 5 分钟

AI Compute Cards Wiki Editorial

Industry Research Team

美国的出口管制持续升级，倒逼中国 AI 芯片产业加速自主化。2025 年的国产 AI 芯片市场已经不再是"能不能用"的讨论，而是"怎么选"的问题。

本文系统梳理国产 AI 芯片的主要玩家、核心产品、实际部署情况，帮助开发者和采购决策者看清竞争格局。

第一梯队：华为昇腾

产品：昇腾 910B（训练）、昇腾 310P/310（推理）

架构：达芬奇（Da Vinci）— 3D Cube 矩阵计算单元

核心数据：

指标	昇腾 910B	昇腾 310P	昇腾 310
FP16 算力	400 TFLOPS	—	—
INT8 算力	640 TOPS	70 TOPS	22 TOPS
显存	64GB HBM2e	24GB LPDDR4X	8GB LPDDR4
TDP	310W	75W	8W
制程	7nm	12nm	12nm

生态现状：

CANN 软件栈：对标 CUDA，从驱动到编译器的完整软件栈
torch_npu：PyTorch 的昇腾后端，API 与 CUDA 高度一致
MindSpore：华为自研框架，但市场接受度有限
大模型适配：Llama、Qwen 等主流模型均已适配

实际部署：根据公开数据，昇腾 910B 已部署 6,000+ 芯片在华为盘古大模型集群中。

综合评价：国产 AI 芯片的绝对龙头。软件生态最完善，政企市场占有率最高。训练性能接近 H100 的 60-70%，推理性价比有竞争力。

第二梯队：寒武纪 & 海光

寒武纪思元 MLU

产品：思元 590、思元 370

定位：AI 训练 + 推理

关键信息：

思元 590 算力对标 A100（FP32 ~30 TFLOPS，INT8 ~300 TOPS）
自研 MLUarch 架构 + BangC 编程语言
已有 PyTorch/TensorFlow 适配
主要部署在智慧城市、安防、科研等领域

现状：寒武纪曾是最受关注的 AI 芯片独角兽，但近年面临商业化困难和持续亏损。产品迭代速度慢于昇腾，市场份额被挤压。

海光信息深算 DCU

产品：深算 Z100

架构特点：兼容 CUDA（基于 AMD ROCm 路线）

关键信息：

深算一号 FP32 算力 ~15 TFLOPS
最大的卖点：兼容 CUDA API，迁移成本低
主要部署在超算中心、金融机构等信创场景
制程受制于代工限制

现状：海光的兼容路线在短期内降低了软件迁移成本，但长期受制于 AMD 生态发展。

第三梯队：创业公司与跨界玩家

燧原科技云燧 T21

面向云端 AI 训练
自研 GCU 架构 + 驭算软件栈
已有 PyTorch 适配
获得多家运营商和政府项目订单

壁仞科技 BR100/BR20X

BR100 号称 FP16 算力 1000+ TFLOPS（理论峰值）
但实际落地进度慢于宣传
2024 年后转向更务实的产品路线

摩尔线程 MTT S5000

全功能 GPU（图形 + 计算 + AI）
MUSA 架构兼容 CUDA API
驱动和软件栈成熟度在提升，但距离生产级 AI 训练仍有差距
更适合推理和小规模训练

百度昆仑芯 P800

百度自研 AI 芯片
部署在百度搜索、智能云、自动驾驶等内部场景
公开技术细节有限，但内部大规模验证通过

国产 AI 芯片横向对比

芯片	FP16 算力 (TFLOPS)	显存 (GB)	CUDA 兼容	训练能力	部署规模
昇腾 910B	400	64 HBM2e	❌ CANN	✅ 强	6,000+
寒武纪 590	~300	—	❌ BangC	⚠️	千级
海光 DCU Z100	~30 (FP32)	—	⚠️ ROCm 路线	⚠️	千级
燧原 T21	~200	32 HBM2e	❌ 自研	✅	百级
壁仞 BR100	~1000 (声称)	—	⚠️	⚠️	有限
百度昆仑芯 P800	—	—	❌ 自研	⚠️	内部
摩尔线程 MTT S5000	~100	32 GDDR6	⚠️ MUSA	❌ 推理为主	—

软件生态对比（关键决策因素）

芯片	PyTorch	vLLM 推理	Hugging Face	CUDA 代码移植成本
昇腾 910B	⚠️ torch_npu	⚠️ 社区	⚠️ 部分	中（需改 device 名 + 算子适配）
海光 DCU	⚠️ ROCm 后端	⚠️	⚠️	低（兼容 CUDA API）
寒武纪 590	⚠️	❌	❌	高（BangC 语言）
燧原 T21	⚠️	❌	❌	高
摩尔线程 MTT	⚠️	❌	❌	中（MUSA 兼容 CUDA）

选型建议

政企 / 信创项目

首选昇腾 910B。原因：

软件生态最完善，社区支持最强
昇腾 + 麒麟/UOS 的组合是信创标配
CANN 工具链成熟度领先其他国产方案 2-3 年
华为技术支持和文档最全面

CUDA 存量代码迁移

如果不想重写大量代码：

海光 DCU（ROCm 兼容路线）迁移成本最低
摩尔线程 MTT（MUSA 兼容路线）适合推理场景
昇腾的 torch_npu 迁移成本居中，但长期生态回报最高

纯推理场景

昇腾 310P：性价比最高的国产推理卡
摩尔线程 MTT S5000：如果需求是国产化全功能 GPU
寒武纪 370：特定场景（视觉、安防）有存量优势

2025-2026 展望

昇腾 920 即将到来：下一代昇腾将采用更先进制程，目标 FP8 算力对标 H200
EDA 工具国产化：芯片设计工具的国产替代将帮助更多创业公司加速迭代
CUDA 兼容成为标配：所有国产芯片都将至少提供 CUDA API 兼容层
推理市场加速分食：国产芯片在推理场景将率先达到可替代 NVIDIA 的水平
规模化部署验证：更多"万卡集群"国产方案将在运营商和金融行业落地

关键判断：国产 AI 芯片在 2025-2026 年将从"能用"跨入"好用"阶段。训练性能差距仍在（落后 1-2 代），但推理场景已经具备替换条件。

在 MirrorFrog 你可以找到以上所有国产芯片的驱动下载、开发文档和详细规格参数。

第一梯队：华为昇腾​

第二梯队：寒武纪 & 海光​

寒武纪 思元 MLU​

海光信息 深算 DCU​

第三梯队：创业公司与跨界玩家​

燧原科技 云燧 T21​

壁仞科技 BR100/BR20X​

摩尔线程 MTT S5000​

百度 昆仑芯 P800​

国产 AI 芯片横向对比​

软件生态对比（关键决策因素）​

选型建议​

政企 / 信创项目​

CUDA 存量代码迁移​

纯推理场景​

2025-2026 展望​