跳到主要内容

国产 AI 芯片格局 2025:昇腾、寒武纪、海光谁主沉浮?

· 阅读需 5 分钟
AI Compute Cards Wiki Editorial
Industry Research Team

美国的出口管制持续升级,倒逼中国 AI 芯片产业加速自主化。2025 年的国产 AI 芯片市场已经不再是"能不能用"的讨论,而是"怎么选"的问题。

本文系统梳理国产 AI 芯片的主要玩家、核心产品、实际部署情况,帮助开发者和采购决策者看清竞争格局。


第一梯队:华为昇腾

产品:昇腾 910B(训练)、昇腾 310P/310(推理)

架构:达芬奇(Da Vinci)— 3D Cube 矩阵计算单元

核心数据

指标昇腾 910B昇腾 310P昇腾 310
FP16 算力400 TFLOPS
INT8 算力640 TOPS70 TOPS22 TOPS
显存64GB HBM2e24GB LPDDR4X8GB LPDDR4
TDP310W75W8W
制程7nm12nm12nm

生态现状

  • CANN 软件栈:对标 CUDA,从驱动到编译器的完整软件栈
  • torch_npu:PyTorch 的昇腾后端,API 与 CUDA 高度一致
  • MindSpore:华为自研框架,但市场接受度有限
  • 大模型适配:Llama、Qwen 等主流模型均已适配

实际部署:根据公开数据,昇腾 910B 已部署 6,000+ 芯片在华为盘古大模型集群中。

综合评价:国产 AI 芯片的绝对龙头。软件生态最完善,政企市场占有率最高。训练性能接近 H100 的 60-70%,推理性价比有竞争力。


第二梯队:寒武纪 & 海光

寒武纪 思元 MLU

产品:思元 590、思元 370

定位:AI 训练 + 推理

关键信息

  • 思元 590 算力对标 A100(FP32 ~30 TFLOPS,INT8 ~300 TOPS)
  • 自研 MLUarch 架构 + BangC 编程语言
  • 已有 PyTorch/TensorFlow 适配
  • 主要部署在智慧城市、安防、科研等领域

现状:寒武纪曾是最受关注的 AI 芯片独角兽,但近年面临商业化困难和持续亏损。产品迭代速度慢于昇腾,市场份额被挤压。

海光信息 深算 DCU

产品:深算 Z100

架构特点:兼容 CUDA(基于 AMD ROCm 路线)

关键信息

  • 深算一号 FP32 算力 ~15 TFLOPS
  • 最大的卖点:兼容 CUDA API,迁移成本低
  • 主要部署在超算中心、金融机构等信创场景
  • 制程受制于代工限制

现状:海光的兼容路线在短期内降低了软件迁移成本,但长期受制于 AMD 生态发展。


第三梯队:创业公司与跨界玩家

燧原科技 云燧 T21

  • 面向云端 AI 训练
  • 自研 GCU 架构 + 驭算软件栈
  • 已有 PyTorch 适配
  • 获得多家运营商和政府项目订单

壁仞科技 BR100/BR20X

  • BR100 号称 FP16 算力 1000+ TFLOPS(理论峰值)
  • 但实际落地进度慢于宣传
  • 2024 年后转向更务实的产品路线

摩尔线程 MTT S5000

  • 全功能 GPU(图形 + 计算 + AI)
  • MUSA 架构兼容 CUDA API
  • 驱动和软件栈成熟度在提升,但距离生产级 AI 训练仍有差距
  • 更适合推理和小规模训练

百度 昆仑芯 P800

  • 百度自研 AI 芯片
  • 部署在百度搜索、智能云、自动驾驶等内部场景
  • 公开技术细节有限,但内部大规模验证通过

国产 AI 芯片横向对比

芯片FP16 算力 (TFLOPS)显存 (GB)CUDA 兼容训练能力部署规模
昇腾 910B40064 HBM2e❌ CANN✅ 强6,000+
寒武纪 590~300❌ BangC⚠️千级
海光 DCU Z100~30 (FP32)⚠️ ROCm 路线⚠️千级
燧原 T21~20032 HBM2e❌ 自研百级
壁仞 BR100~1000 (声称)⚠️⚠️有限
百度昆仑芯 P800❌ 自研⚠️内部
摩尔线程 MTT S5000~10032 GDDR6⚠️ MUSA❌ 推理为主

软件生态对比(关键决策因素)

芯片PyTorchvLLM 推理Hugging FaceCUDA 代码移植成本
昇腾 910B⚠️ torch_npu⚠️ 社区⚠️ 部分中(需改 device 名 + 算子适配)
海光 DCU⚠️ ROCm 后端⚠️⚠️低(兼容 CUDA API)
寒武纪 590⚠️高(BangC 语言)
燧原 T21⚠️
摩尔线程 MTT⚠️中(MUSA 兼容 CUDA)

选型建议

政企 / 信创项目

首选昇腾 910B。原因:

  • 软件生态最完善,社区支持最强
  • 昇腾 + 麒麟/UOS 的组合是信创标配
  • CANN 工具链成熟度领先其他国产方案 2-3 年
  • 华为技术支持和文档最全面

CUDA 存量代码迁移

如果不想重写大量代码:

  • 海光 DCU(ROCm 兼容路线)迁移成本最低
  • 摩尔线程 MTT(MUSA 兼容路线)适合推理场景
  • 昇腾的 torch_npu 迁移成本居中,但长期生态回报最高

纯推理场景

  • 昇腾 310P:性价比最高的国产推理卡
  • 摩尔线程 MTT S5000:如果需求是国产化全功能 GPU
  • 寒武纪 370:特定场景(视觉、安防)有存量优势

2025-2026 展望

  1. 昇腾 920 即将到来:下一代昇腾将采用更先进制程,目标 FP8 算力对标 H200
  2. EDA 工具国产化:芯片设计工具的国产替代将帮助更多创业公司加速迭代
  3. CUDA 兼容成为标配:所有国产芯片都将至少提供 CUDA API 兼容层
  4. 推理市场加速分食:国产芯片在推理场景将率先达到可替代 NVIDIA 的水平
  5. 规模化部署验证:更多"万卡集群"国产方案将在运营商和金融行业落地

关键判断:国产 AI 芯片在 2025-2026 年将从"能用"跨入"好用"阶段。训练性能差距仍在(落后 1-2 代),但推理场景已经具备替换条件。


在 MirrorFrog 你可以找到以上所有国产芯片的驱动下载、开发文档和详细规格参数。