Skip to main content

One post tagged with "摩尔线程"

摩尔线程 MTT 系列全功能 GPU

View all tags

国产 AI 芯片三巨头对比(2026):昇腾、寒武纪、摩尔线程,谁是中国版 H100?

· 8 min read
AI Hardware Analyst

在美国对华芯片出口管制背景下,中国 AI 芯片市场正在形成"三足鼎立"格局。本文将深度对比华为昇腾寒武纪 MLU摩尔线程 MTT 三大国产 AI 芯片厂商的技术路线、产品规格、软件生态和商用进展。


核心要点

  • 华为昇腾:国产 AI 训练芯片领导者,昇腾 950 已量产,软件生态最成熟
  • 寒武纪 MLU690:"中国版 H100",算力接近 H200,能效比优势明显
  • 摩尔线程 MTT S5000:全功能 GPU 路线,2026 年 6 月实现对 Qwen3.5、GLM-5.2 的 Day-0 适配
  • 共同挑战:受美国出口管制影响,主要面向中国市场,国际市场受限

一、厂商概览

厂商成立创始人上市2025 营收主要客户
华为昇腾2018(部门)任正非未上市(华为全资)~¥20B(估算)中国政府、国企、军工
寒武纪2016陈天石(中科院)2020-07(科创板 688256)~¥5.2B字节跳动、阿里、百度
摩尔线程2020张建中(原 NVIDIA 中国)2023-12(科创板 688495)~¥1.5B(估算)政府、国企、游戏公司

战略定位差异

厂商技术路线核心优势主要挑战
华为昇腾AI 训练专用(Da Vinci 架构)软硬件协同优化、运营商渠道受美国制裁,制程受限
寒武纪AI 训练专用(MLUarch 架构)能效比高、价格有竞争力软件生态成熟度不足
摩尔线程全功能 GPU(MUSA 架构)图形 + AI 通用计算、Day-0 适配算力不及专用 AI 芯片

二、旗舰产品对比

1. 华为昇腾 950DT(2026 年旗舰)

项目参数
BF16 算力1,000 TFLOPS
显存144GB HiZQ 2.0(自研 HBM)
显存带宽4 TB/s
TDP400W
制程N+2(7nm 改进版)
发布2026-04
量产2026-Q2
单价~¥80,000(估算)

关键优势

  • 大模型推理吞吐量高:128GB 大显存,对 DeepSeek R1(671B MoE)友好
  • 软件生态最成熟:CANN 算子覆盖率 ~85%,支持 PyTorch、TensorFlow
  • 运营商渠道强:中国移动、中国电信大规模采购

关键劣势

  • 制程受限:N+2 性能不及 TSMC 4nm
  • 能效比一般:400W TDP,能效比 2.5 TFLOPS/W

2. 寒武纪 MLU690(2026 年旗舰)

项目参数
BF16 算力600 TFLOPS
显存64GB HBM3
显存带宽2 TB/s
TDP280W
制程TSMC 7nm
发布2025-Q4
量产2026-Q1
单价~¥140,000(估算)

关键优势

  • 能效比最高:280W TDP,能效比 2.14 TFLOPS/W(H100 的 1.5 倍)
  • 价格有竞争力:~$20,000,比 H100 便宜 33%
  • 已获得头部客户订单:字节跳动、阿里、百度

关键劣势

  • 显存容量小:64GB 限制大模型训练规模
  • 软件生态不成熟:NeuWare 算子覆盖率 ~75-85%,复杂 LLM 需要手工优化

3. 摩尔线程 MTT S5000(2025 年旗舰)

项目参数
FP16 算力~1,000 TFLOPS(推测)
显存80GB GDDR6X
显存带宽1.6 TB/s
TDP~350W
制程TSMC 4nm(推测)
发布2025-02
量产2025-Q2
单价~¥50,000(估算)

关键优势

  • 全功能 GPU:图形 + AI + 通用计算,应用场景更广
  • Day-0 适配能力强:2026 年 6 月实现对 Qwen3.5、GLM-5.2、MiniMax M3 的 Day-0 适配
  • 价格最低:~¥50,000,性价比高

关键劣势

  • 算力不及专用 AI 芯片:FP16 算力约为 H100 的 50%
  • 显存带宽低:1.6 TB/s(H100 的 48%),限制大模型训练性能

三、算力对比(BF16/FP16)

芯片BF16 算力显存显存带宽TDP能效比
华为昇腾 950DT1,000 TFLOPS144GB4 TB/s400W2.5 TFLOPS/W
寒武纪 MLU690600 TFLOPS64GB2 TB/s280W2.14 TFLOPS/W
摩尔线程 MTT S5000~1,000 TFLOPS80GB1.6 TB/s~350W~2.86 TFLOPS/W
NVIDIA H100989 TFLOPS80GB3.35 TB/s700W1.41 TFLOPS/W
NVIDIA H200989 TFLOPS141GB4.8 TB/s700W1.41 TFLOPS/W

关键洞察

  1. 华为昇腾 950DT 算力最高(1,000 TFLOPS),但能效比一般
  2. 寒武纪 MLU690 能效比最高(2.14 TFLOPS/W),TDP 仅 280W
  3. 摩尔线程 MTT S5000 全功能优势,但显存带宽低

四、软件生态对比

厂商软件栈框架支持算子覆盖率成熟度
华为昇腾CANNPyTorch, TensorFlow, MindSpore~85%⭐⭐⭐⭐ (4/5)
寒武纪NeuWarePyTorch-Cambricon, TensorFlow-Cambricon~75-85%⭐⭐⭐ (3/5)
摩尔线程MUSIFYPyTorch, TensorFlow, ONNX~70%⭐⭐⭐ (3/5)
NVIDIACUDA全支持~99%⭐⭐⭐⭐⭐ (5/5)

软件生态成熟度评估

华为昇腾 CANN

  • ✅ 优势:算子覆盖率最高,支持 MindSpore(自研框架)
  • ❌ 劣势:学习曲线陡峭,文档不完整

寒武纪 NeuWare

  • ✅ 优势:兼容 PyTorch、TensorFlow,迁移成本低
  • ❌ 劣势:复杂 LLM 模型需要手工优化

摩尔线程 MUSIFY

  • ✅ 优势:Day-0 适配能力强,支持 ONNX
  • ❌ 劣势:算子覆盖率最低,图形 + AI 双引擎复杂度高

五、商用进展对比

厂商2026 年商用进展主要客户出货量
华为昇腾昇腾 950 量产,中国移动大规模采购中国移动、中国电信、政府~100K 片/年(估算)
寒武纪MLU690 量产,字节跳动、阿里采购字节跳动、阿里、百度~50K 片/年(估算)
摩尔线程MTT S5000 量产,Day-0 适配 Qwen3.5政府、国企、游戏公司~30K 片/年(估算)

2026 年 6 月最新动态

华为昇腾

  • ✅ 昇腾 950DT 全面放量
  • ✅ 与中国移动签署 10 亿元采购协议

寒武纪

  • ✅ MLU690 量产出货
  • ✅ 字节跳动采购 ~20K 片

摩尔线程

  • ✅ 完成对 Qwen3.5、GLM-5.2、MiniMax M3 的 Day-0 适配
  • ✅ MTT S5000 第二代发布

六、选型建议

场景 1:万亿参数训练(GPT-4 级)

推荐华为昇腾 950DT

理由

  • ✅ 144GB 大显存,支持超大规模模型训练
  • ✅ 软件生态最成熟,算子覆盖率 ~85%
  • ✅ 运营商渠道强,获中国政府支持

备选:寒武纪 MLU690(能效比高,但显存容量小)


场景 2:百亿-千亿参数训练

推荐寒武纪 MLU690

理由

  • ✅ 能效比最高(2.14 TFLOPS/W),TCO 低
  • ✅ 价格有竞争力(~$20,000)
  • ✅ 已获得头部客户(字节、阿里)验证

备选:华为昇腾 920(算力更强,但能效比一般)


场景 3:AI 推理(云端)

推荐华为昇腾 950PR(推理专用)

理由

  • ✅ 推理性能优化好,实际吞吐量高
  • ✅ 128GB 大显存,对 MoE 模型友好
  • ✅ 软件栈成熟,部署成本低

备选:摩尔线程 MTT S5000(全功能 GPU,推理 + 图形)


场景 4:边缘 AI / 端侧推理

推荐摩尔线程 MTT S5000

理由

  • ✅ 全功能 GPU,支持图形 + AI
  • ✅ 价格最低(~¥50,000)
  • ✅ Day-0 适配能力强

备选:华为昇腾 310(低功耗,8W TDP)


场景 5:国产化替代项目(政府、国企)

推荐华为昇腾 950DT

理由

  • ✅ 中国政府首选,运营商大规模采购
  • ✅ 软硬件协同优化,性能稳定
  • ✅ 获得国家大基金支持

备选:寒武纪 MLU690(能效比高,价格有竞争力)


七、未来路线图

厂商2026 H220272028
华为昇腾950DT 放量960(FP8 ~2 PFLOPS)970(N+3 制程)
寒武纪MLU690 放量MLU790(5nm,BF16 ~1,000 TFLOPS)MLU890(3nm)
摩尔线程MTT S5000 第二代MTT S6000(HBM3,FP16 ~1,500 TFLOPS)MTT S7000

八、总结:谁是中国版 H100?

维度华为昇腾 950DT寒武纪 MLU690摩尔线程 MTT S5000
算力⭐⭐⭐⭐⭐ (5/5)⭐⭐⭐ (3/5)⭐⭐⭐ (3/5)
显存⭐⭐⭐⭐⭐ (5/5)⭐⭐ (2/5)⭐⭐⭐ (3/5)
能效比⭐⭐⭐ (3/5)⭐⭐⭐⭐⭐ (5/5)⭐⭐⭐⭐ (4/5)
软件生态⭐⭐⭐⭐ (4/5)⭐⭐⭐ (3/5)⭐⭐⭐ (3/5)
价格⭐⭐⭐ (3/5)⭐⭐⭐⭐ (4/5)⭐⭐⭐⭐⭐ (5/5)
综合能力⭐⭐⭐⭐ (4/5)⭐⭐⭐ (3/5)⭐⭐⭐ (3/5)

最终结论

  • 华为昇腾 950DT最接近 H100 的国产 AI 训练芯片,综合能力最强
  • 寒武纪 MLU690能效比最高的国产 AI 芯片,TCO 最低
  • 摩尔线程 MTT S5000最便宜的全功能 GPU,适合边缘 AI 和图形 + AI 场景

参考资料


声明:本文数据基于公开资料整理,实际规格以厂商官方为准。MirrorFrog 持续更新国产 AI 芯片数据,欢迎提交修正。


更新日志

  • 2026-06-23:初始版本发布