跳到主要内容

2 篇博文 含有标签「寒武纪」

寒武纪 MLU 系列 AI 训练芯片

查看所有标签

国产 AI 芯片三巨头对比(2026):昇腾、寒武纪、摩尔线程,谁是中国版 H100?

· 阅读需 8 分钟
AI Hardware Analyst

在美国对华芯片出口管制背景下,中国 AI 芯片市场正在形成"三足鼎立"格局。本文将深度对比华为昇腾寒武纪 MLU摩尔线程 MTT 三大国产 AI 芯片厂商的技术路线、产品规格、软件生态和商用进展。


核心要点

  • 华为昇腾:国产 AI 训练芯片领导者,昇腾 950 已量产,软件生态最成熟
  • 寒武纪 MLU690:"中国版 H100",算力接近 H200,能效比优势明显
  • 摩尔线程 MTT S5000:全功能 GPU 路线,2026 年 6 月实现对 Qwen3.5、GLM-5.2 的 Day-0 适配
  • 共同挑战:受美国出口管制影响,主要面向中国市场,国际市场受限

一、厂商概览

厂商成立创始人上市2025 营收主要客户
华为昇腾2018(部门)任正非未上市(华为全资)~¥20B(估算)中国政府、国企、军工
寒武纪2016陈天石(中科院)2020-07(科创板 688256)~¥5.2B字节跳动、阿里、百度
摩尔线程2020张建中(原 NVIDIA 中国)2023-12(科创板 688495)~¥1.5B(估算)政府、国企、游戏公司

战略定位差异

厂商技术路线核心优势主要挑战
华为昇腾AI 训练专用(Da Vinci 架构)软硬件协同优化、运营商渠道受美国制裁,制程受限
寒武纪AI 训练专用(MLUarch 架构)能效比高、价格有竞争力软件生态成熟度不足
摩尔线程全功能 GPU(MUSA 架构)图形 + AI 通用计算、Day-0 适配算力不及专用 AI 芯片

二、旗舰产品对比

1. 华为昇腾 950DT(2026 年旗舰)

项目参数
BF16 算力1,000 TFLOPS
显存144GB HiZQ 2.0(自研 HBM)
显存带宽4 TB/s
TDP400W
制程N+2(7nm 改进版)
发布2026-04
量产2026-Q2
单价~¥80,000(估算)

关键优势

  • 大模型推理吞吐量高:128GB 大显存,对 DeepSeek R1(671B MoE)友好
  • 软件生态最成熟:CANN 算子覆盖率 ~85%,支持 PyTorch、TensorFlow
  • 运营商渠道强:中国移动、中国电信大规模采购

关键劣势

  • 制程受限:N+2 性能不及 TSMC 4nm
  • 能效比一般:400W TDP,能效比 2.5 TFLOPS/W

2. 寒武纪 MLU690(2026 年旗舰)

项目参数
BF16 算力600 TFLOPS
显存64GB HBM3
显存带宽2 TB/s
TDP280W
制程TSMC 7nm
发布2025-Q4
量产2026-Q1
单价~¥140,000(估算)

关键优势

  • 能效比最高:280W TDP,能效比 2.14 TFLOPS/W(H100 的 1.5 倍)
  • 价格有竞争力:~$20,000,比 H100 便宜 33%
  • 已获得头部客户订单:字节跳动、阿里、百度

关键劣势

  • 显存容量小:64GB 限制大模型训练规模
  • 软件生态不成熟:NeuWare 算子覆盖率 ~75-85%,复杂 LLM 需要手工优化

3. 摩尔线程 MTT S5000(2025 年旗舰)

项目参数
FP16 算力~1,000 TFLOPS(推测)
显存80GB GDDR6X
显存带宽1.6 TB/s
TDP~350W
制程TSMC 4nm(推测)
发布2025-02
量产2025-Q2
单价~¥50,000(估算)

关键优势

  • 全功能 GPU:图形 + AI + 通用计算,应用场景更广
  • Day-0 适配能力强:2026 年 6 月实现对 Qwen3.5、GLM-5.2、MiniMax M3 的 Day-0 适配
  • 价格最低:~¥50,000,性价比高

关键劣势

  • 算力不及专用 AI 芯片:FP16 算力约为 H100 的 50%
  • 显存带宽低:1.6 TB/s(H100 的 48%),限制大模型训练性能

三、算力对比(BF16/FP16)

芯片BF16 算力显存显存带宽TDP能效比
华为昇腾 950DT1,000 TFLOPS144GB4 TB/s400W2.5 TFLOPS/W
寒武纪 MLU690600 TFLOPS64GB2 TB/s280W2.14 TFLOPS/W
摩尔线程 MTT S5000~1,000 TFLOPS80GB1.6 TB/s~350W~2.86 TFLOPS/W
NVIDIA H100989 TFLOPS80GB3.35 TB/s700W1.41 TFLOPS/W
NVIDIA H200989 TFLOPS141GB4.8 TB/s700W1.41 TFLOPS/W

关键洞察

  1. 华为昇腾 950DT 算力最高(1,000 TFLOPS),但能效比一般
  2. 寒武纪 MLU690 能效比最高(2.14 TFLOPS/W),TDP 仅 280W
  3. 摩尔线程 MTT S5000 全功能优势,但显存带宽低

四、软件生态对比

厂商软件栈框架支持算子覆盖率成熟度
华为昇腾CANNPyTorch, TensorFlow, MindSpore~85%⭐⭐⭐⭐ (4/5)
寒武纪NeuWarePyTorch-Cambricon, TensorFlow-Cambricon~75-85%⭐⭐⭐ (3/5)
摩尔线程MUSIFYPyTorch, TensorFlow, ONNX~70%⭐⭐⭐ (3/5)
NVIDIACUDA全支持~99%⭐⭐⭐⭐⭐ (5/5)

软件生态成熟度评估

华为昇腾 CANN

  • ✅ 优势:算子覆盖率最高,支持 MindSpore(自研框架)
  • ❌ 劣势:学习曲线陡峭,文档不完整

寒武纪 NeuWare

  • ✅ 优势:兼容 PyTorch、TensorFlow,迁移成本低
  • ❌ 劣势:复杂 LLM 模型需要手工优化

摩尔线程 MUSIFY

  • ✅ 优势:Day-0 适配能力强,支持 ONNX
  • ❌ 劣势:算子覆盖率最低,图形 + AI 双引擎复杂度高

五、商用进展对比

厂商2026 年商用进展主要客户出货量
华为昇腾昇腾 950 量产,中国移动大规模采购中国移动、中国电信、政府~100K 片/年(估算)
寒武纪MLU690 量产,字节跳动、阿里采购字节跳动、阿里、百度~50K 片/年(估算)
摩尔线程MTT S5000 量产,Day-0 适配 Qwen3.5政府、国企、游戏公司~30K 片/年(估算)

2026 年 6 月最新动态

华为昇腾

  • ✅ 昇腾 950DT 全面放量
  • ✅ 与中国移动签署 10 亿元采购协议

寒武纪

  • ✅ MLU690 量产出货
  • ✅ 字节跳动采购 ~20K 片

摩尔线程

  • ✅ 完成对 Qwen3.5、GLM-5.2、MiniMax M3 的 Day-0 适配
  • ✅ MTT S5000 第二代发布

六、选型建议

场景 1:万亿参数训练(GPT-4 级)

推荐华为昇腾 950DT

理由

  • ✅ 144GB 大显存,支持超大规模模型训练
  • ✅ 软件生态最成熟,算子覆盖率 ~85%
  • ✅ 运营商渠道强,获中国政府支持

备选:寒武纪 MLU690(能效比高,但显存容量小)


场景 2:百亿-千亿参数训练

推荐寒武纪 MLU690

理由

  • ✅ 能效比最高(2.14 TFLOPS/W),TCO 低
  • ✅ 价格有竞争力(~$20,000)
  • ✅ 已获得头部客户(字节、阿里)验证

备选:华为昇腾 920(算力更强,但能效比一般)


场景 3:AI 推理(云端)

推荐华为昇腾 950PR(推理专用)

理由

  • ✅ 推理性能优化好,实际吞吐量高
  • ✅ 128GB 大显存,对 MoE 模型友好
  • ✅ 软件栈成熟,部署成本低

备选:摩尔线程 MTT S5000(全功能 GPU,推理 + 图形)


场景 4:边缘 AI / 端侧推理

推荐摩尔线程 MTT S5000

理由

  • ✅ 全功能 GPU,支持图形 + AI
  • ✅ 价格最低(~¥50,000)
  • ✅ Day-0 适配能力强

备选:华为昇腾 310(低功耗,8W TDP)


场景 5:国产化替代项目(政府、国企)

推荐华为昇腾 950DT

理由

  • ✅ 中国政府首选,运营商大规模采购
  • ✅ 软硬件协同优化,性能稳定
  • ✅ 获得国家大基金支持

备选:寒武纪 MLU690(能效比高,价格有竞争力)


七、未来路线图

厂商2026 H220272028
华为昇腾950DT 放量960(FP8 ~2 PFLOPS)970(N+3 制程)
寒武纪MLU690 放量MLU790(5nm,BF16 ~1,000 TFLOPS)MLU890(3nm)
摩尔线程MTT S5000 第二代MTT S6000(HBM3,FP16 ~1,500 TFLOPS)MTT S7000

八、总结:谁是中国版 H100?

维度华为昇腾 950DT寒武纪 MLU690摩尔线程 MTT S5000
算力⭐⭐⭐⭐⭐ (5/5)⭐⭐⭐ (3/5)⭐⭐⭐ (3/5)
显存⭐⭐⭐⭐⭐ (5/5)⭐⭐ (2/5)⭐⭐⭐ (3/5)
能效比⭐⭐⭐ (3/5)⭐⭐⭐⭐⭐ (5/5)⭐⭐⭐⭐ (4/5)
软件生态⭐⭐⭐⭐ (4/5)⭐⭐⭐ (3/5)⭐⭐⭐ (3/5)
价格⭐⭐⭐ (3/5)⭐⭐⭐⭐ (4/5)⭐⭐⭐⭐⭐ (5/5)
综合能力⭐⭐⭐⭐ (4/5)⭐⭐⭐ (3/5)⭐⭐⭐ (3/5)

最终结论

  • 华为昇腾 950DT最接近 H100 的国产 AI 训练芯片,综合能力最强
  • 寒武纪 MLU690能效比最高的国产 AI 芯片,TCO 最低
  • 摩尔线程 MTT S5000最便宜的全功能 GPU,适合边缘 AI 和图形 + AI 场景

参考资料


声明:本文数据基于公开资料整理,实际规格以厂商官方为准。MirrorFrog 持续更新国产 AI 芯片数据,欢迎提交修正。


更新日志

  • 2026-06-23:初始版本发布

寒武纪 MLU690 vs NVIDIA H100 深度对比:国产 AI 芯片能否替代 H100?

· 阅读需 6 分钟
AI Hardware Analyst

2026 年,在美国对华芯片出口管制背景下,寒武纪 MLU690 作为"中国版 H100"备受关注。本文从算力、显存、功耗、软件生态、实测性能、价格等维度深度对比,帮助您做出选型决策。

核心结论(先看这里)

维度MLU690H100胜者差距
BF16 算力600 TFLOPS989 TFLOPSH100+65%
显存容量64GB HBM380GB HBM3H100+25%
显存带宽2 TB/s3.35 TB/sH100+68%
TDP280W700WMLU690-60%
能效比2.14 TFLOPS/W1.41 TFLOPS/WMLU690+52%
软件生态NeuWare(75% 覆盖率)CUDA(100% 覆盖率)H100差距大
价格~¥140,000~¥200,000MLU690-30%
供货国内现货受管制MLU690

一句话总结:MLU690 算力约为 H100 的 60%,但功耗仅 40%,价格仅 70%,适合中国市场 AI 训练和推理。


1. 规格对比(详细)

1.1 算力对比

精度MLU690H100 SXM5H200 SXM5说明
FP8~300 TFLOPS(推测)3,958 TFLOPS3,958 TFLOPSH100 支持 FP8,MLU690 可能不支持
BF16/FP16600 TFLOPS989 TFLOPS989 TFLOPSH100 领先 65%
FP32~150 TFLOPS(推测)60 TFLOPS60 TFLOPSMLU690 推测值,H100 实际更高
INT81,200 TOPS1,979 TOPS1,979 TOPSH100 领先 65%

关键发现

  • ✅ MLU690 在 BF16 精度下达到 H100 的 60% 算力
  • ⚠️ H100 支持 FP8(4 位),MLU690 可能不支持(需要确认)
  • ⚠️ H100 的 INT8 算力更高,适合推理场景

1.2 显存对比

项目MLU690H100H200说明
容量64GB HBM380GB HBM3141GB HBM3eH200 容量最大
带宽2 TB/s3.35 TB/s4.8 TB/sH200 带宽最高
类型HBM3HBM3HBM3eH200 使用最新 HBM3e

关键发现

  • ⚠️ MLU690 显存容量比 H100 少 20%(64GB vs 80GB)
  • ⚠️ MLU690 显存带宽比 H100 低 40%(2 TB/s vs 3.35 TB/s)
  • ❌ 运行 70B+ 参数模型时,MLU690 可能显存不足(需要模型并行)

1.3 功耗对比

项目MLU690H100H200
TDP280W700W700W
能效比(FP16/W)2.14 TFLOPS/W1.41 TFLOPS/W1.41 TFLOPS/W
8 卡服务器功耗~3.5kW~6kW~6kW
年电费(¥0.6/kWh)~¥18,400~¥36,800~¥36,800

关键发现

  • MLU690 功耗仅 H100 的 40%,数据中心电力成本大幅降低
  • MLU690 能效比领先 52%,更适合大规模部署
  • ✅ 对于推理场景(功耗敏感),MLU690 优势明显

2. 软件生态对比

2.1 框架支持

框架MLU690(NeuWare)H100(CUDA)说明
PyTorch✅ 支持(PyTorch-Cambricon)✅ 原生支持MLU690 需要额外安装插件
TensorFlow✅ 支持(TensorFlow-Cambricon)✅ 原生支持同上
JAX⚠️ 部分支持✅ 原生支持MLU690 支持有限
ONNX⚠️ 部分支持✅ 原生支持同上
vLLM⚠️ 适配中✅ 原生支持MLU690 需要等待社区适配

2.2 算子覆盖率

类别MLU690H100说明
基础算子✅ 95%✅ 100%卷积、矩阵乘法等
Transformer 算子✅ 85%✅ 100%Attention、LayerNorm 等
自定义算子⚠️ 需要手写✅ CUDA C++MLU690 开发难度大
LLM 推理优化⚠️ 基础支持✅ 完善(FlashAttention、PagedAttention)H100 领先

关键发现

  • ⚠️ NeuWare 生态仅 5-6 年发展,算子覆盖率约 75-85%
  • ❌ 复杂 LLM 模型(如 GPT-4、Claude)可能需要手工优化
  • ✅ 常见模型(Llama、Qwen、GLM)已基本适配

3. 实测性能对比

3.1 训练性能

模型MLU690(训练时间)H100(训练时间)加速比
Llama 7B~48 小时(推测)~30 小时1.6x
Llama 70B~7 天(推测)~4.5 天1.6x
Qwen 72B~8 天(推测)~5 天1.6x

注意:以上数据为推测,实际性能取决于软件优化程度。

3.2 推理性能

模型MLU690(tok/s)H100(tok/s)说明
Llama 7B~80 tok/s(推测)~120 tok/sH100 领先 50%
Llama 70B~20 tok/s(推测)~35 tok/sH100 领先 75%
Qwen 72B~18 tok/s(推测)~30 tok/sH100 领先 67%

关键发现

  • ⚠️ H100 推理性能领先 50-75%
  • ✅ 但 MLU690 功耗仅 40%,能效比更高
  • ✅ 对于成本敏感的推理场景,MLU690 更划算

4. 价格对比

4.1 硬件采购成本

项目MLU690H100H200
单卡价格(国内)~¥140,000~¥200,000~¥300,000
8 卡服务器(含整机)~¥1,200,000~¥1,800,000~¥2,600,000
成本差-+50%+117%

4.2 TCO(3 年)

项目MLU690H100说明
硬件采购¥1,200,000¥1,800,000MLU690 便宜 33%
电费(3 年)¥55,200¥110,400MLU690 便宜 50%
机房成本¥150,000¥250,000MLU690 便宜 40%
TCO(3 年)¥1,405,200¥2,160,400MLU690 便宜 35%

关键发现

  • MLU690 的 TCO 比 H100 低 35%
  • ✅ 对于大规模部署(100+ 卡),成本优势明显

5. 选型建议

5.1 选 MLU690,如果...

  • ✅ 您的业务主要在中国市场
  • ✅ 您受美国出口管制影响,无法采购 H100/H200
  • ✅ 您对功耗敏感(边缘数据中心、电力成本高的地区)
  • ✅ 您的模型是常见架构(Llama、Qwen、GLM)
  • ✅ 您有国产化替代需求(政府、国企、军工)

5.2 选 H100/H200,如果...

  • ✅ 您的业务在全球市场
  • ✅ 您需要训练顶级前沿模型(GPT-4 级)
  • ✅ 您的模型使用复杂算子(需要 CUDA 生态)
  • ✅ 您对性能要求极高(低延迟推理)
  • ✅ 您可以合法采购 H100/H200

5.3 混合部署(推荐)

场景推荐方案
训练H100(高性能) + MLU690(低成本扩充)
推理MLU690(成本敏感) + H100(低延迟)
国产化项目全部 MLU690
国际市场全部 H100/H200

6. 未来展望

6.1 MLU690 的不足

  • ⚠️ 软件生态不成熟:算子覆盖率 75-85%,复杂模型需要手工优化
  • ⚠️ 显存容量小:64GB 限制了对 70B+ 参数模型的支持
  • ⚠️ 互联性能弱:Cambricon Link 带宽低于 NVLink
  • ⚠️ 国际市场受限:受美国出口管制影响

6.2 MLU690 的改进方向

  • 📅 MLU790(2027 年):预计 5nm 制程,算力提升 2x
  • 📅 显存升级:下一代可能支持 HBM3e,容量提升至 128GB
  • 📅 软件优化:NeuWare 生态持续改进,算子覆盖率目标 95%

7. 总结

维度MLU690H100推荐场景
算力⭐⭐⭐⭐⭐⭐⭐⭐⭐H100 适合顶级训练
显存⭐⭐⭐⭐⭐⭐⭐H100 适合大模型
功耗⭐⭐⭐⭐⭐⭐⭐⭐MLU690 适合推理
生态⭐⭐⭐⭐⭐⭐⭐⭐H100 适合复杂模型
价格⭐⭐⭐⭐⭐⭐⭐⭐MLU690 适合大规模部署
国产化⭐⭐⭐⭐⭐MLU690 适合中国市场

最终建议

  • 🇨🇳 中国市场:优先选择 MLU690(国产化 + 低成本)
  • 🌍 国际市场:优先选择 H100/H200(性能 + 生态)
  • 💡 混合部署:训练用 H100,推理用 MLU690

参考资料


声明:本文数据基于公开资料和合理估算,实际性能以厂商官方测试为准。MLU690 的软件生态在快速发展中,建议持续关注 NeuWare 更新。

最后更新:2026-06-23