2 篇博文含有标签「寒武纪」

寒武纪 MLU 系列 AI 训练芯片

查看所有标签

国产 AI 芯片三巨头对比（2026）：昇腾、寒武纪、摩尔线程，谁是中国版 H100？

2026年6月23日 · 阅读需 8 分钟

Charles Qing

AI Hardware Analyst

在美国对华芯片出口管制背景下，中国 AI 芯片市场正在形成"三足鼎立"格局。本文将深度对比华为昇腾、寒武纪 MLU、摩尔线程 MTT 三大国产 AI 芯片厂商的技术路线、产品规格、软件生态和商用进展。

核心要点

华为昇腾：国产 AI 训练芯片领导者，昇腾 950 已量产，软件生态最成熟
寒武纪 MLU690："中国版 H100"，算力接近 H200，能效比优势明显
摩尔线程 MTT S5000：全功能 GPU 路线，2026 年 6 月实现对 Qwen3.5、GLM-5.2 的 Day-0 适配
共同挑战：受美国出口管制影响，主要面向中国市场，国际市场受限

一、厂商概览

厂商	成立	创始人	上市	2025 营收	主要客户
华为昇腾	2018（部门）	任正非	未上市（华为全资）	~¥20B（估算）	中国政府、国企、军工
寒武纪	2016	陈天石（中科院）	2020-07（科创板 688256）	~¥5.2B	字节跳动、阿里、百度
摩尔线程	2020	张建中（原 NVIDIA 中国）	2023-12（科创板 688495）	~¥1.5B（估算）	政府、国企、游戏公司

战略定位差异

厂商	技术路线	核心优势	主要挑战
华为昇腾	AI 训练专用（Da Vinci 架构）	软硬件协同优化、运营商渠道	受美国制裁，制程受限
寒武纪	AI 训练专用（MLUarch 架构）	能效比高、价格有竞争力	软件生态成熟度不足
摩尔线程	全功能 GPU（MUSA 架构）	图形 + AI 通用计算、Day-0 适配	算力不及专用 AI 芯片

二、旗舰产品对比

1. 华为昇腾 950DT（2026 年旗舰）

项目	参数
BF16 算力	1,000 TFLOPS
显存	144GB HiZQ 2.0（自研 HBM）
显存带宽	4 TB/s
TDP	400W
制程	N+2（7nm 改进版）
发布	2026-04
量产	2026-Q2
单价	~¥80,000（估算）

关键优势：

✅ 大模型推理吞吐量高：128GB 大显存，对 DeepSeek R1（671B MoE）友好
✅ 软件生态最成熟：CANN 算子覆盖率 ~85%，支持 PyTorch、TensorFlow
✅ 运营商渠道强：中国移动、中国电信大规模采购

关键劣势：

❌ 制程受限：N+2 性能不及 TSMC 4nm
❌ 能效比一般：400W TDP，能效比 2.5 TFLOPS/W

2. 寒武纪 MLU690（2026 年旗舰）

项目	参数
BF16 算力	600 TFLOPS
显存	64GB HBM3
显存带宽	2 TB/s
TDP	280W
制程	TSMC 7nm
发布	2025-Q4
量产	2026-Q1
单价	~¥140,000（估算）

关键优势：

✅ 能效比最高：280W TDP，能效比 2.14 TFLOPS/W（H100 的 1.5 倍）
✅ 价格有竞争力：~$20,000，比 H100 便宜 33%
✅ 已获得头部客户订单：字节跳动、阿里、百度

关键劣势：

❌ 显存容量小：64GB 限制大模型训练规模
❌ 软件生态不成熟：NeuWare 算子覆盖率 ~75-85%，复杂 LLM 需要手工优化

3. 摩尔线程 MTT S5000（2025 年旗舰）

项目	参数
FP16 算力	~1,000 TFLOPS（推测）
显存	80GB GDDR6X
显存带宽	1.6 TB/s
TDP	~350W
制程	TSMC 4nm（推测）
发布	2025-02
量产	2025-Q2
单价	~¥50,000（估算）

关键优势：

✅ 全功能 GPU：图形 + AI + 通用计算，应用场景更广
✅ Day-0 适配能力强：2026 年 6 月实现对 Qwen3.5、GLM-5.2、MiniMax M3 的 Day-0 适配
✅ 价格最低：~¥50,000，性价比高

关键劣势：

❌ 算力不及专用 AI 芯片：FP16 算力约为 H100 的 50%
❌ 显存带宽低：1.6 TB/s（H100 的 48%），限制大模型训练性能

三、算力对比（BF16/FP16）

芯片	BF16 算力	显存	显存带宽	TDP	能效比
华为昇腾 950DT	1,000 TFLOPS	144GB	4 TB/s	400W	2.5 TFLOPS/W
寒武纪 MLU690	600 TFLOPS	64GB	2 TB/s	280W	2.14 TFLOPS/W
摩尔线程 MTT S5000	~1,000 TFLOPS	80GB	1.6 TB/s	~350W	~2.86 TFLOPS/W
NVIDIA H100	989 TFLOPS	80GB	3.35 TB/s	700W	1.41 TFLOPS/W
NVIDIA H200	989 TFLOPS	141GB	4.8 TB/s	700W	1.41 TFLOPS/W

关键洞察：

华为昇腾 950DT 算力最高（1,000 TFLOPS），但能效比一般

寒武纪 MLU690 能效比最高（2.14 TFLOPS/W），TDP 仅 280W

摩尔线程 MTT S5000 全功能优势，但显存带宽低

四、软件生态对比

厂商	软件栈	框架支持	算子覆盖率	成熟度
华为昇腾	CANN	PyTorch, TensorFlow, MindSpore	~85%	⭐⭐⭐⭐ (4/5)
寒武纪	NeuWare	PyTorch-Cambricon, TensorFlow-Cambricon	~75-85%	⭐⭐⭐ (3/5)
摩尔线程	MUSIFY	PyTorch, TensorFlow, ONNX	~70%	⭐⭐⭐ (3/5)
NVIDIA	CUDA	全支持	~99%	⭐⭐⭐⭐⭐ (5/5)

软件生态成熟度评估

华为昇腾 CANN：

✅ 优势：算子覆盖率最高，支持 MindSpore（自研框架）
❌ 劣势：学习曲线陡峭，文档不完整

寒武纪 NeuWare：

✅ 优势：兼容 PyTorch、TensorFlow，迁移成本低
❌ 劣势：复杂 LLM 模型需要手工优化

摩尔线程 MUSIFY：

✅ 优势：Day-0 适配能力强，支持 ONNX
❌ 劣势：算子覆盖率最低，图形 + AI 双引擎复杂度高

五、商用进展对比

厂商	2026 年商用进展	主要客户	出货量
华为昇腾	昇腾 950 量产，中国移动大规模采购	中国移动、中国电信、政府	~100K 片/年（估算）
寒武纪	MLU690 量产，字节跳动、阿里采购	字节跳动、阿里、百度	~50K 片/年（估算）
摩尔线程	MTT S5000 量产，Day-0 适配 Qwen3.5	政府、国企、游戏公司	~30K 片/年（估算）

2026 年 6 月最新动态

华为昇腾：

✅ 昇腾 950DT 全面放量
✅ 与中国移动签署 10 亿元采购协议

寒武纪：

✅ MLU690 量产出货
✅ 字节跳动采购 ~20K 片

摩尔线程：

✅ 完成对 Qwen3.5、GLM-5.2、MiniMax M3 的 Day-0 适配
✅ MTT S5000 第二代发布

六、选型建议

场景 1：万亿参数训练（GPT-4 级）

场景 2：百亿-千亿参数训练

场景 3：AI 推理（云端）

推荐：华为昇腾 950PR（推理专用）

理由：

✅ 推理性能优化好，实际吞吐量高
✅ 128GB 大显存，对 MoE 模型友好
✅ 软件栈成熟，部署成本低

备选：摩尔线程 MTT S5000（全功能 GPU，推理 + 图形）

场景 4：边缘 AI / 端侧推理

场景 5：国产化替代项目（政府、国企）

七、未来路线图

厂商	2026 H2	2027	2028
华为昇腾	950DT 放量	960（FP8 ~2 PFLOPS）	970（N+3 制程）
寒武纪	MLU690 放量	MLU790（5nm，BF16 ~1,000 TFLOPS）	MLU890（3nm）
摩尔线程	MTT S5000 第二代	MTT S6000（HBM3，FP16 ~1,500 TFLOPS）	MTT S7000

八、总结：谁是中国版 H100？

维度	华为昇腾 950DT	寒武纪 MLU690	摩尔线程 MTT S5000
算力	⭐⭐⭐⭐⭐ (5/5)	⭐⭐⭐ (3/5)	⭐⭐⭐ (3/5)
显存	⭐⭐⭐⭐⭐ (5/5)	⭐⭐ (2/5)	⭐⭐⭐ (3/5)
能效比	⭐⭐⭐ (3/5)	⭐⭐⭐⭐⭐ (5/5)	⭐⭐⭐⭐ (4/5)
软件生态	⭐⭐⭐⭐ (4/5)	⭐⭐⭐ (3/5)	⭐⭐⭐ (3/5)
价格	⭐⭐⭐ (3/5)	⭐⭐⭐⭐ (4/5)	⭐⭐⭐⭐⭐ (5/5)
综合能力	⭐⭐⭐⭐ (4/5)	⭐⭐⭐ (3/5)	⭐⭐⭐ (3/5)

最终结论：

华为昇腾 950DT 是最接近 H100 的国产 AI 训练芯片，综合能力最强

寒武纪 MLU690 是能效比最高的国产 AI 芯片，TCO 最低

摩尔线程 MTT S5000 是最便宜的全功能 GPU，适合边缘 AI 和图形 + AI 场景

参考资料

华为昇腾 950 系列 - MirrorFrog 详尽规格
寒武纪 MLU690 - MirrorFrog 详尽规格
摩尔线程 MTT S5000 - MirrorFrog 详尽规格
AI 算力卡完整对比表 - 100+ 款芯片规格对比
2026 H2 AI 芯片路线图重大更新 - 最新路线图动态

声明：本文数据基于公开资料整理，实际规格以厂商官方为准。MirrorFrog 持续更新国产 AI 芯片数据，欢迎提交修正。

更新日志：

2026-06-23：初始版本发布

寒武纪 MLU690 vs NVIDIA H100 深度对比：国产 AI 芯片能否替代 H100？

2026年6月23日 · 阅读需 6 分钟

Charles Qing

AI Hardware Analyst

2026 年，在美国对华芯片出口管制背景下，寒武纪 MLU690 作为"中国版 H100"备受关注。本文从算力、显存、功耗、软件生态、实测性能、价格等维度深度对比，帮助您做出选型决策。

核心结论（先看这里）

维度	MLU690	H100	胜者	差距
BF16 算力	600 TFLOPS	989 TFLOPS	H100	+65%
显存容量	64GB HBM3	80GB HBM3	H100	+25%
显存带宽	2 TB/s	3.35 TB/s	H100	+68%
TDP	280W	700W	MLU690	-60%
能效比	2.14 TFLOPS/W	1.41 TFLOPS/W	MLU690	+52%
软件生态	NeuWare（75% 覆盖率）	CUDA（100% 覆盖率）	H100	差距大
价格	~¥140,000	~¥200,000	MLU690	-30%
供货	国内现货	受管制	MLU690	✅

一句话总结：MLU690 算力约为 H100 的 60%，但功耗仅 40%，价格仅 70%，适合中国市场 AI 训练和推理。

1. 规格对比（详细）

1.1 算力对比

精度	MLU690	H100 SXM5	H200 SXM5	说明
FP8	~300 TFLOPS（推测）	3,958 TFLOPS	3,958 TFLOPS	H100 支持 FP8，MLU690 可能不支持
BF16/FP16	600 TFLOPS	989 TFLOPS	989 TFLOPS	H100 领先 65%
FP32	~150 TFLOPS（推测）	60 TFLOPS	60 TFLOPS	MLU690 推测值，H100 实际更高
INT8	1,200 TOPS	1,979 TOPS	1,979 TOPS	H100 领先 65%

关键发现：

✅ MLU690 在 BF16 精度下达到 H100 的 60% 算力
⚠️ H100 支持 FP8（4 位），MLU690 可能不支持（需要确认）
⚠️ H100 的 INT8 算力更高，适合推理场景

1.2 显存对比

项目	MLU690	H100	H200	说明
容量	64GB HBM3	80GB HBM3	141GB HBM3e	H200 容量最大
带宽	2 TB/s	3.35 TB/s	4.8 TB/s	H200 带宽最高
类型	HBM3	HBM3	HBM3e	H200 使用最新 HBM3e

关键发现：

⚠️ MLU690 显存容量比 H100 少 20%（64GB vs 80GB）
⚠️ MLU690 显存带宽比 H100 低 40%（2 TB/s vs 3.35 TB/s）
❌ 运行 70B+ 参数模型时，MLU690 可能显存不足（需要模型并行）

1.3 功耗对比

项目	MLU690	H100	H200
TDP	280W	700W	700W
能效比（FP16/W）	2.14 TFLOPS/W	1.41 TFLOPS/W	1.41 TFLOPS/W
8 卡服务器功耗	~3.5kW	~6kW	~6kW
年电费（¥0.6/kWh）	~¥18,400	~¥36,800	~¥36,800

关键发现：

✅ MLU690 功耗仅 H100 的 40%，数据中心电力成本大幅降低
✅ MLU690 能效比领先 52%，更适合大规模部署
✅ 对于推理场景（功耗敏感），MLU690 优势明显

2. 软件生态对比

2.1 框架支持

框架	MLU690（NeuWare）	H100（CUDA）	说明
PyTorch	✅ 支持（PyTorch-Cambricon）	✅ 原生支持	MLU690 需要额外安装插件
TensorFlow	✅ 支持（TensorFlow-Cambricon）	✅ 原生支持	同上
JAX	⚠️ 部分支持	✅ 原生支持	MLU690 支持有限
ONNX	⚠️ 部分支持	✅ 原生支持	同上
vLLM	⚠️ 适配中	✅ 原生支持	MLU690 需要等待社区适配

2.2 算子覆盖率

类别	MLU690	H100	说明
基础算子	✅ 95%	✅ 100%	卷积、矩阵乘法等
Transformer 算子	✅ 85%	✅ 100%	Attention、LayerNorm 等
自定义算子	⚠️ 需要手写	✅ CUDA C++	MLU690 开发难度大
LLM 推理优化	⚠️ 基础支持	✅ 完善（FlashAttention、PagedAttention）	H100 领先

关键发现：

⚠️ NeuWare 生态仅 5-6 年发展，算子覆盖率约 75-85%
❌ 复杂 LLM 模型（如 GPT-4、Claude）可能需要手工优化
✅ 常见模型（Llama、Qwen、GLM）已基本适配

3. 实测性能对比

3.1 训练性能

模型	MLU690（训练时间）	H100（训练时间）	加速比
Llama 7B	~48 小时（推测）	~30 小时	1.6x
Llama 70B	~7 天（推测）	~4.5 天	1.6x
Qwen 72B	~8 天（推测）	~5 天	1.6x

注意：以上数据为推测，实际性能取决于软件优化程度。

3.2 推理性能

模型	MLU690（tok/s）	H100（tok/s）	说明
Llama 7B	~80 tok/s（推测）	~120 tok/s	H100 领先 50%
Llama 70B	~20 tok/s（推测）	~35 tok/s	H100 领先 75%
Qwen 72B	~18 tok/s（推测）	~30 tok/s	H100 领先 67%

关键发现：

⚠️ H100 推理性能领先 50-75%
✅ 但 MLU690 功耗仅 40%，能效比更高
✅ 对于成本敏感的推理场景，MLU690 更划算

4. 价格对比

4.1 硬件采购成本

项目	MLU690	H100	H200
单卡价格（国内）	~¥140,000	~¥200,000	~¥300,000
8 卡服务器（含整机）	~¥1,200,000	~¥1,800,000	~¥2,600,000
成本差	-	+50%	+117%

4.2 TCO（3 年）

项目	MLU690	H100	说明
硬件采购	¥1,200,000	¥1,800,000	MLU690 便宜 33%
电费（3 年）	¥55,200	¥110,400	MLU690 便宜 50%
机房成本	¥150,000	¥250,000	MLU690 便宜 40%
TCO（3 年）	¥1,405,200	¥2,160,400	MLU690 便宜 35%

关键发现：

✅ MLU690 的 TCO 比 H100 低 35%
✅ 对于大规模部署（100+ 卡），成本优势明显

5. 选型建议

5.1 选 MLU690，如果...

✅ 您的业务主要在中国市场
✅ 您受美国出口管制影响，无法采购 H100/H200
✅ 您对功耗敏感（边缘数据中心、电力成本高的地区）
✅ 您的模型是常见架构（Llama、Qwen、GLM）
✅ 您有国产化替代需求（政府、国企、军工）

5.2 选 H100/H200，如果...

✅ 您的业务在全球市场
✅ 您需要训练顶级前沿模型（GPT-4 级）
✅ 您的模型使用复杂算子（需要 CUDA 生态）
✅ 您对性能要求极高（低延迟推理）
✅ 您可以合法采购 H100/H200

5.3 混合部署（推荐）

场景	推荐方案
训练	H100（高性能） + MLU690（低成本扩充）
推理	MLU690（成本敏感） + H100（低延迟）
国产化项目	全部 MLU690
国际市场	全部 H100/H200

6. 未来展望

6.1 MLU690 的不足

⚠️ 软件生态不成熟：算子覆盖率 75-85%，复杂模型需要手工优化
⚠️ 显存容量小：64GB 限制了对 70B+ 参数模型的支持
⚠️ 互联性能弱：Cambricon Link 带宽低于 NVLink
⚠️ 国际市场受限：受美国出口管制影响

6.2 MLU690 的改进方向

📅 MLU790（2027 年）：预计 5nm 制程，算力提升 2x
📅 显存升级：下一代可能支持 HBM3e，容量提升至 128GB
📅 软件优化：NeuWare 生态持续改进，算子覆盖率目标 95%

7. 总结

维度	MLU690	H100	推荐场景
算力	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	H100 适合顶级训练
显存	⭐⭐⭐	⭐⭐⭐⭐	H100 适合大模型
功耗	⭐⭐⭐⭐⭐	⭐⭐⭐	MLU690 适合推理
生态	⭐⭐⭐	⭐⭐⭐⭐⭐	H100 适合复杂模型
价格	⭐⭐⭐⭐⭐	⭐⭐⭐	MLU690 适合大规模部署
国产化	⭐⭐⭐⭐⭐	❌	MLU690 适合中国市场

最终建议：

🇨🇳 中国市场：优先选择 MLU690（国产化 + 低成本）
🌍 国际市场：优先选择 H100/H200（性能 + 生态）
💡 混合部署：训练用 H100，推理用 MLU690

参考资料

声明：本文数据基于公开资料和合理估算，实际性能以厂商官方测试为准。MLU690 的软件生态在快速发展中，建议持续关注 NeuWare 更新。

最后更新：2026-06-23

核心要点​

一、厂商概览​

战略定位差异​

二、旗舰产品对比​

1. 华为昇腾 950DT（2026 年旗舰）​

2. 寒武纪 MLU690（2026 年旗舰）​

3. 摩尔线程 MTT S5000（2025 年旗舰）​

三、算力对比（BF16/FP16）​

四、软件生态对比​

软件生态成熟度评估​

五、商用进展对比​

2026 年 6 月最新动态​

六、选型建议​

场景 1：万亿参数训练（GPT-4 级）​

场景 2：百亿-千亿参数训练​

场景 3：AI 推理（云端）​

场景 4：边缘 AI / 端侧推理​

场景 5：国产化替代项目（政府、国企）​

七、未来路线图​

八、总结：谁是中国版 H100？​

参考资料​

核心结论（先看这里）​

1. 规格对比（详细）​

1.1 算力对比​

1.2 显存对比​

1.3 功耗对比​

2. 软件生态对比​

2.1 框架支持​

2.2 算子覆盖率​

3. 实测性能对比​

3.1 训练性能​

3.2 推理性能​

4. 价格对比​

4.1 硬件采购成本​

4.2 TCO（3 年）​

5. 选型建议​

5.1 选 MLU690，如果...​

5.2 选 H100/H200，如果...​

5.3 混合部署（推荐）​

6. 未来展望​

6.1 MLU690 的不足​

6.2 MLU690 的改进方向​

7. 总结​

参考资料​

核心要点

一、厂商概览

战略定位差异

二、旗舰产品对比

1. 华为昇腾 950DT（2026 年旗舰）

2. 寒武纪 MLU690（2026 年旗舰）

3. 摩尔线程 MTT S5000（2025 年旗舰）

三、算力对比（BF16/FP16）

四、软件生态对比

软件生态成熟度评估

五、商用进展对比

2026 年 6 月最新动态

六、选型建议

场景 1：万亿参数训练（GPT-4 级）

场景 2：百亿-千亿参数训练

场景 3：AI 推理（云端）

场景 4：边缘 AI / 端侧推理

场景 5：国产化替代项目（政府、国企）

七、未来路线图

八、总结：谁是中国版 H100？

参考资料

核心结论（先看这里）

1. 规格对比（详细）

1.1 算力对比

1.2 显存对比

1.3 功耗对比

2. 软件生态对比

2.1 框架支持

2.2 算子覆盖率

3. 实测性能对比

3.1 训练性能

3.2 推理性能

4. 价格对比

4.1 硬件采购成本

4.2 TCO（3 年）

5. 选型建议

5.1 选 MLU690，如果...

5.2 选 H100/H200，如果...

5.3 混合部署（推荐）

6. 未来展望

6.1 MLU690 的不足

6.2 MLU690 的改进方向

7. 总结

参考资料