寒武纪 MLU690 vs NVIDIA H100 深度对比：国产 AI 芯片能否替代 H100？

2026年6月23日 · 阅读需 6 分钟

AI Hardware Analyst

2026 年，在美国对华芯片出口管制背景下，寒武纪 MLU690 作为"中国版 H100"备受关注。本文从算力、显存、功耗、软件生态、实测性能、价格等维度深度对比，帮助您做出选型决策。

核心结论（先看这里）

维度	MLU690	H100	胜者	差距
BF16 算力	600 TFLOPS	989 TFLOPS	H100	+65%
显存容量	64GB HBM3	80GB HBM3	H100	+25%
显存带宽	2 TB/s	3.35 TB/s	H100	+68%
TDP	280W	700W	MLU690	-60%
能效比	2.14 TFLOPS/W	1.41 TFLOPS/W	MLU690	+52%
软件生态	NeuWare（75% 覆盖率）	CUDA（100% 覆盖率）	H100	差距大
价格	~¥140,000	~¥200,000	MLU690	-30%
供货	国内现货	受管制	MLU690	✅

一句话总结：MLU690 算力约为 H100 的 60%，但功耗仅 40%，价格仅 70%，适合中国市场 AI 训练和推理。

1. 规格对比（详细）

1.1 算力对比

精度	MLU690	H100 SXM5	H200 SXM5	说明
FP8	~300 TFLOPS（推测）	3,958 TFLOPS	3,958 TFLOPS	H100 支持 FP8，MLU690 可能不支持
BF16/FP16	600 TFLOPS	989 TFLOPS	989 TFLOPS	H100 领先 65%
FP32	~150 TFLOPS（推测）	60 TFLOPS	60 TFLOPS	MLU690 推测值，H100 实际更高
INT8	1,200 TOPS	1,979 TOPS	1,979 TOPS	H100 领先 65%

关键发现：

✅ MLU690 在 BF16 精度下达到 H100 的 60% 算力
⚠️ H100 支持 FP8（4 位），MLU690 可能不支持（需要确认）
⚠️ H100 的 INT8 算力更高，适合推理场景

1.2 显存对比

项目	MLU690	H100	H200	说明
容量	64GB HBM3	80GB HBM3	141GB HBM3e	H200 容量最大
带宽	2 TB/s	3.35 TB/s	4.8 TB/s	H200 带宽最高
类型	HBM3	HBM3	HBM3e	H200 使用最新 HBM3e

关键发现：

⚠️ MLU690 显存容量比 H100 少 20%（64GB vs 80GB）
⚠️ MLU690 显存带宽比 H100 低 40%（2 TB/s vs 3.35 TB/s）
❌ 运行 70B+ 参数模型时，MLU690 可能显存不足（需要模型并行）

1.3 功耗对比

项目	MLU690	H100	H200
TDP	280W	700W	700W
能效比（FP16/W）	2.14 TFLOPS/W	1.41 TFLOPS/W	1.41 TFLOPS/W
8 卡服务器功耗	~3.5kW	~6kW	~6kW
年电费（¥0.6/kWh）	~¥18,400	~¥36,800	~¥36,800

关键发现：

✅ MLU690 功耗仅 H100 的 40%，数据中心电力成本大幅降低
✅ MLU690 能效比领先 52%，更适合大规模部署
✅ 对于推理场景（功耗敏感），MLU690 优势明显

2. 软件生态对比

2.1 框架支持

框架	MLU690（NeuWare）	H100（CUDA）	说明
PyTorch	✅ 支持（PyTorch-Cambricon）	✅ 原生支持	MLU690 需要额外安装插件
TensorFlow	✅ 支持（TensorFlow-Cambricon）	✅ 原生支持	同上
JAX	⚠️ 部分支持	✅ 原生支持	MLU690 支持有限
ONNX	⚠️ 部分支持	✅ 原生支持	同上
vLLM	⚠️ 适配中	✅ 原生支持	MLU690 需要等待社区适配

2.2 算子覆盖率

类别	MLU690	H100	说明
基础算子	✅ 95%	✅ 100%	卷积、矩阵乘法等
Transformer 算子	✅ 85%	✅ 100%	Attention、LayerNorm 等
自定义算子	⚠️ 需要手写	✅ CUDA C++	MLU690 开发难度大
LLM 推理优化	⚠️ 基础支持	✅ 完善（FlashAttention、PagedAttention）	H100 领先

关键发现：

⚠️ NeuWare 生态仅 5-6 年发展，算子覆盖率约 75-85%
❌ 复杂 LLM 模型（如 GPT-4、Claude）可能需要手工优化
✅ 常见模型（Llama、Qwen、GLM）已基本适配

3. 实测性能对比

3.1 训练性能

模型	MLU690（训练时间）	H100（训练时间）	加速比
Llama 7B	~48 小时（推测）	~30 小时	1.6x
Llama 70B	~7 天（推测）	~4.5 天	1.6x
Qwen 72B	~8 天（推测）	~5 天	1.6x

注意：以上数据为推测，实际性能取决于软件优化程度。

3.2 推理性能

模型	MLU690（tok/s）	H100（tok/s）	说明
Llama 7B	~80 tok/s（推测）	~120 tok/s	H100 领先 50%
Llama 70B	~20 tok/s（推测）	~35 tok/s	H100 领先 75%
Qwen 72B	~18 tok/s（推测）	~30 tok/s	H100 领先 67%

关键发现：

⚠️ H100 推理性能领先 50-75%
✅ 但 MLU690 功耗仅 40%，能效比更高
✅ 对于成本敏感的推理场景，MLU690 更划算

4. 价格对比

4.1 硬件采购成本

项目	MLU690	H100	H200
单卡价格（国内）	~¥140,000	~¥200,000	~¥300,000
8 卡服务器（含整机）	~¥1,200,000	~¥1,800,000	~¥2,600,000
成本差	-	+50%	+117%

4.2 TCO（3 年）

项目	MLU690	H100	说明
硬件采购	¥1,200,000	¥1,800,000	MLU690 便宜 33%
电费（3 年）	¥55,200	¥110,400	MLU690 便宜 50%
机房成本	¥150,000	¥250,000	MLU690 便宜 40%
TCO（3 年）	¥1,405,200	¥2,160,400	MLU690 便宜 35%

关键发现：

✅ MLU690 的 TCO 比 H100 低 35%
✅ 对于大规模部署（100+ 卡），成本优势明显

5. 选型建议

5.1 选 MLU690，如果...

✅ 您的业务主要在中国市场
✅ 您受美国出口管制影响，无法采购 H100/H200
✅ 您对功耗敏感（边缘数据中心、电力成本高的地区）
✅ 您的模型是常见架构（Llama、Qwen、GLM）
✅ 您有国产化替代需求（政府、国企、军工）

5.2 选 H100/H200，如果...

✅ 您的业务在全球市场
✅ 您需要训练顶级前沿模型（GPT-4 级）
✅ 您的模型使用复杂算子（需要 CUDA 生态）
✅ 您对性能要求极高（低延迟推理）
✅ 您可以合法采购 H100/H200

5.3 混合部署（推荐）

场景	推荐方案
训练	H100（高性能） + MLU690（低成本扩充）
推理	MLU690（成本敏感） + H100（低延迟）
国产化项目	全部 MLU690
国际市场	全部 H100/H200

6. 未来展望

6.1 MLU690 的不足

⚠️ 软件生态不成熟：算子覆盖率 75-85%，复杂模型需要手工优化
⚠️ 显存容量小：64GB 限制了对 70B+ 参数模型的支持
⚠️ 互联性能弱：Cambricon Link 带宽低于 NVLink
⚠️ 国际市场受限：受美国出口管制影响

6.2 MLU690 的改进方向

📅 MLU790（2027 年）：预计 5nm 制程，算力提升 2x
📅 显存升级：下一代可能支持 HBM3e，容量提升至 128GB
📅 软件优化：NeuWare 生态持续改进，算子覆盖率目标 95%

7. 总结

维度	MLU690	H100	推荐场景
算力	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	H100 适合顶级训练
显存	⭐⭐⭐	⭐⭐⭐⭐	H100 适合大模型
功耗	⭐⭐⭐⭐⭐	⭐⭐⭐	MLU690 适合推理
生态	⭐⭐⭐	⭐⭐⭐⭐⭐	H100 适合复杂模型
价格	⭐⭐⭐⭐⭐	⭐⭐⭐	MLU690 适合大规模部署
国产化	⭐⭐⭐⭐⭐	❌	MLU690 适合中国市场

最终建议：

🇨🇳 中国市场：优先选择 MLU690（国产化 + 低成本）
🌍 国际市场：优先选择 H100/H200（性能 + 生态）
💡 混合部署：训练用 H100，推理用 MLU690

参考资料

声明：本文数据基于公开资料和合理估算，实际性能以厂商官方测试为准。MLU690 的软件生态在快速发展中，建议持续关注 NeuWare 更新。

最后更新：2026-06-23

核心结论（先看这里）​

1. 规格对比（详细）​

1.1 算力对比​

1.2 显存对比​

1.3 功耗对比​

2. 软件生态对比​

2.1 框架支持​

2.2 算子覆盖率​

3. 实测性能对比​

3.1 训练性能​

3.2 推理性能​

4. 价格对比​

4.1 硬件采购成本​

4.2 TCO（3 年）​

5. 选型建议​

5.1 选 MLU690，如果...​

5.2 选 H100/H200，如果...​

5.3 混合部署（推荐）​

6. 未来展望​

6.1 MLU690 的不足​

6.2 MLU690 的改进方向​

7. 总结​

参考资料​

核心结论（先看这里）

1. 规格对比（详细）

1.1 算力对比

1.2 显存对比

1.3 功耗对比

2. 软件生态对比

2.1 框架支持

2.2 算子覆盖率

3. 实测性能对比

3.1 训练性能

3.2 推理性能

4. 价格对比

4.1 硬件采购成本

4.2 TCO（3 年）

5. 选型建议

5.1 选 MLU690，如果...

5.2 选 H100/H200，如果...

5.3 混合部署（推荐）

6. 未来展望

6.1 MLU690 的不足

6.2 MLU690 的改进方向

7. 总结

参考资料