寒武纪 MLU690 (国产 AI 训练芯片)
产品概述
寒武纪 MLU690 是寒武纪科技(Cambricon)面向数据中心 AI 训练市场推出的旗舰芯片,2025-Q4 发布,2026-Q1 量产出货。定位为"中国版 H100",推理性能接近 H200,是国内少数具备大规模 AI 训练能力的芯片之一。
战略意义:在美国对华芯片出口管制背景下,MLU690 是中国 AI 训练市场的关键替代品,已获得字节跳动、阿里、百度等头部客户订单。
核心规格
| 项目 | 参数 |
|---|---|
| 架构 | MLUarch 04(第四代) |
| 制程 | TSMC 7nm |
| 晶体管数 | ~500 亿(推测) |
| 显存 | 64 GB HBM3 |
| 显存带宽 | 2 TB/s(推测) |
| BF16 / FP16 | 642 TFLOPS(密集) |
| FP32 | 160 TFLOPS(推测) |
| INT8 | 1,320 TOPS |
| TDP | 300 W |
| 互联 | Cambricon Link(类 NVLink) |
| PCIe | PCIe 5.0 |
| 发布 | 2025-Q4 |
| 量产 | 2026-Q1 |
| 单价 | ~$20,000(推测) |
MLU690 vs H100 / H200 对比
| 指标 | MLU690 | H100 SXM | H200 SXM | 差距 |
|---|---|---|---|---|
| 制程 | 7nm | 4nm | 4nm | 落后 1 代 |
| 显存 | 64GB HBM3 | 80GB HBM3 | 141GB HBM3e | -19% / -55% |
| 显存带宽 | 2 TB/s | 3.35 TB/s | 4.8 TB/s | -40% / -58% |
| BF16 | 330 TFLOPS | 989 TFLOPS | 989 TFLOPS | -67% |
| TDP | 300W | 700W | 700W | -57% |
| 软件生态 | Cambricon NeuWare | CUDA | CUDA | 差距大 |
关键洞察:MLU690 算力约为 H100 的 1/3,但 TDP 仅 300W(H100 的 43%),能效比有优势。
适用场景
- ✅ 中国市场 AI 训练(Llama 2/3、Qwen、GLM)
- ✅ 国产化替代项目(政府、国企、军工)
- ✅ 推理场景(性能接近 H200)
- ✅ 智算中心建设
- ❌ 顶级前沿模型训练(算力限制)
- ❌ 国际市场(受美国出口管制影响)
软件栈 NeuWare
| 层级 | 工具 | 说明 |
|---|---|---|
| AI 框架 | PyTorch-Cambricon | PyTorch 适配版 |
| TensorFlow-Cambricon | TensorFlow 适配版 | |
| 编译器 | NeuWare CC | 类 nvcc |
| 运行时 | NeuWare Runtime | 类 CUDA Runtime |
| 数学库 | NeuBLAS | 类 cuBLAS |
| 深度学习库 | NeuDNN | 类 cuDNN |
| 通信库 | Cambricon Link | 类 NCCL |
⚠️ 生态限制:NeuWare 生态仅 5-6 年发展,算子覆盖率约 75-85%,复杂 LLM 模型需要手工优化。
厂商信息
| 项目 | 内容 |
|---|---|
| 公司 | 中科寒武纪科技股份有限公司 |
| 股票代码 | 688256.SH(科创板) |
| 创始人 | 陈天石(中科院计算所) |
| 成立 | 2016-03 |
| 上市 | 2020-07-20(科创板 AI 芯片第一股) |
| 2025 营收 | ~¥5.2B |
| 总部 | 北京市海淀区 |
| 官网 | https://www.cambricon.com |
| 员工 | ~1,500 人 |
| 主要客户 | 字节跳动、阿里、百度、中国移动 |
相关产品
- Moore Threads MTT S5000 - 国产全功能 GPU
- Huawei Ascend 910C - 国产最强 AI
- NVIDIA H100 - 国际旗舰(受出口管制)
- NVIDIA H200 - H100 升级版
- 完整对比表