Cambricon 寒武纪 MLU 690 (2025-2026 推测)

:::warning 推测内容本页规格基于寒武纪 2024 公开声明 + 陈天石 2025-Q1 路线图 + 行业分析师推测。寒武纪官方尚未发布 MLU 690 完整规格，正式数据以 2025 H2 / 2026 H1 实际发布为准。 :::

产品概述

Cambricon 寒武纪 MLU 690 是寒武纪第七代 AI 训练/推理芯片，预计 2025 H2 至 2026 H1 发布（思元 690）。基于 5nm 工艺（台积电或 SMIC 国产化），2 PFLOPS FP8 dense 算力（MLU 590 的 2×），192GB HBM3E 内存，5 TB/s 带宽。配套 MindSpore 2.0 + 寒武纪 NeuWare 2.0 软件栈。

战略意义：在 NVIDIA B200 / AMD MI355X / 华为 Ascend 920 竞争下，MLU 690 是寒武纪重回国产 AI 龙头的关键产品。2025 寒武纪营收 ¥7.2B，MLU 690 目标 ¥15-20B（2026）。

核心规格（推测）

项目	参数
架构	Cambricon MLUv07（第七代）
制程	TSMC 5nm / SMIC 5nm 国产化（推测）
小芯片数	2× chiplet
HBM	192GB HBM3E
内存带宽	5 TB/s
FP8 dense	2 PFLOPS
FP16 / BF16 dense	1 PFLOPS
INT8	4 POPS
TDP	500 W
板卡形态	OAM / PCIe Gen5 ×16
互联	MLU-Link 1.2 TB/s（类 NVLink 5）
发布	2025（预计 H2）
量产	2025 H2 - 2026 H1
单价（OAM）	~$8,000-12,000（推测）

与 MLU 590 对比

指标	MLU 690 (推测)	MLU 590	提升
制程	5nm	7nm	新代
HBM	192GB HBM3E	96GB HBM2	2×
带宽	5 TB/s	600 GB/s	8×
FP8 dense	2 PF	N/A (FP16 125 TF)	新增
FP16 / BF16	1 PF	125 TF	8×
INT8	4 POPS	256 TOPS	15×
互联	MLU-Link 1.2 TB/s	MLU-Link 600 GB/s	2×
TDP	500W	250W	2×
价格（推测）	~$10K	~$5K	2×
软件	NeuWare 2.0 + MindSpore 2.0	NeuWare 1.0	新代

与 NVIDIA B200 对比

指标	寒武纪 MLU 690 (推测)	NVIDIA B200	差异
制程	5nm	TSMC 4N	相当
内存	192GB HBM3E	192GB HBM3E	同
带宽	5 TB/s	8 TB/s	B200 +60%
FP8 dense	2 PF	4.5 PF sparse	B200 2.25×
BF16 dense	1 PF	2.25 PF sparse	B200 2.25×
FP4	N/A	9 PF sparse	B200 独有
互联	MLU-Link 1.2 TB/s	NVLink 5 1.8 TB/s	B200 1.5×
TDP	500W	1000W	MLU 690 -50%
软件	NeuWare + MindSpore	CUDA	B200 优势
价格（推测）	~$10K	~$30-40K	MLU 690 -75%

MLU 690 优势：TDP 仅 500W（B200 50%） + 价格 25%，FP8 与 HBM3E 与 B200 同代，是 B200 出口管制下中国最优替代。

寒武纪产品线

产品	发布	制程	内存	FP16 dense	状态
MLU 100	2018	16nm	8GB	16 TF	EOL
MLU 270	2019	16nm	16GB	128 TF	EOL
MLU 290	2020	7nm	32GB	256 TF	EOL
MLU 370	2021	7nm	48GB HBM2	96 TF	量产
MLU 590	2023-Q4	7nm	96GB HBM2	125 TF	当前旗舰
MLU 690	2025 H2 - 2026 H1	5nm	192GB HBM3E	1 PF (FP8 2 PF)	路线图
MLU 790 (推测)	2027	3nm	384GB HBM4	2.5 PF	长期

NeuWare 2.0 + MindSpore 2.0 软件栈

层级	工具	说明
AI 框架	MindSpore 2.0	华为/信通院主导，PyTorch 兼容
	PyTorch (NeuWare 后端)	MLU 设备映射
	TensorFlow (NeuWare 后端)	兼容
编译器	BANG C/C++	寒武纪私有语言
	NeuWare Graph Compiler	图编译优化（MLU 690 新增）
算子库	CNML 2.0	类 CUDA cuDNN，算子覆盖率 80% (vs MLU 590 70%)
量化	NeuQuant 2.0	INT8/FP8 自动
模型库	ModelZoo (1000+ 模型)	CV/NLP/多模态
集群	NeuWare Cluster	1024 节点 = 8K 卡 MLU 690

MLU 690 软件提升：相比 MLU 590 算子覆盖率从 70% → 80%，FP8 支持，PyTorch 兼容性提升，深度学习模型迁移成本降低。

厂商信息

项目	内容
公司	寒武纪科技（Cambricon Technologies）
创始人	陈天石、陈云霁兄弟（中科院计算所）
成立	2016-03
IPO	2020-07-20 科创板（688256）
市值（2026 推测）	~¥500B（+50% YoY）
2025 营收	~¥7.2B（+340% YoY）
2026 营收目标	~¥15-20B（MLU 690 贡献 50%）
总部	北京市海淀区
官网	https://www.cambricon.com
主要客户	中国移动、浪潮、曙光、字节跳动、智谱 AI、阿里通义、百度文心
国家政策	"东数西算"工程推荐芯片

寒武纪 vs 华为昇腾 vs 摩尔线程

维度	寒武纪 MLU 690 (推测)	华为昇腾 920	摩尔线程 MTT S5000
算力	2 PF FP8	900 BF16 TF	50 BF16 TF
内存	192GB HBM3E	96GB HBM2E	48GB GDDR6
FP8	是	否	否
生态	MindSpore 2.0	MindSpore + CANN	MUSA
市场	通用 + 智算中心	数据中心 + 政企云	通用 + 图形
2025 营收	¥7.2B	包含在华为云内	¥2.2B
国产化	HBM 三星 + 国产 CPU/封装	国产（部分）	国产化 60%

MLU 690 优势：唯一国产支持 FP8 + HBM3E 与 B200 同代 + 寒武纪科创板上市公司（融资能力强）。

关键特性

FP8 2 PF：首次国产支持 FP8，追上 NVIDIA Blackwell
HBM3E 192GB：与 B200 容量相同
5nm 国产化：可能采用 SMIC 5nm（国产里程碑）
MLU-Link 1.2 TB/s：对标 NVLink 5
NeuWare 2.0：算子覆盖 80%，PyTorch 兼容更好
价格优势：~25% B200 价格

适用场景

✅ 国产 AI 训练（B200 出口管制替代）
✅ LLM 训练（HBM3E 192GB + FP8）
✅ FP8 模型训练（MLU 690 独有国产能力）
✅ 政府/国企 AI 项目（科创板上市公司）
✅ 智算中心（"东数西算"枢纽）
✅ 互联网公司（字节、智谱、阿里）
❌ 国际市场（无 CUDA 兼容）
❌ FP4 模型训练（仅 FP8）
❌ CUDA 专有工作负载

关键风险

5nm 国产化进度：SMIC 5nm 良率未验证，可能依赖台积电
HBM3E 供应：HBM3E 来自 SK Hynix（韩国）/ Samsung，可能被美国制裁
软件迁移成本：PyTorch 模型迁移需手工优化（虽 80% 覆盖率，仍 20% 需定制）
NVIDIA 反制：NVIDIA 推出 H20 改良版（已 H20 → H30 → 持续）

产品概述​

核心规格（推测）​

与 MLU 590 对比​

与 NVIDIA B200 对比​

寒武纪产品线​

NeuWare 2.0 + MindSpore 2.0 软件栈​

厂商信息​

寒武纪 vs 华为昇腾 vs 摩尔线程​

关键特性​

适用场景​

关键风险​

相关卡​