跳到主要内容

Cambricon 寒武纪 MLU 690 (2025-2026 推测)

:::warning 推测内容 本页规格基于寒武纪 2024 公开声明 + 陈天石 2025-Q1 路线图 + 行业分析师推测。寒武纪官方尚未发布 MLU 690 完整规格正式数据以 2025 H2 / 2026 H1 实际发布为准。 :::

产品概述

Cambricon 寒武纪 MLU 690 是寒武纪第七代 AI 训练/推理芯片,预计 2025 H2 至 2026 H1 发布思元 690)。基于 5nm 工艺(台积电或 SMIC 国产化),2 PFLOPS FP8 dense 算力(MLU 590 的 2×),192GB HBM3E 内存,5 TB/s 带宽。配套 MindSpore 2.0 + 寒武纪 NeuWare 2.0 软件栈。

战略意义:在 NVIDIA B200 / AMD MI355X / 华为 Ascend 920 竞争下,MLU 690 是寒武纪重回国产 AI 龙头的关键产品。2025 寒武纪营收 ¥7.2BMLU 690 目标 ¥15-20B(2026)。

核心规格(推测)

项目参数
架构Cambricon MLUv07(第七代)
制程TSMC 5nm / SMIC 5nm 国产化(推测)
小芯片数2× chiplet
HBM192GB HBM3E
内存带宽5 TB/s
FP8 dense2 PFLOPS
FP16 / BF16 dense1 PFLOPS
INT84 POPS
TDP~500W
板卡形态OAM / PCIe Gen5 ×16
互联MLU-Link 1.2 TB/s(类 NVLink 5)
量产2025 H2 - 2026 H1
单价(OAM)~$8,000-12,000(推测)

与 MLU 590 对比

指标MLU 690 (推测)MLU 590提升
制程5nm7nm新代
HBM192GB HBM3E96GB HBM2
带宽5 TB/s600 GB/s
FP8 dense2 PFN/A (FP16 125 TF)新增
FP16 / BF161 PF125 TF
INT84 POPS256 TOPS15×
互联MLU-Link 1.2 TB/sMLU-Link 600 GB/s
TDP500W250W
价格(推测)~$10K~$5K
软件NeuWare 2.0 + MindSpore 2.0NeuWare 1.0新代

与 NVIDIA B200 对比

指标寒武纪 MLU 690 (推测)NVIDIA B200差异
制程5nmTSMC 4N相当
内存192GB HBM3E192GB HBM3E
带宽5 TB/s8 TB/sB200 +60%
FP8 dense2 PF4.5 PF sparseB200 2.25×
BF16 dense1 PF2.25 PF sparseB200 2.25×
FP4N/A9 PF sparseB200 独有
互联MLU-Link 1.2 TB/sNVLink 5 1.8 TB/sB200 1.5×
TDP500W1000WMLU 690 -50%
软件NeuWare + MindSporeCUDAB200 优势
价格(推测)~$10K~$30-40KMLU 690 -75%

MLU 690 优势TDP 仅 500W(B200 50%) + 价格 25%FP8 与 HBM3E 与 B200 同代,是 B200 出口管制下中国最优替代

寒武纪产品线

产品发布制程内存FP16 dense状态
MLU 100201816nm8GB16 TFEOL
MLU 270201916nm16GB128 TFEOL
MLU 29020207nm32GB256 TFEOL
MLU 37020217nm48GB HBM296 TF量产
MLU 5902023-Q47nm96GB HBM2125 TF当前旗舰
MLU 6902025 H2 - 2026 H15nm192GB HBM3E1 PF (FP8 2 PF)路线图
MLU 790 (推测)20273nm384GB HBM42.5 PF长期

NeuWare 2.0 + MindSpore 2.0 软件栈

层级工具说明
AI 框架MindSpore 2.0华为/信通院主导,PyTorch 兼容
PyTorch (NeuWare 后端)MLU 设备映射
TensorFlow (NeuWare 后端)兼容
编译器BANG C/C++寒武纪私有语言
NeuWare Graph Compiler图编译优化(MLU 690 新增)
算子库CNML 2.0类 CUDA cuDNN,算子覆盖率 80% (vs MLU 590 70%)
量化NeuQuant 2.0INT8/FP8 自动
模型库ModelZoo (1000+ 模型)CV/NLP/多模态
集群NeuWare Cluster1024 节点 = 8K 卡 MLU 690

MLU 690 软件提升:相比 MLU 590 算子覆盖率从 70% → 80%,FP8 支持PyTorch 兼容性提升深度学习模型迁移成本降低

厂商信息

项目内容
公司寒武纪科技(Cambricon Technologies)
创始人陈天石、陈云霁兄弟(中科院计算所)
成立2016-03
IPO2020-07-20 科创板(688256)
市值(2026 推测)~¥500B(+50% YoY)
2025 营收~¥7.2B(+340% YoY)
2026 营收目标~¥15-20B(MLU 690 贡献 50%)
总部北京市海淀区
官网https://www.cambricon.com
主要客户中国移动、浪潮、曙光、字节跳动、智谱 AI、阿里通义、百度文心
国家政策"东数西算"工程推荐芯片

寒武纪 vs 华为昇腾 vs 摩尔线程

维度寒武纪 MLU 690 (推测)华为昇腾 920摩尔线程 MTT S5000
算力2 PF FP8900 BF16 TF50 BF16 TF
内存192GB HBM3E96GB HBM2E48GB GDDR6
FP8
生态MindSpore 2.0MindSpore + CANNMUSA
市场通用 + 智算中心数据中心 + 政企云通用 + 图形
2025 营收¥7.2B包含在华为云内¥2.2B
国产化HBM 三星 + 国产 CPU/封装国产(部分)国产化 60%

MLU 690 优势唯一国产支持 FP8 + HBM3E 与 B200 同代 + 寒武纪科创板上市公司(融资能力强)。

关键特性

  • FP8 2 PF:首次国产支持 FP8,追上 NVIDIA Blackwell
  • HBM3E 192GB:与 B200 容量相同
  • 5nm 国产化:可能采用 SMIC 5nm(国产里程碑)
  • MLU-Link 1.2 TB/s:对标 NVLink 5
  • NeuWare 2.0:算子覆盖 80%,PyTorch 兼容更好
  • 价格优势:~25% B200 价格

适用场景

  • 国产 AI 训练(B200 出口管制替代)
  • LLM 训练(HBM3E 192GB + FP8)
  • FP8 模型训练(MLU 690 独有国产能力)
  • 政府/国企 AI 项目(科创板上市公司)
  • 智算中心("东数西算"枢纽)
  • 互联网公司(字节、智谱、阿里)
  • 国际市场(无 CUDA 兼容)
  • FP4 模型训练(仅 FP8)
  • CUDA 专有工作负载

关键风险

  • 5nm 国产化进度:SMIC 5nm 良率未验证,可能依赖台积电
  • HBM3E 供应:HBM3E 来自 SK Hynix(韩国)/ Samsung,可能被美国制裁
  • 软件迁移成本:PyTorch 模型迁移需手工优化(虽 80% 覆盖率,仍 20% 需定制)
  • NVIDIA 反制:NVIDIA 推出 H20 改良版(已 H20 → H30 → 持续)

相关卡