Skip to main content

寒武纪 MLU690 (国产 AI 训练芯片)

产品概述

寒武纪 MLU690 是寒武纪科技（Cambricon）面向数据中心 AI 训练市场推出的旗舰芯片，2025-Q4 发布，2026-Q1 量产出货。定位为"中国版 H100"，推理性能接近 H200，是国内少数具备大规模 AI 训练能力的芯片之一。

战略意义：在美国对华芯片出口管制背景下，MLU690 是中国 AI 训练市场的关键替代品，已获得字节跳动、阿里、百度等头部客户订单。

核心规格

项目	参数
架构	MLUarch 04（第四代）
制程	TSMC 7nm
晶体管数	~500 亿（推测）
显存	64 GB HBM3
显存带宽	2 TB/s（推测）
BF16 / FP16	642 TFLOPS（密集）
FP32	160 TFLOPS（推测）
INT8	1,320 TOPS
TDP	300 W
互联	Cambricon Link（类 NVLink）
PCIe	PCIe 5.0
发布	2025-Q4
量产	2026-Q1
单价	~$20,000（推测）

MLU690 vs H100 / H200 对比

指标	MLU690	H100 SXM	H200 SXM	差距
制程	7nm	4nm	4nm	落后 1 代
显存	64GB HBM3	80GB HBM3	141GB HBM3e	-19% / -55%
显存带宽	2 TB/s	3.35 TB/s	4.8 TB/s	-40% / -58%
BF16	330 TFLOPS	989 TFLOPS	989 TFLOPS	-67%
TDP	300W	700W	700W	-57%
软件生态	Cambricon NeuWare	CUDA	CUDA	差距大

关键洞察：MLU690 算力约为 H100 的 1/3，但 TDP 仅 300W（H100 的 43%），能效比有优势。

适用场景

✅ 中国市场 AI 训练（Llama 2/3、Qwen、GLM）
✅ 国产化替代项目（政府、国企、军工）
✅ 推理场景（性能接近 H200）
✅ 智算中心建设
❌ 顶级前沿模型训练（算力限制）
❌ 国际市场（受美国出口管制影响）

软件栈 NeuWare

层级	工具	说明
AI 框架	PyTorch-Cambricon	PyTorch 适配版
	TensorFlow-Cambricon	TensorFlow 适配版
编译器	NeuWare CC	类 nvcc
运行时	NeuWare Runtime	类 CUDA Runtime
数学库	NeuBLAS	类 cuBLAS
深度学习库	NeuDNN	类 cuDNN
通信库	Cambricon Link	类 NCCL

⚠️ 生态限制：NeuWare 生态仅 5-6 年发展，算子覆盖率约 75-85%，复杂 LLM 模型需要手工优化。

厂商信息

项目	内容
公司	中科寒武纪科技股份有限公司
股票代码	688256.SH（科创板）
创始人	陈天石（中科院计算所）
成立	2016-03
上市	2020-07-20（科创板 AI 芯片第一股）
2025 营收	~¥5.2B
总部	北京市海淀区
官网	https://www.cambricon.com
员工	~1,500 人
主要客户	字节跳动、阿里、百度、中国移动

相关产品

Moore Threads MTT S5000 - 国产全功能 GPU
Huawei Ascend 910C - 国产最强 AI
NVIDIA H100 - 国际旗舰（受出口管制）
NVIDIA H200 - H100 升级版
完整对比表

产品概述
核心规格
MLU690 vs H100 / H200 对比
适用场景
软件栈 NeuWare
厂商信息
相关产品