Skip to main content

寒武纪 MLU690 (国产 AI 训练芯片)

产品概述

寒武纪 MLU690 是寒武纪科技(Cambricon)面向数据中心 AI 训练市场推出的旗舰芯片,2025-Q4 发布2026-Q1 量产出货。定位为"中国版 H100",推理性能接近 H200,是国内少数具备大规模 AI 训练能力的芯片之一。

战略意义:在美国对华芯片出口管制背景下,MLU690 是中国 AI 训练市场的关键替代品,已获得字节跳动、阿里、百度等头部客户订单。

核心规格

项目参数
架构MLUarch 04(第四代)
制程TSMC 7nm
晶体管数~500 亿(推测)
显存64 GB HBM3
显存带宽2 TB/s(推测)
BF16 / FP16642 TFLOPS(密集)
FP32160 TFLOPS(推测)
INT81,320 TOPS
TDP300 W
互联Cambricon Link(类 NVLink)
PCIePCIe 5.0
发布2025-Q4
量产2026-Q1
单价~$20,000(推测)

MLU690 vs H100 / H200 对比

指标MLU690H100 SXMH200 SXM差距
制程7nm4nm4nm落后 1 代
显存64GB HBM380GB HBM3141GB HBM3e-19% / -55%
显存带宽2 TB/s3.35 TB/s4.8 TB/s-40% / -58%
BF16330 TFLOPS989 TFLOPS989 TFLOPS-67%
TDP300W700W700W-57%
软件生态Cambricon NeuWareCUDACUDA差距大

关键洞察:MLU690 算力约为 H100 的 1/3,但 TDP 仅 300W(H100 的 43%),能效比有优势。

适用场景

  • ✅ 中国市场 AI 训练(Llama 2/3、Qwen、GLM)
  • ✅ 国产化替代项目(政府、国企、军工)
  • ✅ 推理场景(性能接近 H200)
  • ✅ 智算中心建设
  • ❌ 顶级前沿模型训练(算力限制)
  • ❌ 国际市场(受美国出口管制影响)

软件栈 NeuWare

层级工具说明
AI 框架PyTorch-CambriconPyTorch 适配版
TensorFlow-CambriconTensorFlow 适配版
编译器NeuWare CC类 nvcc
运行时NeuWare Runtime类 CUDA Runtime
数学库NeuBLAS类 cuBLAS
深度学习库NeuDNN类 cuDNN
通信库Cambricon Link类 NCCL

⚠️ 生态限制:NeuWare 生态仅 5-6 年发展,算子覆盖率约 75-85%,复杂 LLM 模型需要手工优化。

厂商信息

项目内容
公司中科寒武纪科技股份有限公司
股票代码688256.SH(科创板)
创始人陈天石(中科院计算所)
成立2016-03
上市2020-07-20(科创板 AI 芯片第一股)
2025 营收~¥5.2B
总部北京市海淀区
官网https://www.cambricon.com
员工~1,500 人
主要客户字节跳动、阿里、百度、中国移动

相关产品