Skip to main content

寒武纪 思元 MLU

厂商: 寒武纪 Cambricon

分类: ASIC 专用加速卡

架构: MLUarch

简介

寒武纪(Cambricon)国产 AI 加速卡,思元系列覆盖训练与推理场景。思元 590(MLU590)采用 7nm Chiplet 封装,FP16 算力 256 TFLOPS,INT8 算力 512 TOPS,96GB HBM2e。自研 Bangware 软件栈实现 CUDA 兼容,通过 NeuWare SDK 调用。2025 年出货约 11.6 万颗,国产第三梯队。

规格参数

型号算力显存/内存接口TDP制程
思元 590256 TFLOPS (FP16) / 512 (INT8) / 80 (FP32)96GB HBM2e (2.7 TB/s)OAM350W7nm
思元 370128 TOPS (INT8)24GB LPDDR5PCIe 4.0150W12nm
思元 27064 TOPS (INT8)8GB DDR4PCIe 3.070W16nm

官方网站

访问官方网站

驱动下载

Linux

相关文档

操作系统支持

WindowsLinuxmacOSAndroid

版本历史

版本发布时间说明
Neuware 5.02024590 支持 + CNN/Transformer 双优化
BANG C 2.02023兼容 CUDA 编程模型

性能基准

型号任务性能指标
思元 590BERT-Large 训练~80% A100 效率 (官方数据)
思元 590INT8 推理512 TOPS
思元 370推理吞吐INT8 优化
思元 270边缘推理64 TOPS, 70W

定价信息

型号参考价格备注
思元 590需询价企业级训练卡
思元 370需询价推理加速卡
思元 270需询价边缘/端侧

快速安装

Linux (Ubuntu 22.04 / Kylin)

# 1. 安装 NeuWare 驱动
sudo ./neuware-driver-*.run --install

# 2. 安装 NeuWare SDK
sudo ./neuware-sdk-*.run --install

# 3. 验证
cnmon

NeuWare 从 寒武纪开发者社区 下载。

代码示例

Python (Cambricon PyTorch)

import torch
import torch_cambricon # 寒武纪 NPU 扩展

# 使用 MLU 后端
device = torch.device("mlu")
x = torch.randn(1024, 1024, device=device)
y = torch.matmul(x, x)
print(f"MLU matrix multiply: {y.shape}")

Bang C (寒武纪 CUDA 兼容)

// Bang C API 与 CUDA 高度兼容
__mlu_entry__ void kernel(float *input, float *output) {
int idx = get_thread_id();
output[idx] = input[idx] * 2.0f;
}

架构特色

  • MLUarch: 寒武纪自研 AI 加速架构,590 采用 7nm Chiplet 封装,96GB HBM2e 大显存
  • Bang C: 寒武纪 CUDA 兼容编程语言,CUDA 代码可低成本迁移
  • NeuWare: 完整软件栈 — 驱动 + 运行时 (CNRT) + 算子库 (CNBL/CNCL) + 编译器

模型兼容性

模型/框架支持情况备注
PyTorch✅ torch_cambriconMLU 后端
Bang C✅ 原生CUDA 兼容
MindSpore⚠️适配中
Llama / Qwen 等 LLM⚠️生态逐步完善
模型量化INT8 优化
国产 OS麒麟/UOS 适配

相关产品

如果你在评估替代方案,以下产品可能也适合你的场景: