华为昇腾 950 量产与中国 AI 芯片生态全貌
2026 年 6 月 — 华为昇腾 950 系列(950PR / 950DT)已进入正式量产交付阶段,这是中国 AI 芯片产业在 2026 年的标志性事件。与此同时,寒武纪 MLU690 开始出货、摩尔线程 MTT S5000 参数公布,中国 AI 芯片三极格局正式形成。
昇腾 950 系列:自研 HBM 的历史性突破
华为海思 Ascend 950 系列 是第四代昇腾 AI 芯片,2025 年 9 月华为全联接大会首次披露,2026 Q1 正式量产。
950PR(Prefill 推理专用)
| 项目 | 参数 |
|---|---|
| 架构 | Da Vinci v5(SIMD + SIMT 双模型) |
| 制程 | N+2(SMIC 国产化) |
| HBM | HiBL 1.0(华为自研),128 GB |
| FP8 算力 | 1 PFLOPS(HiF8 格式) |
| TDP | ~400 W |
| 目标 | 推理 Prefill(视频推荐、实时交互) |
950DT(Decode + 训练专用)
| 项目 | 参数 |
|---|---|
| 架构 | Da Vinci v5(SIMD + SIMT 双模型) |
| 制程 | N+2(SMIC 国产化) |
| HBM | HiZQ 2.0(华为自研),144 GB,4 TB/s |
| FP8 算力 | 1 PFLOPS(HiF8 格式) |
| TDP | ~500 W |
| 目标 | 推理 Decode + 模型训练 |
历史意义
自研 HBM(HiBL 1.0 / HiZQ 2.0)是华为昇腾 950 最重要的技术突破——这是中国企业首次实现 HBM 内存的自研量产,彻底摆脱了对 SK Hynix / Samsung HBM 供应的依赖。配合 N+2 国产化工艺,昇腾 950 实现了从 HBM → 计算 Die → 封装 → 系统 的全链条国产化。
寒武纪 MLU690:国产唯一 FP8 支持
寒武纪第七代 AI 芯片 MLU 690(思元 690) 于 2026 H1 开始量产出货。这是 国产 AI 芯片中首款原生支持 FP8 精度 的产品。
| 项目 | MLU 690 |
|---|---|
| 制程 | 5nm(TSMC / SMIC) |
| FP8 dense | 2 PFLOPS |
| HBM | 192GB HBM3E,5 TB/s |
| TDP | ~500 W |
| 单价(OAM) | ~$8,000-12,000 |
MLU 690 的 FP8 算力(2 PFLOPS dense)在纸面上已经与 NVIDIA Blackwell(B200 FP8 4.5 PFLOPS sparse)相当。寒武纪凭借 科创板上市公司 的融资优势,在 2026 年营收目标达到 ¥15-20B(2025 年 ¥7.2B)。
摩尔线程 MTT S5000:从图形到训推一体
摩尔线程在 2026 年 2 月公开了 MTT S5000 的详细参数,采用第四代 MUSA "平湖" 架构,单卡 AI 算力 1,000 TFLOPS,80GB GDDR6X 显存,1.6 TB/s 带宽。
摩尔线程走的是全功能 GPU 路线(图形渲染 + AI 计算 + 通用计算),与 NVIDIA 策略最为接近。创始团队来自原 NVIDIA 中国,MUSIFY 工具链可帮助 CUDA 代码自动迁移到 MUSA 平台,降低生态迁移成本。
中国 AI 芯片三极格局
| 维度 | 华为昇腾 | 寒武纪 | 摩尔线程 |
|---|---|---|---|
| 核心架构 | Da Vinci v5 | MLUv07 | MUSA 4th Gen |
| 制程 | N+2 国产化 | 5nm | 6nm |
| FP8 算力 | ~1 PFLOPS | 2 PFLOPS | 0.5 PFLOPS(推测) |
| HBM 自主 | ✅ 自研 HiBL/HiZQ | ❌ 外购 | ❌ 外购 |
| 生态系统 | CANN + MindSpore | NeuWare + MindSpore | MUSA + MUSIFY |
| 优势 | 全链条国产化 | 最高 FP8 算力 | 全功能 + CUDA 迁移 |
| 2025 营收 | (华为内部) | ¥7.2B | ¥2.2B |
全球市场对比(2026 年 Q2 更新)
| 梯队 | 厂商 | 旗舰芯片 | FP8/PFLOPS | HBM | 量产时间 |
|---|---|---|---|---|---|
| 第一梯队 | NVIDIA | Rubin R200 | 25 PF(稀疏) | 288GB HBM4 | 2026 H2 |
| 第二梯队 | AMD | MI400 | 20 PF(密集) | 432GB HBM4 | 2026 |
| 华为 | 昇腾 950DT | 1 PF(密集) | 144GB 自研 HBM | 2026 Q1 | |
| 寒武纪 | MLU690 | 2 PF(密集) | 192GB HBM3E | 2026 H1 | |
| AWS | Trainium 3 | 5.7 PF(密集) | 144GB HBM | 2025 Q4 GA | |
| 第三梯队 | Intel | Gaudi 3 | 1.8 PF | 128GB HBM2e | 量产 |
| TPU v7 | 4.6 PF(TFLOPS) | 192GB HBM | 2025 | ||
| 摩尔线程 | MTT S5000 | 1 PF | 80GB GDDR6X | 2025 Q1 |
注:NVIDIA 使用 sparse(稀疏) 算力为标准,AMD/华为/寒武纪使用 dense(密集),不可直接比较。
展望 2026 H2
- NVIDIA Rubin R200:2026 H2 正式出货,288GB HBM4,6 芯片 CoWoS-L 封装
- 华为昇腾 960:路线图 2027 H2,预计 FP8 算力翻倍至 2 PFLOPS
- 寒武纪 MLU790:预计 2027,3nm,384GB HBM4,2.5 PFLOPS
- 摩尔线程:下一代 GPU 预计搭配 HBM3,算力 2× MTT S5000
中国 AI 芯片产业在 2026 年已经形成从 训练(寒武纪 MLU690 / 昇腾 950DT)→ 推理(昇腾 950PR / 摩尔线程 S5000)→ 系统(CloudMatrix / 分布式集群) 的完整产品矩阵。
本文基于华为全联接大会 2025(2025-09-18)公开信息、2026 年 4 月行业分析报告及 2026 年 6 月最新市场数据整理。