华为昇腾 950 量产与中国 AI 芯片生态全貌

2026年6月4日 · 阅读需 4 分钟

Industry Research Team

2026 年 6 月 — 华为昇腾 950 系列（950PR / 950DT）已进入正式量产交付阶段，这是中国 AI 芯片产业在 2026 年的标志性事件。与此同时，寒武纪 MLU690 开始出货、摩尔线程 MTT S5000 参数公布，中国 AI 芯片三极格局正式形成。

昇腾 950 系列：自研 HBM 的历史性突破

华为海思 Ascend 950 系列 是第四代昇腾 AI 芯片，2025 年 9 月华为全联接大会首次披露，2026 Q1 正式量产。

950PR（Prefill 推理专用）

项目	参数
架构	Da Vinci v5（SIMD + SIMT 双模型）
制程	N+2（SMIC 国产化）
HBM	HiBL 1.0（华为自研），128 GB
FP8 算力	1 PFLOPS（HiF8 格式）
TDP	~400 W
目标	推理 Prefill（视频推荐、实时交互）

950DT（Decode + 训练专用）

项目	参数
架构	Da Vinci v5（SIMD + SIMT 双模型）
制程	N+2（SMIC 国产化）
HBM	HiZQ 2.0（华为自研），144 GB，4 TB/s
FP8 算力	1 PFLOPS（HiF8 格式）
TDP	~500 W
目标	推理 Decode + 模型训练

历史意义

自研 HBM（HiBL 1.0 / HiZQ 2.0）是华为昇腾 950 最重要的技术突破——这是中国企业首次实现 HBM 内存的自研量产，彻底摆脱了对 SK Hynix / Samsung HBM 供应的依赖。配合 N+2 国产化工艺，昇腾 950 实现了从 HBM → 计算 Die → 封装 → 系统 的全链条国产化。

寒武纪 MLU690：国产唯一 FP8 支持

寒武纪第七代 AI 芯片 MLU 690（思元 690） 于 2026 H1 开始量产出货。这是 国产 AI 芯片中首款原生支持 FP8 精度 的产品。

项目	MLU 690
制程	5nm（TSMC / SMIC）
FP8 dense	2 PFLOPS
HBM	192GB HBM3E，5 TB/s
TDP	~500 W
单价（OAM）	~$8,000-12,000

MLU 690 的 FP8 算力（2 PFLOPS dense）在纸面上已经与 NVIDIA Blackwell（B200 FP8 4.5 PFLOPS sparse）相当。寒武纪凭借 科创板上市公司 的融资优势，在 2026 年营收目标达到 ¥15-20B（2025 年 ¥7.2B）。

摩尔线程 MTT S5000：从图形到训推一体

摩尔线程在 2026 年 2 月公开了 MTT S5000 的详细参数，采用第四代 MUSA "平湖" 架构，单卡 AI 算力 1,000 TFLOPS，80GB GDDR6X 显存，1.6 TB/s 带宽。

摩尔线程走的是全功能 GPU 路线（图形渲染 + AI 计算 + 通用计算），与 NVIDIA 策略最为接近。创始团队来自原 NVIDIA 中国，MUSIFY 工具链可帮助 CUDA 代码自动迁移到 MUSA 平台，降低生态迁移成本。

中国 AI 芯片三极格局

维度	华为昇腾	寒武纪	摩尔线程
核心架构	Da Vinci v5	MLUv07	MUSA 4th Gen
制程	N+2 国产化	5nm	6nm
FP8 算力	~1 PFLOPS	2 PFLOPS	0.5 PFLOPS（推测）
HBM 自主	✅ 自研 HiBL/HiZQ	❌ 外购	❌ 外购
生态系统	CANN + MindSpore	NeuWare + MindSpore	MUSA + MUSIFY
优势	全链条国产化	最高 FP8 算力	全功能 + CUDA 迁移
2025 营收	（华为内部）	¥7.2B	¥2.2B

全球市场对比（2026 年 Q2 更新）

梯队	厂商	旗舰芯片	FP8/PFLOPS	HBM	量产时间
第一梯队	NVIDIA	Rubin R200	25 PF（稀疏）	288GB HBM4	2026 H2
第二梯队	AMD	MI400	20 PF（密集）	432GB HBM4	2026
	华为	昇腾 950DT	1 PF（密集）	144GB 自研 HBM	2026 Q1
	寒武纪	MLU690	2 PF（密集）	192GB HBM3E	2026 H1
	AWS	Trainium 3	5.7 PF（密集）	144GB HBM	2025 Q4 GA
第三梯队	Intel	Gaudi 3	1.8 PF	128GB HBM2e	量产
	Google	TPU v7	4.6 PF(TFLOPS)	192GB HBM	2025
	摩尔线程	MTT S5000	1 PF	80GB GDDR6X	2025 Q1

注：NVIDIA 使用 sparse（稀疏） 算力为标准，AMD/华为/寒武纪使用 dense（密集），不可直接比较。

展望 2026 H2

NVIDIA Rubin R200：2026 H2 正式出货，288GB HBM4，6 芯片 CoWoS-L 封装
华为昇腾 960：路线图 2027 H2，预计 FP8 算力翻倍至 2 PFLOPS
寒武纪 MLU790：预计 2027，3nm，384GB HBM4，2.5 PFLOPS
摩尔线程：下一代 GPU 预计搭配 HBM3，算力 2× MTT S5000

中国 AI 芯片产业在 2026 年已经形成从 训练（寒武纪 MLU690 / 昇腾 950DT）→ 推理（昇腾 950PR / 摩尔线程 S5000）→ 系统（CloudMatrix / 分布式集群） 的完整产品矩阵。

本文基于华为全联接大会 2025（2025-09-18）公开信息、2026 年 4 月行业分析报告及 2026 年 6 月最新市场数据整理。

昇腾 950 系列：自研 HBM 的历史性突破​

950PR（Prefill 推理专用）​

950DT（Decode + 训练专用）​

历史意义​

寒武纪 MLU690：国产唯一 FP8 支持​

摩尔线程 MTT S5000：从图形到训推一体​

中国 AI 芯片三极格局​

全球市场对比（2026 年 Q2 更新）​

展望 2026 H2​