跳到主要内容

华为昇腾 950 量产与中国 AI 芯片生态全貌

· 阅读需 4 分钟
AI Compute Cards Wiki Editorial
Industry Research Team

2026 年 6 月 — 华为昇腾 950 系列(950PR / 950DT)已进入正式量产交付阶段,这是中国 AI 芯片产业在 2026 年的标志性事件。与此同时,寒武纪 MLU690 开始出货、摩尔线程 MTT S5000 参数公布,中国 AI 芯片三极格局正式形成。

昇腾 950 系列:自研 HBM 的历史性突破

华为海思 Ascend 950 系列 是第四代昇腾 AI 芯片,2025 年 9 月华为全联接大会首次披露,2026 Q1 正式量产

950PR(Prefill 推理专用)

项目参数
架构Da Vinci v5(SIMD + SIMT 双模型)
制程N+2(SMIC 国产化)
HBMHiBL 1.0(华为自研),128 GB
FP8 算力1 PFLOPS(HiF8 格式)
TDP~400 W
目标推理 Prefill(视频推荐、实时交互)

950DT(Decode + 训练专用)

项目参数
架构Da Vinci v5(SIMD + SIMT 双模型)
制程N+2(SMIC 国产化)
HBMHiZQ 2.0(华为自研),144 GB,4 TB/s
FP8 算力1 PFLOPS(HiF8 格式)
TDP~500 W
目标推理 Decode + 模型训练

历史意义

自研 HBM(HiBL 1.0 / HiZQ 2.0)是华为昇腾 950 最重要的技术突破——这是中国企业首次实现 HBM 内存的自研量产,彻底摆脱了对 SK Hynix / Samsung HBM 供应的依赖。配合 N+2 国产化工艺,昇腾 950 实现了从 HBM → 计算 Die → 封装 → 系统 的全链条国产化。

寒武纪 MLU690:国产唯一 FP8 支持

寒武纪第七代 AI 芯片 MLU 690(思元 690) 于 2026 H1 开始量产出货。这是 国产 AI 芯片中首款原生支持 FP8 精度 的产品。

项目MLU 690
制程5nm(TSMC / SMIC)
FP8 dense2 PFLOPS
HBM192GB HBM3E,5 TB/s
TDP~500 W
单价(OAM)~$8,000-12,000

MLU 690 的 FP8 算力(2 PFLOPS dense)在纸面上已经与 NVIDIA Blackwell(B200 FP8 4.5 PFLOPS sparse)相当。寒武纪凭借 科创板上市公司 的融资优势,在 2026 年营收目标达到 ¥15-20B(2025 年 ¥7.2B)。

摩尔线程 MTT S5000:从图形到训推一体

摩尔线程在 2026 年 2 月公开了 MTT S5000 的详细参数,采用第四代 MUSA "平湖" 架构,单卡 AI 算力 1,000 TFLOPS,80GB GDDR6X 显存,1.6 TB/s 带宽。

摩尔线程走的是全功能 GPU 路线(图形渲染 + AI 计算 + 通用计算),与 NVIDIA 策略最为接近。创始团队来自原 NVIDIA 中国,MUSIFY 工具链可帮助 CUDA 代码自动迁移到 MUSA 平台,降低生态迁移成本。

中国 AI 芯片三极格局

维度华为昇腾寒武纪摩尔线程
核心架构Da Vinci v5MLUv07MUSA 4th Gen
制程N+2 国产化5nm6nm
FP8 算力~1 PFLOPS2 PFLOPS0.5 PFLOPS(推测)
HBM 自主✅ 自研 HiBL/HiZQ❌ 外购❌ 外购
生态系统CANN + MindSporeNeuWare + MindSporeMUSA + MUSIFY
优势全链条国产化最高 FP8 算力全功能 + CUDA 迁移
2025 营收(华为内部)¥7.2B¥2.2B

全球市场对比(2026 年 Q2 更新)

梯队厂商旗舰芯片FP8/PFLOPSHBM量产时间
第一梯队NVIDIARubin R20025 PF(稀疏)288GB HBM42026 H2
第二梯队AMDMI40020 PF(密集)432GB HBM42026
华为昇腾 950DT1 PF(密集)144GB 自研 HBM2026 Q1
寒武纪MLU6902 PF(密集)192GB HBM3E2026 H1
AWSTrainium 35.7 PF(密集)144GB HBM2025 Q4 GA
第三梯队IntelGaudi 31.8 PF128GB HBM2e量产
GoogleTPU v74.6 PF(TFLOPS)192GB HBM2025
摩尔线程MTT S50001 PF80GB GDDR6X2025 Q1

:NVIDIA 使用 sparse(稀疏) 算力为标准,AMD/华为/寒武纪使用 dense(密集),不可直接比较。

展望 2026 H2

  • NVIDIA Rubin R200:2026 H2 正式出货,288GB HBM4,6 芯片 CoWoS-L 封装
  • 华为昇腾 960:路线图 2027 H2,预计 FP8 算力翻倍至 2 PFLOPS
  • 寒武纪 MLU790:预计 2027,3nm,384GB HBM4,2.5 PFLOPS
  • 摩尔线程:下一代 GPU 预计搭配 HBM3,算力 2× MTT S5000

中国 AI 芯片产业在 2026 年已经形成从 训练(寒武纪 MLU690 / 昇腾 950DT)→ 推理(昇腾 950PR / 摩尔线程 S5000)→ 系统(CloudMatrix / 分布式集群) 的完整产品矩阵。


本文基于华为全联接大会 2025(2025-09-18)公开信息、2026 年 4 月行业分析报告及 2026 年 6 月最新市场数据整理。