跳到主要内容

Huawei Ascend 950 (昇腾 950PR / 950DT)

产品概述

Huawei Ascend 950 系列(950PR / 950DT)是昇腾第四代 AI 芯片,2026 年初正式发布量产。首次引入 FP8 / FP4 低精度格式,单卡 FP8 算力 1 PFLOPS。同时首次采用 华为自研 HBM(950PR 使用 HiBL 1.0,950DT 使用 HiZQ 2.0),彻底摆脱对外部 HBM 供应的依赖。

950PR(Prefill 推理)950DT(Decode + 训练) 是华为昇腾"场景细分"策略的首次尝试——同一架构不同内存配置,精准匹配不同 AI 负载需求。

核心规格

项目Ascend 950PRAscend 950DT
架构Da Vinci v5(第四代昇腾)Da Vinci v5(第四代昇腾)
制程N+2(SMIC 国产化)N+2(SMIC 国产化)
编程模型SIMD + SIMT 双模型SIMD + SIMT 双模型
HBM 类型HiBL 1.0(自研,成本优先)HiZQ 2.0(自研,带宽优先)
HBM 容量128 GB144 GB
HBM 带宽~3 TB/s4 TB/s
FP8 算力1 PFLOPS(HiF8 格式)1 PFLOPS(HiF8 格式)
FP4 算力2 PFLOPS2 PFLOPS
BF16/FP16 算力~500 TFLOPS~500 TFLOPS
INT8 算力~2,000 TOPS~2,000 TOPS
TDP~400 W~500 W
PCIeGen 5 ×16Gen 5 ×16
互联HCCS 784 GB/sHCCS 784 GB/s
价格(推测)~¥8-10 万/卡~¥12-15 万/卡
首发2026 H12026 H1

950PR vs 950DT 差异化定位

维度950PR950DT
目标场景推理 Prefill(首Token生成)推理 Decode(逐Token生成)+ 训练
HBM 容量128 GB(较小,Prefill 内存需求低)144 GB(更大,训练需更大内存)
HBM 带宽~3 TB/s(Prefill 带宽需求适中)4 TB/s(Decode 和训练高带宽需求)
典型应用视频推荐、实时交互、搜索对话生成、文本续写、模型训练
定价较低(成本优化)较高(高性能)

关键技术突破

1. 自研 HBM(HiBL 1.0 / HiZQ 2.0)

  • HiBL 1.0(950PR):低成本方案,解决 HBM 供应被卡脖子问题
  • HiZQ 2.0(950DT):高带宽方案,4 TB/s 对标 NVIDIA HBM3e
  • 填补国内空白,彻底摆脱对 SK Hynix / Samsung 的依赖

2. HiF8 格式——精度革命

  • 华为自研 FP8 变体,精度接近 FP16,算力比 FP16 提升 2×
  • 解决大模型训练中"低精度→精度损失"的矛盾
  • 配合 FP4 格式,整体算力利用率提升 30%+

3. SIMD + SIMT 双编程模型

  • SIMD:高效向量计算(延续 910C 的 Da Vinci 核心优势)
  • SIMT:新增模型,支持灵活调度
  • 内存访问粒度从 512 字节 → 128 字节
  • 离散内存访问效率提升 4 倍
  • 提供 ASIC(昇腾 Core)和 GPGPU 双生子型号

4. CloudMatrix 384 系统

  • 384 颗 950 芯片组成超级节点
  • 总算力:384×1 PFLOPS FP8 ≈ 384 PFLOPS
  • AI 集群性能超越 NVIDIA GB300 NVL72

与前代 910C 对比

指标Ascend 910CAscend 950提升
架构Da Vinci v4(SIMD)Da Vinci v5(SIMD + SIMT双模型
制程7nm 级N+2更先进
HBMHBM2e(外购)自研 HiBL / HiZQ自主可控
HBM 容量128 GB(双芯片)128-144 GB相当
FP8/BF16 算力780 TFLOPS BF161 PFLOPS FP8~2.5×
FP4 支持❌ 不支持支持新增
TDP~310 W~400-500 W+29-61%
编程模型SIMD 专有SIMD + SIMT + ASIC/GPGPU 双生开放
自研 HBM❌ 外购自研里程碑

厂商信息

项目内容
制造商华为技术有限公司(海思半导体)
官网https://www.hiascend.com
CANNNhttps://www.hiascend.com/en/software/cann
首发2026 H1(量产)
定价(推测)950PR ~¥8-10万,950DT ~¥12-15万

适用场景

  • 大模型训练(950DT,FP8 1 PFLOPS)
  • 推理 Prefill(950PR,视频推荐 / 实时交互)
  • 推理 Decode(950DT,对话生成 / 文本续写)
  • 国产化 AI 集群(CloudMatrix 384)
  • 政企 AI 基础设施(自研 HBM,供应链安全)
  • CUDA 生态锁定(需迁移至 CANN / MindSpore)
  • FP4 训练(950 支持推理 FP4,训练仍以 FP8/BF16 为主)

相关产品