跳到主要内容

华为昇腾 950PR

产品概述

华为昇腾 950PRAscend 950PR)是华为于 2026年3月20日 正式发布的旗舰 AI 推理加速芯片2026年第一季度出货。采用单片式(Monolithic)设计(非 MCM),搭载 112GB 华为自研 HiBL 1.0 HBM,FP4 算力达 1.56 PFLOPS,是华为首款在推理性能上大幅超越 NVIDIA 合规版 H20 的产品(FP4 性能达 H20 的 2.8×)。

战略地位:950PR 是华为四代昇腾路线图的首款产品(2026–2028 规划:950PR → 950DT → 960 → 970),配套 CANN Next 软件栈(CUDA 兼容层),标志着华为从"可用"走向"好用"的关键转折。

核心规格

项目参数
架构昇腾 950(单片式设计)
制程中芯国际 SMIC N+3(等效 5nm 级)
封装单片式(Monolithic Die),非 MCM
HBM112 GB HiBL 1.0(Atlas 350 加速卡)/ 128 GB(芯片裸片)
HBM 带宽1.4 TB/s(Atlas 350)/ 1.6 TB/s(芯片裸片)
FP41.56 PFLOPS
FP8 / MXFP81 PFLOPS
FP16未公开(推测 ~780 TFLOPS)
互联带宽2 TB/s(自研 LingQu 协议)
内存访问粒度128 字节(vs 上代 512 字节,小 tensor 效率提升 4×)
TDP600 W
板卡形态Atlas 350 加速卡(PCIe / OAM)
量产时间2026 Q1(3月20–21日正式发布)
单价(Atlas 350)~111,000 元(~$16,000)

⚠️ 单片式设计取舍:规避了先进封装(台积电 CoWoS)限制,但裸片尺寸和良率低于 MCM 方案。这是在美国出口管制下的工程妥协,而非技术偏好。

与昇腾 910C 对比

指标昇腾 910C昇腾 950PR提升
制程SMIC N+2(等效 7nm)SMIC N+3(等效 5nm)显著升级
HBM~64GB HBM2E112GB HiBL 1.0+75%
带宽~2 TB/s(推测)1.4 TB/s持平/提升
FP4不支持1.56 PF新增
FP8不支持1 PF新增
互联~800 GB/s2 TB/s2.5×
内存粒度512 字节128 字节4× 小 tensor 效率
TDP~400W600W+50%
软件CANN(兼容性差)CANN Next(CUDA 兼容)显著改善

与竞品对比(2026 推理卡)

指标昇腾 950PRNVIDIA H20(合规版)NVIDIA L40S差距
FP41.56 PF~0.56 PF0.16 PF+178% vs H20
HBM112GB96GB48GB+17% vs H20
带宽1.4 TB/s4.0 TB/s0.86 TB/s-65% vs H20
TDP600W400W350W+50% vs H20
软件CANN NextCUDACUDA生态劣势
价格~$16,000~$20,000+~$10,000价格优势

带宽劣势说明:950PR 的 1.4 TB/s 显著低于 H20 的 4.0 TB/s,但在推理预填充(Pre-fill)阶段,算力(FP4)是瓶颈,带宽劣势影响有限。生成(Decode)阶段带宽敏感,这是 950PR 的短板。

LingQu 互联协议

项目参数
协议名LingQu(灵衢)
带宽2 TB/s(芯片间)
对比上代昇腾 910 系列:~800 GB/s(2.5×
集群扩展支持 UnifiedBus 2.0,可扩展至 100 万颗 NPU
对比 NVIDIANVLink 5:1.8 TB/s(单 GPU);NVLink 6:3.5 TB/s(Rubin)

Atlas 950 SuperCluster 机柜方案

项目参数
最大规模100 万颗 NPU
对比 NVIDIA NVL144总算力 6.7×,内存容量 15×,互联带宽 62×(华为宣称,未第三方验证)
交换机华为自研 Qingtian 系列
目标场景国家级 AI 训练集群、大模型推理云服务

CANN Next 软件栈

层级工具说明
CUDA 兼容层CANN Next Runtime~80% 标准 PyTorch 推理代码仅需配置修改,无需大量重写
图编译器CANN Graph类 XLA,自动算子融合
量化工具CANN QuantFP8 / MXFP8 训练后量化
通信库HCCL集合通信(AllReduce 等),类 NCCL
模型库ModelZoo预优化 LLM(Qianwen、ChatGLM 等)

客户与订单(2026)

客户订单金额说明
字节跳动$5.6B(确认)2026年最大单笔订单
阿里云大额(未公开)用于通义千问推理
腾讯大额(未公开)用于混元大模型
百度大额(未公开)用于文心一言

2026年总销售额预计:$12B,首次在中国 AI 芯片市场与 NVIDIA 收入规模持平。

昇腾路线图(2026–2028)

产品发布时间定位
950PR2026 Q1旗舰推理(本页)
950DT2026 Q4解码 + 训练场景
9602027 Q4目标追平 Blackwell 架构
9702028 Q4目标追平 Rubin 架构

关键特性

  • 单片式设计:规避美国先进封装管制,但牺牲最大裸片尺寸
  • FP4 领先:1.56 PFLOPS,超越 NVIDIA H20(合规版)2.8×
  • LingQu 2 TB/s 互联:国产协议,支持超大集群
  • CANN Next CUDA 兼容:降低迁移成本,生态改善关键
  • 600W TDP:高功耗,需要液冷或强化风冷
  • 缺点:HBM 带宽仅 1.4 TB/s(vs H20 4.0 TB/s),生成阶段性能受限

适用场景

  • 超长上下文推理(Pre-fill 阶段,FP4 算力瓶颈场景)
  • 国产 AI 云服务(阿里云、腾讯云、百度云)
  • 政府/国企 AI 项目(供应链安全优先)
  • 大模型推理即服务(MaaS)
  • ❌ 大规模训练(带宽劣势)
  • ❌ 国际市场(出口管制 + 生态劣势)

相关卡

参考资料