华为昇腾 950PR

产品概述

华为昇腾 950PR（Ascend 950PR）是华为于 2026年3月20日 正式发布的旗舰 AI 推理加速芯片，2026年第一季度出货。采用单片式（Monolithic）设计（非 MCM），搭载 112GB 华为自研 HiBL 1.0 HBM，FP4 算力达 1.56 PFLOPS，是华为首款在推理性能上大幅超越 NVIDIA 合规版 H20 的产品（FP4 性能达 H20 的 2.8×）。

战略地位：950PR 是华为四代昇腾路线图的首款产品（2026–2028 规划：950PR → 950DT → 960 → 970），配套 CANN Next 软件栈（CUDA 兼容层），标志着华为从"可用"走向"好用"的关键转折。

核心规格

项目	参数
发布	2026-03-20（正式发布）
架构	昇腾 950（单片式设计）
制程	中芯国际 SMIC N+3（等效 5nm 级）
封装	单片式（Monolithic Die），非 MCM
HBM	112 GB HiBL 1.0（Atlas 350 加速卡）/ 128 GB（芯片裸片）
HBM 带宽	1.4 TB/s（Atlas 350）/ 1.6 TB/s（芯片裸片）
FP4	1.56 PFLOPS
FP8 / MXFP8	1 PFLOPS
FP16	未公开（推测 ~780 TFLOPS）
互联带宽	2 TB/s（自研 LingQu 协议）
内存访问粒度	128 字节（vs 上代 512 字节，小 tensor 效率提升 4×）
TDP	600 W
板卡形态	Atlas 350 加速卡（PCIe / OAM）
量产时间	2026 Q2 量产（4月起）；2026 全年产能规划 ~75 万颗
单价（Atlas 350）	~111,000 元（~$16,000）

⚠️ 单片式设计取舍：规避了先进封装（台积电 CoWoS）限制，但裸片尺寸和良率低于 MCM 方案。这是在美国出口管制下的工程妥协，而非技术偏好。

与昇腾 910C 对比

指标	昇腾 910C	昇腾 950PR	提升
制程	SMIC N+2（等效 7nm）	SMIC N+3（等效 5nm）	显著升级
HBM	~64GB HBM2E	112GB HiBL 1.0	+75%
带宽	~2 TB/s（推测）	1.4 TB/s	持平/提升
FP4	不支持	1.56 PF	新增
FP8	不支持	1 PF	新增
互联	~800 GB/s	2 TB/s	2.5×
内存粒度	512 字节	128 字节	4× 小 tensor 效率
TDP	~400W	600W	+50%
软件	CANN（兼容性差）	CANN Next（CUDA 兼容）	显著改善

与竞品对比（2026 推理卡）

指标	昇腾 950PR	NVIDIA H20（合规版）	NVIDIA L40S	差距
FP4	1.56 PF	~0.56 PF	0.16 PF	+178% vs H20
HBM	112GB	96GB	48GB	+17% vs H20
带宽	1.4 TB/s	4.0 TB/s	0.86 TB/s	-65% vs H20
TDP	600W	400W	350W	+50% vs H20
软件	CANN Next	CUDA	CUDA	生态劣势
价格	~$16,000	~$20,000+	~$10,000	价格优势

带宽劣势说明：950PR 的 1.4 TB/s 显著低于 H20 的 4.0 TB/s，但在推理预填充（Pre-fill）阶段，算力（FP4）是瓶颈，带宽劣势影响有限。生成（Decode）阶段带宽敏感，这是 950PR 的短板。

LingQu 互联协议

项目	参数
协议名	LingQu（灵衢）
带宽	2 TB/s（芯片间）
对比上代	昇腾 910 系列：~800 GB/s（2.5×）
集群扩展	支持 UnifiedBus 2.0，可扩展至 100 万颗 NPU
对比 NVIDIA	NVLink 5：1.8 TB/s（单 GPU）；NVLink 6：3.5 TB/s（Rubin）

Atlas 950 SuperCluster 机柜方案

项目	参数
最大规模	100 万颗 NPU
对比 NVIDIA NVL144	总算力 6.7×，内存容量 15×，互联带宽 62×（华为宣称，未第三方验证）
交换机	华为自研 Qingtian 系列
目标场景	国家级 AI 训练集群、大模型推理云服务

CANN Next 软件栈

层级	工具	说明
CUDA 兼容层	CANN Next Runtime	~80% 标准 PyTorch 推理代码仅需配置修改，无需大量重写
图编译器	CANN Graph	类 XLA，自动算子融合
量化工具	CANN Quant	FP8 / MXFP8 训练后量化
通信库	HCCL	集合通信（AllReduce 等），类 NCCL
模型库	ModelZoo	预优化 LLM（Qianwen、ChatGLM 等）

客户与订单（2026）

客户	订单金额	说明
字节跳动	$5.6B（确认）	2026年最大单笔订单
阿里云	大额（未公开）	用于通义千问推理
腾讯	大额（未公开）	用于混元大模型
百度	大额（未公开）	用于文心一言

2026年总销售额预计：$12B，首次在中国 AI 芯片市场与 NVIDIA 收入规模持平。

2026 最新进展：950PR 已于 2026 年 4 月量产，全年产能规划 ~75 万颗，已获字节跳动、阿里、腾讯等头部云厂大额订单；华为计划 2026 Q4 携 950PR/950DT 及 Atlas 950 SuperPod 进入韩国市场。

昇腾路线图（2026–2028）

产品	发布时间	定位
950PR	2026 Q1	旗舰推理（本页）
950DT	2026 Q4	解码 + 训练场景
960	2027 Q4	目标追平 Blackwell 架构
970	2028 Q4	目标追平 Rubin 架构

关键特性

单片式设计：规避美国先进封装管制，但牺牲最大裸片尺寸
FP4 领先：1.56 PFLOPS，超越 NVIDIA H20（合规版）2.8×
LingQu 2 TB/s 互联：国产协议，支持超大集群
CANN Next CUDA 兼容：降低迁移成本，生态改善关键
600W TDP：高功耗，需要液冷或强化风冷
缺点：HBM 带宽仅 1.4 TB/s（vs H20 4.0 TB/s），生成阶段性能受限

适用场景

✅ 超长上下文推理（Pre-fill 阶段，FP4 算力瓶颈场景）
✅ 国产 AI 云服务（阿里云、腾讯云、百度云）
✅ 政府/国企 AI 项目（供应链安全优先）
✅ 大模型推理即服务（MaaS）
❌ 大规模训练（带宽劣势）
❌ 国际市场（出口管制 + 生态劣势）

华为昇腾 950PR

产品概述

核心规格

与昇腾 910C 对比

与竞品对比（2026 推理卡）

LingQu 互联协议

Atlas 950 SuperCluster 机柜方案

CANN Next 软件栈

客户与订单（2026）

昇腾路线图（2026–2028）

关键特性

适用场景

相关卡

参考资料

产品概述​

核心规格​

与昇腾 910C 对比​

与竞品对比（2026 推理卡）​

LingQu 互联协议​

Atlas 950 SuperCluster 机柜方案​

CANN Next 软件栈​

客户与订单（2026）​

昇腾路线图（2026–2028）​

关键特性​

适用场景​

相关卡​

参考资料​

产品概述

核心规格

与昇腾 910C 对比

与竞品对比（2026 推理卡）

LingQu 互联协议

Atlas 950 SuperCluster 机柜方案

CANN Next 软件栈

客户与订单（2026）

昇腾路线图（2026–2028）

关键特性

适用场景

相关卡

参考资料