产品概述
华为昇腾 950PR(Ascend 950PR)是华为于 2026年3月20日 正式发布的旗舰 AI 推理加速芯片,2026年第一季度出货。采用单片式(Monolithic)设计(非 MCM),搭载 112GB 华为自研 HiBL 1.0 HBM,FP4 算力达 1.56 PFLOPS,是华为首款在推理性能上大幅超越 NVIDIA 合规版 H20 的产品(FP4 性能达 H20 的 2.8×)。
战略地位:950PR 是华为四代昇腾路线图的首款产品(2026–2028 规划:950PR → 950DT → 960 → 970),配套 CANN Next 软件栈(CUDA 兼容层),标志着华为从"可用"走向"好用"的关键转折。
核心规格
| 项目 | 参数 |
|---|
| 架构 | 昇腾 950(单片式设计) |
| 制程 | 中芯国际 SMIC N+3(等效 5nm 级) |
| 封装 | 单片式(Monolithic Die),非 MCM |
| HBM | 112 GB HiBL 1.0(Atlas 350 加速卡)/ 128 GB(芯片裸片) |
| HBM 带宽 | 1.4 TB/s(Atlas 350)/ 1.6 TB/s(芯片裸片) |
| FP4 | 1.56 PFLOPS |
| FP8 / MXFP8 | 1 PFLOPS |
| FP16 | 未公开(推测 ~780 TFLOPS) |
| 互联带宽 | 2 TB/s(自研 LingQu 协议) |
| 内存访问粒度 | 128 字节(vs 上代 512 字节,小 tensor 效率提升 4×) |
| TDP | 600 W |
| 板卡形态 | Atlas 350 加速卡(PCIe / OAM) |
| 量产时间 | 2026 Q1(3月20–21日正式发布) |
| 单价(Atlas 350) | ~111,000 元(~$16,000) |
⚠️ 单片式设计取舍:规避了先进封装(台积电 CoWoS)限制,但裸片尺寸和良率低于 MCM 方案。这是在美国出口管制下的工程妥协,而非技术偏好。
与昇腾 910C 对比
| 指标 | 昇腾 910C | 昇腾 950PR | 提升 |
|---|
| 制程 | SMIC N+2(等效 7nm) | SMIC N+3(等效 5nm) | 显著升级 |
| HBM | ~64GB HBM2E | 112GB HiBL 1.0 | +75% |
| 带宽 | ~2 TB/s(推测) | 1.4 TB/s | 持平/提升 |
| FP4 | 不支持 | 1.56 PF | 新增 |
| FP8 | 不支持 | 1 PF | 新增 |
| 互联 | ~800 GB/s | 2 TB/s | 2.5× |
| 内存粒度 | 512 字节 | 128 字节 | 4× 小 tensor 效率 |
| TDP | ~400W | 600W | +50% |
| 软件 | CANN(兼容性差) | CANN Next(CUDA 兼容) | 显著改善 |
与竞品对比(2026 推理卡)
| 指标 | 昇腾 950PR | NVIDIA H20(合规版) | NVIDIA L40S | 差距 |
|---|
| FP4 | 1.56 PF | ~0.56 PF | 0.16 PF | +178% vs H20 |
| HBM | 112GB | 96GB | 48GB | +17% vs H20 |
| 带宽 | 1.4 TB/s | 4.0 TB/s | 0.86 TB/s | -65% vs H20 |
| TDP | 600W | 400W | 350W | +50% vs H20 |
| 软件 | CANN Next | CUDA | CUDA | 生态劣势 |
| 价格 | ~$16,000 | ~$20,000+ | ~$10,000 | 价格优势 |
带宽劣势说明:950PR 的 1.4 TB/s 显著低于 H20 的 4.0 TB/s,但在推理预填充(Pre-fill)阶段,算力(FP4)是瓶颈,带宽劣势影响有限。生成(Decode)阶段带宽敏感,这是 950PR 的短板。
LingQu 互联协议
| 项目 | 参数 |
|---|
| 协议名 | LingQu(灵衢) |
| 带宽 | 2 TB/s(芯片间) |
| 对比上代 | 昇腾 910 系列:~800 GB/s(2.5×) |
| 集群扩展 | 支持 UnifiedBus 2.0,可扩展至 100 万颗 NPU |
| 对比 NVIDIA | NVLink 5:1.8 TB/s(单 GPU);NVLink 6:3.5 TB/s(Rubin) |
Atlas 950 SuperCluster 机柜方案
| 项目 | 参数 |
|---|
| 最大规模 | 100 万颗 NPU |
| 对比 NVIDIA NVL144 | 总算力 6.7×,内存容量 15×,互联带宽 62×(华为宣称,未第三方验证) |
| 交换机 | 华为自研 Qingtian 系列 |
| 目标场景 | 国家级 AI 训练集群、大模型推理云服务 |
CANN Next 软件栈
| 层级 | 工具 | 说明 |
|---|
| CUDA 兼容层 | CANN Next Runtime | ~80% 标准 PyTorch 推理代码仅需配置修改,无需大量重写 |
| 图编译器 | CANN Graph | 类 XLA,自动算子融合 |
| 量化工具 | CANN Quant | FP8 / MXFP8 训练后量化 |
| 通信库 | HCCL | 集合通信(AllReduce 等),类 NCCL |
| 模型库 | ModelZoo | 预优化 LLM(Qianwen、ChatGLM 等) |
客户与订单(2026)
| 客户 | 订单金额 | 说明 |
|---|
| 字节跳动 | $5.6B(确认) | 2026年最大单笔订单 |
| 阿里云 | 大额(未公开) | 用于通义千问推理 |
| 腾讯 | 大额(未公开) | 用于混元大模型 |
| 百度 | 大额(未公开) | 用于文心一言 |
2026年总销售额预计:$12B,首次在中国 AI 芯片市场与 NVIDIA 收入规模持平。
昇腾路线图(2026–2028)
| 产品 | 发布时间 | 定位 |
|---|
| 950PR | 2026 Q1 | 旗舰推理(本页) |
| 950DT | 2026 Q4 | 解码 + 训练场景 |
| 960 | 2027 Q4 | 目标追平 Blackwell 架构 |
| 970 | 2028 Q4 | 目标追平 Rubin 架构 |
关键特性
- 单片式设计:规避美国先进封装管制,但牺牲最大裸片尺寸
- FP4 领先:1.56 PFLOPS,超越 NVIDIA H20(合规版)2.8×
- LingQu 2 TB/s 互联:国产协议,支持超大集群
- CANN Next CUDA 兼容:降低迁移成本,生态改善关键
- 600W TDP:高功耗,需要液冷或强化风冷
- 缺点:HBM 带宽仅 1.4 TB/s(vs H20 4.0 TB/s),生成阶段性能受限
适用场景
- ✅ 超长上下文推理(Pre-fill 阶段,FP4 算力瓶颈场景)
- ✅ 国产 AI 云服务(阿里云、腾讯云、百度云)
- ✅ 政府/国企 AI 项目(供应链安全优先)
- ✅ 大模型推理即服务(MaaS)
- ❌ 大规模训练(带宽劣势)
- ❌ 国际市场(出口管制 + 生态劣势)
相关卡
参考资料