Huawei Ascend 950DT (昇腾 950DT)

产品概述

华为昇腾 950DT 是昇腾第四代 AI 芯片的高带宽版本，2026年8月正式上线华为云平台。与 950PR（成本优化版）共享完全相同的 Da Vinci v5 计算核心，但搭载自研 HiZQ 2.0 HBM 内存系统，内存容量达 144GB，带宽高达 4TB/s，专为推理 Decode（逐 Token 生成）阶段和模型训练场景打造。

950PR vs 950DT 双版本策略：华为在昇腾 950 系列首次采用"场景细分"设计——同一计算核心搭配不同内存子系统，精准匹配 AI 负载的差异化需求。950PR 主攻 Prefill（首 Token 生成），950DT 主攻 Decode + 训练。

核心规格

项目	参数
架构	Da Vinci v5（第四代昇腾）
制程	SMIC N+2（等效 7nm 改良）
编程模型	SIMD + SIMT 双模型
HBM 类型	HiZQ 2.0（自研，带宽优先）
HBM 容量	144 GB
HBM 带宽	4 TB/s
互联带宽	2 TB/s（HCCS 协议）
FP8 算力	1 PFLOPS（HiF8 格式）
FP4 算力	2 PFLOPS（MXFP4 格式）
BF16/FP16 算力	~500 TFLOPS
INT8 算力	~2,000 TOPS
TDP	500 W
PCIe	Gen 5 ×16
发布时间	2026年8月（华为云上线）
价格	~¥12-15 万/卡（推测）

950DT vs 950PR 详细对比

维度	950PR	950DT
目标场景	推理 Prefill（首 Token 生成）、视频推荐、实时交互	推理 Decode（逐 Token 生成）、模型训练、高并发推理
HBM 类型	HiBL 1.0（成本优先）	HiZQ 2.0（带宽优先）
HBM 容量	128 GB	144 GB
HBM 带宽	~3 TB/s	4 TB/s
互联带宽	HCCS 784 GB/s	HCCS 2 TB/s
支持精度	FP8、HiF8	FP8、MXFP8、MXFP4、HiF8
典型应用	视频推荐、搜索	对话生成、文本续写、SFT 微调
定价	较低（~¥7 万/卡）	较高（~¥12-15 万/卡）

关键技术突破

1. HiZQ 2.0 自研 HBM

带宽达 4TB/s，超越 NVIDIA HBM3e（3.35TB/s），仅次于 HBM4（4.8TB/s）
容量 144GB，支持更大 Batch Size 和更长上下文窗口
彻底摆脱对 SK 海力士 / 三星 HBM 的依赖，供应链自主可控

2. Decode 阶段专项优化

高带宽内存子系统：Decode 阶段瓶颈在内存带宽（而非算力），4TB/s 带宽使长上下文推理吞吐量提升 2×
MXFP4/MXFP8 支持：低精度格式减少内存搬运量，进一步提升 Decode 效率
与 950PR 协同：Prefill 阶段由 950PR 处理，Decode 阶段由 950DT 承接，组成"异构推理流水线"

3. SIMD + SIMT 双编程模型

SIMD：高效向量计算（延续 910C 的 Da Vinci 核心优势）
SIMT：新增模型，支持灵活调度，更适配 Decode 阶段的不规则内存访问模式
内存访问粒度从 512 字节 → 128 字节，离散内存访问效率提升 4 倍

4. CloudMatrix 384 系统集成

384 颗 950DT 芯片可组成超级节点（需与 950PR 混合部署）
总算力：384 × 1 PFLOPS FP8 ≈ 384 PFLOPS
总内存：384 × 144GB = 55,296 GB（约 54TB）
AI 集群性能对标 NVIDIA GB300 NVL72
已商用落地 750+ 套（截至 2026 年 7 月 WAIC 披露）

5. Atlas 950 SuperPoD 超节点（WAIC 2026 首次真机展示）

2026 年 7 月 17 日 WAIC（世界人工智能大会），华为首次公开展出昇腾 950 超节点真机，斩获 SAIL 最高奖：

项目	1024 卡配置（展出）	8192 卡满配（规划）
芯片	1,024 颗 Ascend 950DT	8,192 颗 Ascend 950DT
FP8 算力	1 EFLOPS	8 EFLOPS
FP4 算力	2 EFLOPS	16 EFLOPS
统一内存	256 TB（全局编址）	1,152 TB
互联带宽	TB 级 NPU 互联	16.3 PB/s
RTT 时延	3 μs（超低）	3 μs
互联协议	灵衢 2.0（单跳 200ns）	灵衢 2.0
机柜数	128 计算 + 32 互联 = 160 柜	~160 柜（满配）
训练性能	—	较 Atlas 900 提升 17 倍
批量上市	2026 Q4	2026 Q4

💡 超节点核心优势：跨物理节点统一内存编址（业界最大 256TB）、超大带宽、超低时延。以系统级能力弥补单芯片制程差距，支撑十万亿级参数大模型高效训练与推理。

与竞品对比

指标	Ascend 950DT	NVIDIA H200	NVIDIA B200	AMD MI355X
FP8 算力	1 PFLOPS	1.97 PFLOPS	4.5 PFLOPS	2.3 PFLOPS
HBM 容量	144 GB	141 GB	192 GB	288 GB
HBM 带宽	4 TB/s	4.8 TB/s	8 TB/s	6 TB/s
TDP	~500W	700W	1,000W	1,400W
制程	SMIC N+2	TSMC 4NP	TSMC 4NP	TSMC 3NM
生态	CANN（华为）	CUDA	CUDA	ROCm

生态进展

DeepSeek 优先部署

DeepSeek V4 已搭载昇腾 950 算力平台（含 950DT）
预计 2026年6月发布 V4.1 版本（950PR 优化）
预计 2026年8月发布 V4.2 版本（950DT 优化），模型能力进一步释放
目标：在 AI 编程等维度赶超美国顶级闭源 AI 模型

CANN Next CUDA 兼容层

~80% PyTorch 代码仅需配置修改即可迁移
支持 DeepSeek、Qwen、LLaMA 等主流模型
华为云 ModelArts 平台提供一键迁移工具

发布时间与获取方式

首次公布：2025年9月18日（华为全联接大会）
WAIC 2026 真机展示：2026年7月17日（Atlas 950 SuperPoD 首次公开亮相，获 SAIL 最高奖）
原计划发布：2026年第四季度
实际提前至：2026年8月正式上线华为云平台
获取方式：华为云算力租赁（按小时/按月计费），不支持单独购买
物理卡发布：预计 2026年第四季度通过合作伙伴（如浪潮、曙光）销售
SuperPoD 批量上市：2026 Q4

产品概述​

核心规格​

950DT vs 950PR 详细对比​

关键技术突破​

1. HiZQ 2.0 自研 HBM​

2. Decode 阶段专项优化​

3. SIMD + SIMT 双编程模型​

4. CloudMatrix 384 系统集成​

5. Atlas 950 SuperPoD 超节点（WAIC 2026 首次真机展示）​

与竞品对比​

生态进展​

DeepSeek 优先部署​

CANN Next CUDA 兼容层​

发布时间与获取方式​

外部链接​