Huawei Ascend 950DT (昇腾 950DT)
产品概述
华为昇腾 950DT 是昇腾第四代 AI 芯片的高带宽版本,2026年8月正式上线华为云平台。与 950PR(成本优化版)共享完全相同的 Da Vinci v5 计算核心,但搭载自研 HiZQ 2.0 HBM 内存系统,内存容量达 144GB,带宽高达 4TB/s,专为推理 Decode(逐 Token 生成)阶段和模型训练场景打造。
950PR vs 950DT 双版本策略:华为在昇腾 950 系列首次采用"场景细分"设计——同一计算核心搭配不同内存子系统,精准匹配 AI 负载的差异化需求。950PR 主攻 Prefill(首 Token 生成),950DT 主攻 Decode + 训练。
核心规格
| 项目 | 参数 |
|---|
| 架构 | Da Vinci v5(第四代昇腾) |
| 制程 | SMIC N+2(等效 7nm 改良) |
| 编程模型 | SIMD + SIMT 双模型 |
| HBM 类型 | HiZQ 2.0(自研,带宽优先) |
| HBM 容量 | 144 GB |
| HBM 带宽 | 4 TB/s |
| 互联带宽 | 2 TB/s(HCCS 协议) |
| FP8 算力 | 1 PFLOPS(HiF8 格式) |
| FP4 算力 | 2 PFLOPS(MXFP4 格式) |
| BF16/FP16 算力 | ~500 TFLOPS |
| INT8 算力 | ~2,000 TOPS |
| TDP | 500 W |
| PCIe | Gen 5 ×16 |
| 发布时间 | 2026年8月(华为云上线) |
| 价格 | ~¥12-15 万/卡(推测) |
950DT vs 950PR 详细对比
| 维度 | 950PR | 950DT |
|---|
| 目标场景 | 推理 Prefill(首 Token 生成)、视频推荐、实时交互 | 推理 Decode(逐 Token 生成)、模型训练、高并发推理 |
| HBM 类型 | HiBL 1.0(成本优先) | HiZQ 2.0(带宽优先) |
| HBM 容量 | 128 GB | 144 GB |
| HBM 带宽 | ~3 TB/s | 4 TB/s |
| 互联带宽 | HCCS 784 GB/s | HCCS 2 TB/s |
| 支持精度 | FP8、HiF8 | FP8、MXFP8、MXFP4、HiF8 |
| 典型应用 | 视频推荐、搜索 | 对话生成、文本续写、SFT 微调 |
| 定价 | 较低(~¥7 万/卡) | 较高(~¥12-15 万/卡) |
关键技术突破
1. HiZQ 2.0 自研 HBM
- 带宽达 4TB/s,超越 NVIDIA HBM3e(3.35TB/s),仅次于 HBM4(4.8TB/s)
- 容量 144GB,支持更大 Batch Size 和更长上下文窗口
- 彻底摆脱对 SK 海力士 / 三星 HBM 的依赖,供应链自主可控
2. Decode 阶段专项优化
- 高带宽内存子系统:Decode 阶段瓶颈在内存带宽(而非算力),4TB/s 带宽使长上下文推理吞吐量提升 2×
- MXFP4/MXFP8 支持:低精度格式减少内存搬运量,进一步提升 Decode 效率
- 与 950PR 协同:Prefill 阶段由 950PR 处理,Decode 阶段由 950DT 承接,组成"异构推理流水线"
3. SIMD + SIMT 双编程模型
- SIMD:高效向量计算(延续 910C 的 Da Vinci 核心优势)
- SIMT:新增模型,支持灵活调度,更适配 Decode 阶段的不规则内存访问模式
- 内存访问粒度从 512 字节 → 128 字节,离散内存访问效率提升 4 倍
4. CloudMatrix 384 系统集成
- 384 颗 950DT 芯片可组成超级节点(需与 950PR 混合部署)
- 总算力:384 × 1 PFLOPS FP8 ≈ 384 PFLOPS
- 总内存:384 × 144GB = 55,296 GB(约 54TB)
- AI 集群性能对标 NVIDIA GB300 NVL72
与竞品对比
| 指标 | Ascend 950DT | NVIDIA H200 | NVIDIA B200 | AMD MI355X |
|---|
| FP8 算力 | 1 PFLOPS | 1.97 PFLOPS | 4.5 PFLOPS | 2.3 PFLOPS |
| HBM 容量 | 144 GB | 141 GB | 192 GB | 288 GB |
| HBM 带宽 | 4 TB/s | 4.8 TB/s | 8 TB/s | 6 TB/s |
| TDP | ~500W | 700W | 1,000W | 1,400W |
| 制程 | SMIC N+2 | TSMC 4NP | TSMC 4NP | TSMC 3NM |
| 生态 | CANN(华为) | CUDA | CUDA | ROCm |
生态进展
DeepSeek 优先部署
- DeepSeek V4 已搭载昇腾 950 算力平台(含 950DT)
- 预计 2026年6月发布 V4.1 版本(950PR 优化)
- 预计 2026年8月发布 V4.2 版本(950DT 优化),模型能力进一步释放
- 目标:在 AI 编程等维度赶超美国顶级闭源 AI 模型
CANN Next CUDA 兼容层
- ~80% PyTorch 代码仅需配置修改即可迁移
- 支持 DeepSeek、Qwen、LLaMA 等主流模型
- 华为云 ModelArts 平台提供一键迁移工具
发布时间与获取方式
- 首次公布:2025年9月18日(华为全联接大会)
- 原计划发布:2026年第四季度
- 实际提前至:2026年8月正式上线华为云平台
- 获取方式:华为云算力租赁(按小时/按月计费),不支持单独购买
- 物理卡发布:预计 2026年第四季度通过合作伙伴(如浪潮、曙光)销售
外部链接