跳到主要内容

Huawei Ascend 950DT (昇腾 950DT)

产品概述

华为昇腾 950DT 是昇腾第四代 AI 芯片的高带宽版本2026年8月正式上线华为云平台。与 950PR(成本优化版)共享完全相同的 Da Vinci v5 计算核心,但搭载自研 HiZQ 2.0 HBM 内存系统,内存容量达 144GB,带宽高达 4TB/s,专为推理 Decode(逐 Token 生成)阶段模型训练场景打造。

950PR vs 950DT 双版本策略:华为在昇腾 950 系列首次采用"场景细分"设计——同一计算核心搭配不同内存子系统,精准匹配 AI 负载的差异化需求。950PR 主攻 Prefill(首 Token 生成),950DT 主攻 Decode + 训练。

核心规格

项目参数
架构Da Vinci v5(第四代昇腾)
制程SMIC N+2(等效 7nm 改良)
编程模型SIMD + SIMT 双模型
HBM 类型HiZQ 2.0(自研,带宽优先)
HBM 容量144 GB
HBM 带宽4 TB/s
互联带宽2 TB/s(HCCS 协议)
FP8 算力1 PFLOPS(HiF8 格式)
FP4 算力2 PFLOPS(MXFP4 格式)
BF16/FP16 算力~500 TFLOPS
INT8 算力~2,000 TOPS
TDP500 W
PCIeGen 5 ×16
发布时间2026年8月(华为云上线)
价格~¥12-15 万/卡(推测)

950DT vs 950PR 详细对比

维度950PR950DT
目标场景推理 Prefill(首 Token 生成)、视频推荐、实时交互推理 Decode(逐 Token 生成)、模型训练、高并发推理
HBM 类型HiBL 1.0(成本优先)HiZQ 2.0(带宽优先)
HBM 容量128 GB144 GB
HBM 带宽~3 TB/s4 TB/s
互联带宽HCCS 784 GB/sHCCS 2 TB/s
支持精度FP8、HiF8FP8、MXFP8、MXFP4、HiF8
典型应用视频推荐、搜索对话生成、文本续写、SFT 微调
定价较低(~¥7 万/卡)较高(~¥12-15 万/卡)

关键技术突破

1. HiZQ 2.0 自研 HBM

  • 带宽达 4TB/s,超越 NVIDIA HBM3e(3.35TB/s),仅次于 HBM4(4.8TB/s)
  • 容量 144GB,支持更大 Batch Size 和更长上下文窗口
  • 彻底摆脱对 SK 海力士 / 三星 HBM 的依赖,供应链自主可控

2. Decode 阶段专项优化

  • 高带宽内存子系统:Decode 阶段瓶颈在内存带宽(而非算力),4TB/s 带宽使长上下文推理吞吐量提升
  • MXFP4/MXFP8 支持:低精度格式减少内存搬运量,进一步提升 Decode 效率
  • 与 950PR 协同:Prefill 阶段由 950PR 处理,Decode 阶段由 950DT 承接,组成"异构推理流水线"

3. SIMD + SIMT 双编程模型

  • SIMD:高效向量计算(延续 910C 的 Da Vinci 核心优势)
  • SIMT:新增模型,支持灵活调度,更适配 Decode 阶段的不规则内存访问模式
  • 内存访问粒度从 512 字节 → 128 字节,离散内存访问效率提升 4 倍

4. CloudMatrix 384 系统集成

  • 384 颗 950DT 芯片可组成超级节点(需与 950PR 混合部署)
  • 总算力:384 × 1 PFLOPS FP8 ≈ 384 PFLOPS
  • 总内存:384 × 144GB = 55,296 GB(约 54TB)
  • AI 集群性能对标 NVIDIA GB300 NVL72

与竞品对比

指标Ascend 950DTNVIDIA H200NVIDIA B200AMD MI355X
FP8 算力1 PFLOPS1.97 PFLOPS4.5 PFLOPS2.3 PFLOPS
HBM 容量144 GB141 GB192 GB288 GB
HBM 带宽4 TB/s4.8 TB/s8 TB/s6 TB/s
TDP~500W700W1,000W1,400W
制程SMIC N+2TSMC 4NPTSMC 4NPTSMC 3NM
生态CANN(华为)CUDACUDAROCm

生态进展

DeepSeek 优先部署

  • DeepSeek V4 已搭载昇腾 950 算力平台(含 950DT)
  • 预计 2026年6月发布 V4.1 版本(950PR 优化)
  • 预计 2026年8月发布 V4.2 版本(950DT 优化),模型能力进一步释放
  • 目标:在 AI 编程等维度赶超美国顶级闭源 AI 模型

CANN Next CUDA 兼容层

  • ~80% PyTorch 代码仅需配置修改即可迁移
  • 支持 DeepSeek、Qwen、LLaMA 等主流模型
  • 华为云 ModelArts 平台提供一键迁移工具

发布时间与获取方式

  • 首次公布:2025年9月18日(华为全联接大会)
  • 原计划发布:2026年第四季度
  • 实际提前至2026年8月正式上线华为云平台
  • 获取方式:华为云算力租赁(按小时/按月计费),不支持单独购买
  • 物理卡发布:预计 2026年第四季度通过合作伙伴(如浪潮、曙光)销售

外部链接