Skip to main content

One post tagged with "Ascend 910C"

Huawei Ascend 910C chip

View all tags

里程碑!华为昇腾910C完成1.6万亿参数大模型全参数训练

· 7 min read
AI Compute Cards Wiki Editorial
Industry Research Team

2026年6月5日,深圳发布官宣重磅消息:深圳河套学院联合哈工大(深圳)、华为等团队,用1000颗华为昇腾910C芯片,成功完成1.6万亿参数DeepSeek-V4-Pro大模型全参数后训练

这不是一次试探性的尝试,而是一次里程碑式的技术突破。它用无可辩驳的工程结果证明:国产AI芯片足以支撑世界级超大参数模型训练

为什么这很重要?

AI芯片的两道坎:"推理"与"训练"

  • 推理(Inference):用现成模型聊天、写文案。此前国产芯片已经能做
  • 训练(Training):调整模型参数让它学习新能力。全参数训练要同时调整1.6万亿个参数,难度拉满

此前,万亿级参数模型的全参数训练一直被英伟达H100/H200垄断。国产芯片只能做推理,无法做大规模训练。

这次突破的意义:国产算力从"能用"跨越到"好用",从"推理"跨越到"训练"。

技术细节

训练配置

项目参数
芯片华为昇腾910C × 1,000颗
模型DeepSeek-V4-Pro
参数量1.6万亿(1600B)
训练类型全参数后训练(Full Parameter Post-Training)
训练框架昇思(MindSpore)+ torch_npu
完成时间2026年6月5日官宣

性能指标

指标数值评价
算力利用率>30%工业级水平(海外顶级芯片~40%)
关键训练算子效率提升14%相比上一代910B
通信带宽利用率>60%(推测)MoE模型的All-to-All通信
稳定性1000颗卡连续训练无故障集群稳定性达标

💡 关于30%算力利用率:很多人觉得30%不高,但在大模型训练领域,这已经是非常不错的工业级水平。就算用最顶级的海外芯片,很多团队的实际利用率也就在40%左右。

昇腾910C详细规格

昇腾910C是华为在2024年4月24日(华为分析师大会)公布的AI训练/推理芯片,理论算力峰值达到800 TFLOPS(BF16精度),与英伟达H100处于同等量级。

参数昇腾910C昇腾910BNVIDIA H100
架构Ascend 910CAscend 910BHopper
制程TSMC 7nm(推测)TSMC 7nmTSMC 4NP
BF16算力800 TFLOPS256 TFLOPS989 TFLOPS(稀疏)
显存64GB HBM(推测)64GB HBM2e(B1/B2)80GB HBM3
显存带宽~2TB/s(推测)600 GB/s(B1/B2)3.35 TB/s
TDP~400W(推测)300-400W700W
量产时间2026年4月(正式量产)2022年11月2022年3月

关键升级

  • 算力提升3×:从910B的256 TFLOPS提升到800 TFLOPS
  • 软件生态完善:torch_npu适配PyTorch,昇思框架成熟
  • 集群稳定性:1000颗卡连续训练无故障(这是最大的突破)

技术挑战与解决方案

挑战1:万亿级模型的显存需求

1.6万亿参数模型,仅模型参数就需要:

  • FP16精度:1.6T × 2 bytes = 3.2 TB
  • 加上梯度、优化器状态:至少10 TB显存

华为的解决方案

  • 模型并行(Model Parallel):将模型分布到1000颗910C上
  • ZeRO优化器:优化显存占用
  • 梯度累积:分阶段更新参数

挑战2:万卡集群的通信效率

1000颗芯片训练时,卡间通信成为瓶颈。MoE模型需要All-to-All通信(每个专家可能需要与其他所有专家通信)。

华为的解决方案

  • HCCS(Huawei Collective Communication Scheduler):自研高速互联协议
  • 分层通信:节点内NVLink + 节点间HCCS
  • 通信-计算重叠:在计算的同时进行数据传输

挑战3:训练稳定性

万亿级模型训练需要数周甚至数月,任何一颗卡故障都可能导致整个训练中断。

华为的解决方案

  • 故障检测与自动恢复:实时监测卡的状态,故障时自动重启并恢复训练状态
  • 检查点(Checkpoint)优化:高频保存训练状态(每N步保存一次)
  • 昇腾集群管理软件:专门为企业级训练设计

与竞品对比

厂商芯片1.6万亿参数训练生态成熟度可用性
华为昇腾910C已完成⭐⭐⭐(进步中)中国本土
NVIDIAH100/H200✅ 工业标准⭐⭐⭐⭐⭐全球(受出口管制)
AMDMI300X✅ 可行⭐⭐⭐⭐全球
GoogleTPU v5p/8t✅ JAX原生⭐⭐⭐⭐Google Cloud

结论:昇腾910C在硬件性能上已经追上H100,软件生态仍有差距,但这次训练成功证明了工程可行性

行业影响

1. 国产算力的"遵义会议"

这次突破被业内称为国产算力的"遵义会议"——从此从被动防守转向战略反攻。

具体影响

  • 打破"国产芯片只能推理"的偏见
  • 证明国产芯片可以做frontier模型训练
  • 为国产大模型(如DeepSeek-V4、文心5.0)提供算力底座

2. 对英伟达的冲击

华为昇腾910C完成万亿级训练,意味着中国AI产业对英伟达的依赖度降低

场景此前现在
推理国产芯片可用国产芯片好用
训练必须用H100/H200可以用910C
大规模训练必须用H100集群可以用910C集群

3. 对国产芯片产业的提振

这次突破将带动整个国产AI芯片产业链:

  • 芯片设计:寒武纪、沐曦、摩尔线程等加速迭代
  • 晶圆制造:中芯国际、华虹等获得更多订单
  • 封装测试:长电科技、通富微电等受益

华为昇腾芯片路线图(2025-2028)

时间芯片定位
2025年Q1昇腾910C旗舰训练/推理(已量产)
2026年Q1昇腾950PR推理优化(~500 TFLOPS BF16)
2026年Q4昇腾950DT数据中心训练
2027年Q4昇腾960下一代旗舰
2028年Q4昇腾970再下一代

训练实战经验分享

深圳河套学院团队在训练中积累了宝贵经验:

✅ 成功经验

  1. 渐进式训练:从小模型(7B)开始,逐步扩大到1.6T
  2. 混合精度训练:BF16主训练 + FP32梯度累积
  3. 通信优化:All-to-All通信与计算重叠
  4. 故障恢复:每1000步保存一次检查点

⚠️ 遇到的挑战

  1. 显存碎片:长训练过程中显存碎片化严重,需要定期整理
  2. 通信瓶颈:MoE模型的All-to-All通信占训练时间的30%+
  3. 软件Bug:torch_npu偶有内存泄漏,需要重启训练进程

相关芯片

参考资料


本文基于公开报道整理。向深圳河套学院、哈工大(深圳)、华为等团队表示敬意——你们用工程实践证明了中国AI算力的可行性。