里程碑!华为昇腾910C完成1.6万亿参数大模型全参数训练
2026年6月5日,深圳发布官宣重磅消息:深圳河套学院联合哈工大(深圳)、华为等团队,用1000颗华为昇腾910C芯片,成功完成1.6万亿参数DeepSeek-V4-Pro大模型全参数后训练。
这不是一次试探性的尝试,而是一次里程碑式的技术突破。它用无可辩驳的工程结果证明:国产AI芯片足以支撑世界级超大参数模型训练。
为什么这很重要?
AI芯片的两道坎:"推理"与"训练"
- 推理(Inference):用现成模型聊天、写文案。此前国产芯片已经能做
- 训练(Training):调整模型参数让它学习新能力。全参数训练要同时调整1.6万亿个参数,难度拉满
此前,万亿级参数模型的全参数训练一直被英伟达H100/H200垄断。国产芯片只能做推理,无法做大规模训练。
这次突破的意义:国产算力从"能用"跨越到"好用",从"推理"跨越到"训练"。
技术细节
训练配置
| 项目 | 参数 |
|---|---|
| 芯片 | 华为昇腾910C × 1,000颗 |
| 模型 | DeepSeek-V4-Pro |
| 参数量 | 1.6万亿(1600B) |
| 训练类型 | 全参数后训练(Full Parameter Post-Training) |
| 训练框架 | 昇思(MindSpore)+ torch_npu |
| 完成时间 | 2026年6月5日官宣 |
性能指标
| 指标 | 数值 | 评价 |
|---|---|---|
| 算力利用率 | >30% | 工业级水平(海外顶级芯片~40%) |
| 关键训练算子效率提升 | 14% | 相比上一代910B |
| 通信带宽利用率 | >60%(推测) | MoE模型的All-to-All通信 |
| 稳定性 | 1000颗卡连续训练无故障 | 集群稳定性达标 |
💡 关于30%算力利用率:很多人觉得30%不高,但在大模型训练领域,这已经是非常不错的工业级水平。就算用最顶级的海外芯片,很多团队的实际利用率也就在40%左右。
昇腾910C详细规格
昇腾910C是华为在2024年4月24日(华为分析师大会)公布的AI训练/推理芯片,理论算力峰值达到800 TFLOPS(BF16精度),与英伟达H100处于同等量级。
| 参数 | 昇腾910C | 昇腾910B | NVIDIA H100 |
|---|---|---|---|
| 架构 | Ascend 910C | Ascend 910B | Hopper |
| 制程 | TSMC 7nm(推测) | TSMC 7nm | TSMC 4NP |
| BF16算力 | 800 TFLOPS | 256 TFLOPS | 989 TFLOPS(稀疏) |
| 显存 | 64GB HBM(推测) | 64GB HBM2e(B1/B2) | 80GB HBM3 |
| 显存带宽 | ~2TB/s(推测) | 600 GB/s(B1/B2) | 3.35 TB/s |
| TDP | ~400W(推测) | 300-400W | 700W |
| 量产时间 | 2026年4月(正式量产) | 2022年11月 | 2022年3月 |
关键升级:
- ✅ 算力提升3×:从910B的256 TFLOPS提升到800 TFLOPS
- ✅ 软件生态完善:torch_npu适配PyTorch,昇思框架成熟
- ✅ 集群稳定性:1000颗卡连续训练无故障(这是最大的突破)
技术挑战与解决方案
挑战1:万亿级模型的显存需求
1.6万亿参数模型,仅模型参数就需要:
- FP16精度:1.6T × 2 bytes = 3.2 TB
- 加上梯度、优化器状态:至少10 TB显存
华为的解决方案:
- 模型并行(Model Parallel):将模型分布到1000颗910C上
- ZeRO优化器:优化显存占用
- 梯度累积:分阶段更新参数
挑战2:万卡集群的通信效率
1000颗芯片训练时,卡间通信成为瓶颈。MoE模型需要All-to-All通信(每个专家可能需要与其他所有专家通信)。
华为的解决方案:
- HCCS(Huawei Collective Communication Scheduler):自研高速互联协议
- 分层通信:节点内NVLink + 节点间HCCS
- 通信-计算重叠:在计算的同时进行数据传输
挑战3:训练稳定性
万亿级模型训练需要数周甚至数月,任何一颗卡故障都可能导致整个训练中断。
华为的解决方案:
- 故障检测与自动恢复:实时监测卡的状态,故障时自动重启并恢复训练状态
- 检查点(Checkpoint)优化:高频保存训练状态(每N步保存一次)
- 昇腾集群管理软件:专门为企业级训练设计
与竞品对比
| 厂商 | 芯片 | 1.6万亿参数训练 | 生态成熟度 | 可用性 |
|---|---|---|---|---|
| 华为 | 昇腾910C | ✅ 已完成 | ⭐⭐⭐(进步中) | 中国本土 |
| NVIDIA | H100/H200 | ✅ 工业标准 | ⭐⭐⭐⭐⭐ | 全球(受出口管制) |
| AMD | MI300X | ✅ 可行 | ⭐⭐⭐⭐ | 全球 |
| TPU v5p/8t | ✅ JAX原生 | ⭐⭐⭐⭐ | Google Cloud |
结论:昇腾910C在硬件性能上已经追上H100,软件生态仍有差距,但这次训练成功证明了工程可行性。
行业影响
1. 国产算力的"遵义会议"
这次突破被业内称为国产算力的"遵义会议"——从此从被动防守转向战略反攻。
具体影响:
- ✅ 打破"国产芯片只能推理"的偏见
- ✅ 证明国产芯片可以做frontier模型训练
- ✅ 为国产大模型(如DeepSeek-V4、文心5.0)提供算力底座
2. 对英伟达的冲击
华为昇腾910C完成万亿级训练,意味着中国AI产业对英伟达的依赖度降低。
| 场景 | 此前 | 现在 |
|---|---|---|
| 推理 | 国产芯片可用 | 国产芯片好用 |
| 训练 | 必须用H100/H200 | 可以用910C |
| 大规模训练 | 必须用H100集群 | 可以用910C集群 |
3. 对国产芯片产业的提振
这次突破将带动整个国产AI芯片产业链:
- 芯片设计:寒武纪、沐曦、摩尔线程等加速迭代
- 晶圆制造:中芯国际、华虹等获得更多订单
- 封装测试:长电科技、通富微电等受益
华为昇腾芯片路线图(2025-2028)
| 时间 | 芯片 | 定位 |
|---|---|---|
| 2025年Q1 | 昇腾910C | 旗舰训练/推理(已量产) |
| 2026年Q1 | 昇腾950PR | 推理优化(~500 TFLOPS BF16) |
| 2026年Q4 | 昇腾950DT | 数据中心训练 |
| 2027年Q4 | 昇腾960 | 下一代旗舰 |
| 2028年Q4 | 昇腾970 | 再下一代 |
训练实战经验分享
深圳河套学院团队在训练中积累了宝贵经验:
✅ 成功经验
- 渐进式训练:从小模型(7B)开始,逐步扩大到1.6T
- 混合精度训练:BF16主训练 + FP32梯度累积
- 通信优化:All-to-All通信与计算重叠
- 故障恢复:每1000步保存一次检查点
⚠️ 遇到的挑战
- 显存碎片:长训练过程中显存碎片化严重,需要定期整理
- 通信瓶颈:MoE模型的All-to-All通信占训练时间的30%+
- 软件Bug:torch_npu偶有内存泄漏,需要重启训练进程
相关芯片
- 华为昇腾910C - 本次训练使用的芯片
- 华为昇腾910B - 上一代芯片
- 华为昇腾950PR - 下一代推理芯片
- NVIDIA H100 - 对标产品
- NVIDIA H200 - 对标产品(HBM3e升级版)
参考资料
本文基于公开报道整理。向深圳河套学院、哈工大(深圳)、华为等团队表示敬意——你们用工程实践证明了中国AI算力的可行性。