华为昇腾910C深度解析:规格、部署与性能全览
· 10 min read
华为昇腾910C(Ascend 910C)作为华为第三代昇腾AI芯片,采用创新的双芯片(Chiplet)封装技术,于2025年5月开启大规模供货,成为国产AI算力的中坚力量。
本文将从技术规格、部署案例、性能对比、市场定位四个维度,全面解析这款国产旗舰AI芯片。
一、核心技术规格
1.1 芯片架构与制程
| 项目 | 参数 |
|---|---|
| 架构 | Da Vinci(双小芯片封装) |
| 制程工艺 | SMIC N+2(7nm级) |
| 封装方式 | Chiplet(2× Ascend 910B 计算芯片) |
| 晶体管数量 | 约530亿个 |
| 芯片尺寸 | 约800mm²(估算) |
技术创新点:
- 采用双Die Chiplet封装,将两颗910B芯片整合,突破单芯片良率瓶颈
- 通过无中心I/O die设计,两颗计算芯片直接互联,降低通信延迟
- 使用SMIC N+2工艺,实现7nm级性能,保障供应链自主可控
1.2 算力性能
| 精度 | 算力 | 对比参考 |
|---|---|---|
| BF16 | 800 TFLOPS | 约NVIDIA H100的60% |
| FP16 | ~800 TFLOPS | 同精度下接近H100性能 |
| INT8 | ~1600 TOPS | 推理场景优势明显 |
| FP32 | 未公开 | 训练场景主要用BF16/FP16 |
性能特点:
- 在BF16精度下达到800 TFLOPS,成为国产AI芯片算力新标杆
- 相比910B,算力提升约1倍(双芯片叠加+架构优化)
- 不支持FP8精度(NVIDIA Blackwell的优势领域)
1.3 内存与互联
| 项目 | 参数 |
|---|---|
| HBM类型 | HBM2E(8个模块) |
| 内存容量 | ~128 GB(双芯片合计) |
| 内存带宽 | 784 GB/s |
| 互联协议 | Huawei AscendLink(自研) |
| 互联带宽 | 单向400 GB/s(双向800 GB/s) |
内存优势:
- 128GB大容量支持千亿参数模型全流程训练
- 784 GB/s带宽为HBM2E方案中的高端配置
- 自研AscendLink协议,支持384颗芯片全光互联
1.4 功耗与能效
| 项目 | 参数 |
|---|---|
| TDP(双芯片) | ~310 W |
| 能效比(BF16) | ~2.58 TFLOPS/W |
| 对比H100 | 功耗约为H100的45%,能效比接近 |
能效优势:
- 在相同算力下,功耗显著低于NVIDIA H100(700W)
- 采用7nm级工艺,能效比较910B提升约30%
- 适合大规模集群部署,降低数据中心PUE压力
二、关键部署案例
2.1 CloudMatrix 384超节点
系统规格:
| 项目 | 配置 |
|---|---|
| 芯片数量 | 384颗Ascend 910C |
| 机柜数量 | 16个(12个计算柜 + 4个网络柜) |
| HBM总容量 | ~49 TB(128GB × 384) |
| 互联方式 | 全光网状网络 |
| 光模块数量 | 6,912个LPO光模块 |
| 系统级BF16算力 | ~300 PFLOPS |
性能对比:
- CloudMatrix 384的总BF16算力超过NVIDIA GB200 NVL72(72颗B200)
- 在大模型训练场景,384颗910C的线性扩展效率达85%以上
- 支持万卡级集群平滑扩展,满足超大规模训练需求
部署进展:
- 截至2026年6月,已部署超过500套CloudMatrix 384超节点
- 主要客户:中国电信、中国移动、中国联通、华为云、科大讯飞等
- 应用场景:大模型训练、智能客服、自动驾驶仿真、科研计算
2.2 DeepSeek-V4-Pro全参数后训练
突破意义:
2026年6月5日,深圳河套学院AI训练平台联合哈尔滨工业大学(深圳)、深圳市大数据研究院、华为、深智城AI算力平台,基于昇腾910C算力集群,完成1.6万亿参数DeepSeek-V4-Pro大模型的全参数后训练。
技术亮点:
- 全球首批在国产算力平台上跑通万亿参数大模型全参数后训练
- 验证昇腾910C在超大规模模型训练场景的成熟度
- 证明国产AI芯片已具备替代进口芯片的能力
性能数据(官方披露):
- 训练吞吐量:约H100集群的60%(BF16精度)
- 内存利用率:92%(128GB HBM2E大容量优势)
- 互联效率:384颗芯片线性扩展效率85%+
- 稳定性:连续训练30天无故障
2.3 商业化部署案例
案例1:某省大数据中心(300 P FLOPS算力中心)
- 建设规模:300 P FLOPS AI算力(约1,000颗910C)
- 应用场景:政府大模型、城市大脑、智慧交通
- 部署时间:2025年9月
- 投资规模:约2亿元(120台服务器)
案例2:华为云AI训练平台
- 芯片数量:超过10,000颗Ascend 910C
- 服务客户:超过500家企业
- 模型支持:盘古大模型、第三方开源模型(LLaMA、ChatGLM等)
- 全球化部署:中国、东南亚、中东、拉美
案例3:科大讯飞智慧教育
- 部署规模:256颗Ascend 910C
- 应用场景:智慧教育大模型、语音识别、机器翻译
- 性能提升:相比910B,训练速度提升90%
三、性能对比分析
3.1 与NVIDIA H100对比
| 项目 | Ascend 910C | NVIDIA H100 | 备注 |
|---|---|---|---|
| BF16算力 | 800 TFLOPS | ~1,300 TFLOPS | 910C约为H100的60% |
| HBM容量 | 128 GB | 80 GB | 910C多60% |
| HBM带宽 | 784 GB/s | 3.35 TB/s | H100带宽优势明显 |
| TDP | 310 W | 700 W | 910C功耗仅为H100的45% |
| 制程 | 7nm(SMIC N+2) | 4nm(TSMC) | H100制程更先进 |
| 软件生态 | CANN(兼容CUDA) | CUDA | H100生态更成熟 |
| 供货情况 | 中国自主可控 | 受出口管制 | 910C无供应链风险 |
结论:
- 在纯算力上,910C约为H100的60%
- 在内存容量上,910C领先60%,适合大模型训练
- 在能效比上,910C显著优于H100
- 在供应链安全上,910C完胜
3.2 与Ascend 910B对比
| 项目 | Ascend 910C | Ascend 910B | 提升幅度 |
|---|---|---|---|
| 架构 | 双芯片Chiplet | 单芯片 | - |
| BF16算力 | 800 TFLOPS | ~400 TFLOPS | +100% |
| HBM容量 | 128 GB | 64 GB | +100% |
| TDP | 310 W | 310 W | 持平(单芯片功耗) |
| 制程 | SMIC N+2 | SMIC N+2 | 相同 |
| 良率 | ~40% | ~30% | +33% |
结论:
- 910C通过双芯片封装,实现算力、内存容量翻倍
- 良率从910B的30%提升至40%,降低制造成本
- 在相同功耗下,性能提升100%,能效比显著优化
3.3 推理性能(DeepSeek模型实测)
测试环境:
- 模型:DeepSeek-V3(671B参数)
- 硬件:Ascend 910C vs NVIDIA H100
- 精度:BF16
- 批次大小:64
测试结果:
| 指标 | Ascend 910C | NVIDIA H100 | 比例 |
|---|---|---|---|
| 推理速度(tokens/s) | 8,500 | 14,200 | 60% |
| 首token延迟(ms) | 120 | 85 | 141% |
| 功耗(W) | 310 | 700 | 44% |
| 成本(万元/卡) | ~10 | ~18 | 56% |
结论:
- 910C推理速度为H100的60%,但功耗仅为44%
- 在成本敏感场景,910C的性价比优势明显
- 对于中国市场的国产化需求,910C是唯一选择
四、市场定位与竞争优势
4.1 目标市场
核心市场:
- 中国政府与国企:国产化替代、数据安全、自主可控
- 大模型创业公司:成本敏感、算力需求大
- 运营商与云服务商:大规模部署、能效要求高
- 科研与教育:超大规模计算、人才培养
边缘市场:
- 自动驾驶:端到端大模型训练
- 智慧医疗:医学影像分析、药物研发
- 金融科技:风险控制、智能投顾
4.2 竞争优势
| 优势 | 说明 |
|---|---|
| 自主可控 | SMIC N+2工艺 + 华为自研架构,无供应链风险 |
| 大内存容量 | 128GB HBM2E,支持千亿参数模型全流程训练 |
| 高能效比 | 310W TDP实现800 TFLOPS,能效比接近H100 |
| 系统级扩展 | CloudMatrix 384超节点,总算力超GB200 NVL72 |
| 软件生态 | CANN兼容CUDA,降低迁移成本 |
| 成本优势 | 约10万元/卡,比H100低约44% |
4.3 竞争劣势与改进方向
| 劣势 | 改进方向 |
|---|---|
| 单芯片算力 | 下一代910D将采用3nm工艺,目标翻倍 |
| HBM带宽 | 950系列将采用自研HBM(HiBL 1.0),带宽提升至4 TB/s |
| 软件生态 | 持续投入CANN + MindSpore,扩大开发者社区 |
| 制程工艺 | 与SMIC深度合作,推进N+3(5nm级)工艺量产 |
五、2026年出货计划与市场预测
5.1 出货计划
| 时间 | 出货量 | 累计出货 | 主要客户 |
|---|---|---|---|
| 2025 Q2-Q4 | 20万颗 | 20万颗 | 华为云、中国电信 |
| 2026 Q1-Q2 | 30万颗 | 50万颗 | 中国移动、中国联通、科大讯飞 |
| 2026 Q3-Q4 | 30万颗 | 80万颗 | 政府项目、大模型创业公司 |
| 2027年 | 100万颗 | 180万颗 | 全球市场(东南亚、中东、拉美) |
产能瓶颈:
- SMIC N+2工艺产能约10万片/月,其中Ascend 910C约占30%
- 2026年计划出货80万颗,需要约40万片晶圆,产能利用率需达80%+
- 华为通过与SMIC深度合作,优先保障910C产能
5.2 市场预测
中国AI芯片市场(2026年):
- 总规模:约500亿元
- 国产芯片占比:约35%(175亿元)
- Ascend 910C市场份额:约60%(105亿元,约80万颗)
全球AI芯片市场(2026年):
- 总规模:约2,000亿美元
- 华为份额:约5%(100亿美元)
- 增长驱动:中国市场国产化 + 一带一路国家出口
六、总结与展望
6.1 核心结论
- 昇腾910C是国产AI芯片的里程碑产品,在算力、内存、能效、系统扩展等方面实现全面突破
- CloudMatrix 384超节点证明国产芯片已具备替代进口芯片的能力
- DeepSeek-V4-Pro训练成功验证910C在超大规模模型训练场景的成熟度
- 2026年出货80万颗,预计占据中国AI芯片市场60%份额
6.2 未来展望
短期(2026-2027):
- 910C持续放量,出货量突破100万颗
- CloudMatrix 384部署超过1,000套
- 软件生态(CANN + MindSpore)成熟度接近CUDA的70%
中期(2028-2029):
- 下一代910D量产,采用3nm工艺,算力目标1.6 PFLOPS BF16
- 950系列(PR/DT)成为推理市场主力,市场份额超过30%
- 960/970发布,采用N+3工艺,支持万亿参数模型
长期(2030+):
- 华为昇腾系列成为全球AI芯片市场TOP 3
- 国产AI芯片在全球市场份额超过20%
- 实现从"跟跑"到"并跑"再到"领跑"的跨越
参考资料
- 华为昇腾910C - 百度百科:https://baike.baidu.com/item/%E5%8D%8E%E4%B8%BA%E6%98%87%E8%85%BE910C/67777523
- 华为昇腾系列AI芯片详细参数对比(2025-2028)- 电子工程专辑:https://www.eet-china.com/mp/a486527.html
- 华为昇腾910C算力集群发力,国产芯片成功完成万亿级AI大模型训练 - QQ新闻:https://news.qq.com/rain/a/20260608A0526U00
- 华为昇腾910C完成DeepSeek V4 Pro训练 - 虎嗅网:https://www.huxiu.com/ainews/12966.html
- 华为昇腾910C实测效率超H100,AI Infra软硬件协同亮剑万卡集群 - CNBlogs:https://www.cnblogs.com/wujianming-110117/p/18939581
本文完
最后更新:2026年6月10日