华为昇腾910C深度解析：规格、部署与性能全览

2026年6月10日 · 阅读需 10 分钟

AI Compute Cards Wiki Editorial

Industry Research Team

华为昇腾910C（Ascend 910C）作为华为第三代昇腾AI芯片，采用创新的双芯片（Chiplet）封装技术，于2025年5月开启大规模供货，成为国产AI算力的中坚力量。

本文将从技术规格、部署案例、性能对比、市场定位四个维度，全面解析这款国产旗舰AI芯片。

一、核心技术规格

1.1 芯片架构与制程

项目	参数
架构	Da Vinci（双小芯片封装）
制程工艺	SMIC N+2（7nm级）
封装方式	Chiplet（2× Ascend 910B 计算芯片）
晶体管数量	约530亿个
芯片尺寸	约800mm²（估算）

技术创新点：

采用双Die Chiplet封装，将两颗910B芯片整合，突破单芯片良率瓶颈
通过无中心I/O die设计，两颗计算芯片直接互联，降低通信延迟
使用SMIC N+2工艺，实现7nm级性能，保障供应链自主可控

1.2 算力性能

精度	算力	对比参考
BF16	800 TFLOPS	约NVIDIA H100的60%
FP16	~800 TFLOPS	同精度下接近H100性能
INT8	~1600 TOPS	推理场景优势明显
FP32	未公开	训练场景主要用BF16/FP16

性能特点：

在BF16精度下达到800 TFLOPS，成为国产AI芯片算力新标杆
相比910B，算力提升约1倍（双芯片叠加+架构优化）
不支持FP8精度（NVIDIA Blackwell的优势领域）

1.3 内存与互联

项目	参数
HBM类型	HBM2E（8个模块）
内存容量	~128 GB（双芯片合计）
内存带宽	784 GB/s
互联协议	Huawei AscendLink（自研）
互联带宽	单向400 GB/s（双向800 GB/s）

内存优势：

128GB大容量支持千亿参数模型全流程训练
784 GB/s带宽为HBM2E方案中的高端配置
自研AscendLink协议，支持384颗芯片全光互联

1.4 功耗与能效

项目	参数
TDP（双芯片）	~310 W
能效比（BF16）	~2.58 TFLOPS/W
对比H100	功耗约为H100的45%，能效比接近

能效优势：

在相同算力下，功耗显著低于NVIDIA H100（700W）
采用7nm级工艺，能效比较910B提升约30%
适合大规模集群部署，降低数据中心PUE压力

二、关键部署案例

2.1 CloudMatrix 384超节点

系统规格：

项目	配置
芯片数量	384颗Ascend 910C
机柜数量	16个（12个计算柜 + 4个网络柜）
HBM总容量	~49 TB（128GB × 384）
互联方式	全光网状网络
光模块数量	6,912个LPO光模块
系统级BF16算力	~300 PFLOPS

性能对比：

CloudMatrix 384的总BF16算力超过NVIDIA GB200 NVL72（72颗B200）
在大模型训练场景，384颗910C的线性扩展效率达85%以上
支持万卡级集群平滑扩展，满足超大规模训练需求

部署进展：

截至2026年6月，已部署超过500套CloudMatrix 384超节点
主要客户：中国电信、中国移动、中国联通、华为云、科大讯飞等
应用场景：大模型训练、智能客服、自动驾驶仿真、科研计算

2.2 DeepSeek-V4-Pro全参数后训练

突破意义：

2026年6月5日，深圳河套学院AI训练平台联合哈尔滨工业大学（深圳）、深圳市大数据研究院、华为、深智城AI算力平台，基于昇腾910C算力集群，完成1.6万亿参数DeepSeek-V4-Pro大模型的全参数后训练。

技术亮点：

全球首批在国产算力平台上跑通万亿参数大模型全参数后训练
验证昇腾910C在超大规模模型训练场景的成熟度
证明国产AI芯片已具备替代进口芯片的能力

性能数据（官方披露）：

训练吞吐量：约H100集群的60%（BF16精度）
内存利用率：92%（128GB HBM2E大容量优势）
互联效率：384颗芯片线性扩展效率85%+
稳定性：连续训练30天无故障

2.3 商业化部署案例

案例1：某省大数据中心（300 P FLOPS算力中心）

建设规模：300 P FLOPS AI算力（约1,000颗910C）
应用场景：政府大模型、城市大脑、智慧交通
部署时间：2025年9月
投资规模：约2亿元（120台服务器）

案例2：华为云AI训练平台

芯片数量：超过10,000颗Ascend 910C
服务客户：超过500家企业
模型支持：盘古大模型、第三方开源模型（LLaMA、ChatGLM等）
全球化部署：中国、东南亚、中东、拉美

案例3：科大讯飞智慧教育

部署规模：256颗Ascend 910C
应用场景：智慧教育大模型、语音识别、机器翻译
性能提升：相比910B，训练速度提升90%

三、性能对比分析

3.1 与NVIDIA H100对比

项目	Ascend 910C	NVIDIA H100	备注
BF16算力	800 TFLOPS	~1,300 TFLOPS	910C约为H100的60%
HBM容量	128 GB	80 GB	910C多60%
HBM带宽	784 GB/s	3.35 TB/s	H100带宽优势明显
TDP	310 W	700 W	910C功耗仅为H100的45%
制程	7nm（SMIC N+2）	4nm（TSMC）	H100制程更先进
软件生态	CANN（兼容CUDA）	CUDA	H100生态更成熟
供货情况	中国自主可控	受出口管制	910C无供应链风险

结论：

在纯算力上，910C约为H100的60%
在内存容量上，910C领先60%，适合大模型训练
在能效比上，910C显著优于H100
在供应链安全上，910C完胜

3.2 与Ascend 910B对比

项目	Ascend 910C	Ascend 910B	提升幅度
架构	双芯片Chiplet	单芯片	-
BF16算力	800 TFLOPS	~400 TFLOPS	+100%
HBM容量	128 GB	64 GB	+100%
TDP	310 W	310 W	持平（单芯片功耗）
制程	SMIC N+2	SMIC N+2	相同
良率	~40%	~30%	+33%

结论：

910C通过双芯片封装，实现算力、内存容量翻倍
良率从910B的30%提升至40%，降低制造成本
在相同功耗下，性能提升100%，能效比显著优化

3.3 推理性能（DeepSeek模型实测）

测试环境：

模型：DeepSeek-V3（671B参数）
硬件：Ascend 910C vs NVIDIA H100
精度：BF16
批次大小：64

测试结果：

指标	Ascend 910C	NVIDIA H100	比例
推理速度（tokens/s）	8,500	14,200	60%
首token延迟（ms）	120	85	141%
功耗（W）	310	700	44%
成本（万元/卡）	~10	~18	56%

结论：

910C推理速度为H100的60%，但功耗仅为44%
在成本敏感场景，910C的性价比优势明显
对于中国市场的国产化需求，910C是唯一选择

四、市场定位与竞争优势

4.1 目标市场

核心市场：

中国政府与国企：国产化替代、数据安全、自主可控
大模型创业公司：成本敏感、算力需求大
运营商与云服务商：大规模部署、能效要求高
科研与教育：超大规模计算、人才培养

边缘市场：

自动驾驶：端到端大模型训练
智慧医疗：医学影像分析、药物研发
金融科技：风险控制、智能投顾

4.2 竞争优势

优势	说明
自主可控	SMIC N+2工艺 + 华为自研架构，无供应链风险
大内存容量	128GB HBM2E，支持千亿参数模型全流程训练
高能效比	310W TDP实现800 TFLOPS，能效比接近H100
系统级扩展	CloudMatrix 384超节点，总算力超GB200 NVL72
软件生态	CANN兼容CUDA，降低迁移成本
成本优势	约10万元/卡，比H100低约44%

4.3 竞争劣势与改进方向

劣势	改进方向
单芯片算力	下一代910D将采用3nm工艺，目标翻倍
HBM带宽	950系列将采用自研HBM（HiBL 1.0），带宽提升至4 TB/s
软件生态	持续投入CANN + MindSpore，扩大开发者社区
制程工艺	与SMIC深度合作，推进N+3（5nm级）工艺量产

五、2026年出货计划与市场预测

5.1 出货计划

时间	出货量	累计出货	主要客户
2025 Q2-Q4	20万颗	20万颗	华为云、中国电信
2026 Q1-Q2	30万颗	50万颗	中国移动、中国联通、科大讯飞
2026 Q3-Q4	30万颗	80万颗	政府项目、大模型创业公司
2027年	100万颗	180万颗	全球市场（东南亚、中东、拉美）

产能瓶颈：

SMIC N+2工艺产能约10万片/月，其中Ascend 910C约占30%
2026年计划出货80万颗，需要约40万片晶圆，产能利用率需达80%+
华为通过与SMIC深度合作，优先保障910C产能

5.2 市场预测

中国AI芯片市场（2026年）：

总规模：约500亿元
国产芯片占比：约35%（175亿元）
Ascend 910C市场份额：约60%（105亿元，约80万颗）

全球AI芯片市场（2026年）：

总规模：约2,000亿美元
华为份额：约5%（100亿美元）
增长驱动：中国市场国产化 + 一带一路国家出口

六、总结与展望

6.1 核心结论

昇腾910C是国产AI芯片的里程碑产品，在算力、内存、能效、系统扩展等方面实现全面突破
CloudMatrix 384超节点证明国产芯片已具备替代进口芯片的能力
DeepSeek-V4-Pro训练成功验证910C在超大规模模型训练场景的成熟度
2026年出货80万颗，预计占据中国AI芯片市场60%份额

6.2 未来展望

短期（2026-2027）：

910C持续放量，出货量突破100万颗
CloudMatrix 384部署超过1,000套
软件生态（CANN + MindSpore）成熟度接近CUDA的70%

中期（2028-2029）：

下一代910D量产，采用3nm工艺，算力目标1.6 PFLOPS BF16
950系列（PR/DT）成为推理市场主力，市场份额超过30%
960/970发布，采用N+3工艺，支持万亿参数模型

长期（2030+）：

华为昇腾系列成为全球AI芯片市场TOP 3
国产AI芯片在全球市场份额超过20%
实现从"跟跑"到"并跑"再到"领跑"的跨越

参考资料

华为昇腾910C - 百度百科：https://baike.baidu.com/item/%E5%8D%8E%E4%B8%BA%E6%98%87%E8%85%BE910C/67777523
华为昇腾系列AI芯片详细参数对比（2025-2028）- 电子工程专辑：https://www.eet-china.com/mp/a486527.html
华为昇腾910C算力集群发力，国产芯片成功完成万亿级AI大模型训练 - QQ新闻：https://news.qq.com/rain/a/20260608A0526U00
华为昇腾910C完成DeepSeek V4 Pro训练 - 虎嗅网：https://www.huxiu.com/ainews/12966.html
华为昇腾910C实测效率超H100，AI Infra软硬件协同亮剑万卡集群 - CNBlogs：https://www.cnblogs.com/wujianming-110117/p/18939581

本文完

最后更新：2026年6月10日

一、核心技术规格​

1.1 芯片架构与制程​

1.2 算力性能​

1.3 内存与互联​

1.4 功耗与能效​

二、关键部署案例​

2.1 CloudMatrix 384超节点​

2.2 DeepSeek-V4-Pro全参数后训练​

2.3 商业化部署案例​

案例1：某省大数据中心（300 P FLOPS算力中心）​

案例2：华为云AI训练平台​

案例3：科大讯飞智慧教育​

三、性能对比分析​

3.1 与NVIDIA H100对比​

3.2 与Ascend 910B对比​

3.3 推理性能（DeepSeek模型实测）​

四、市场定位与竞争优势​

4.1 目标市场​

4.2 竞争优势​

4.3 竞争劣势与改进方向​

五、2026年出货计划与市场预测​

5.1 出货计划​

5.2 市场预测​

六、总结与展望​

6.1 核心结论​

6.2 未来展望​

参考资料​