AI Compute Cards Wiki Editorial

Industry Research Team

国产GPU上市潮：四小龙资本市场集结，摩尔线程MTT S5000对标H100

2026年7月11日 · 阅读需 4 分钟

Industry Research Team

从 2025 年 12 月到 2026 年 7 月，短短半年，至少 6 家 AI 芯片企业登陆或即将登陆资本市场。加上已上市的寒武纪、海光信息、天数智芯，国产 GPU 军团总市值正逼近 2 万亿元。这标志着国产 GPU 从"能用"迈向"好用"的关键爬坡期。

1. "四小龙"资本市场集结

企业	上市状态	拟募资 / 发行价	保荐机构
摩尔线程	已上市（科创板 sh688795，2025-12-05）	发行价 114.28 元，募资 80 亿元	中信证券
沐曦股份	IPO 受理（2026-06-30）	39.04 亿元（投资总额 50 亿元）	华泰联合
燧原科技	过会（2026-06-15）	60 亿元	—
壁仞科技	港股 / 冲刺中	—	—

已上市阵营：寒武纪（sh688256，2020-07-20 科创板）、海光信息、天数智芯（港股）。摩尔线程一季度实现账面盈利 2,935 万元，沐曦亏损收窄 57.7% 并给出 2026 年盈亏平衡时间表。

2. 摩尔线程 MTT S5000：对标 H100

摩尔线程宣布旗舰 AI 训推一体 GPU MTT S5000 成功完成智谱新一代大模型 GLM-5 全流程适配验证，实测性能"突破国产算力天花板"：

指标	MTT S5000
架构	第四代"平湖"架构
FP8 算力	1 PFLOPS（1,000 TFLOPS）
显存带宽	1.6 TB/s
定位	训推一体全功能 GPU，对标 NVIDIA H100
量产状态	已规模量产，集群已上线支持万亿参数训练

落地验证：联合智源研究院完成具身大脑模型 RoboBrain 2.5 全流程训练；联手硅基流动实现 DeepSeek-V3 高性能推理，单卡速度接近国际顶尖产品。募投资金投向三大方向：新一代 AI 训推一体芯片、新一代图形芯片、新一代 AI SoC 芯片。

3. 寒武纪：思元590/690 双旗舰

芯片	制程	算力	显存	客户 / 状态
思元590（MLU590）	7nm（MLUarch05）	INT8 512 TOPS / FP16 ~256 TFLOPS	96 GB HBM2e	综合性能约 A100 的 80%，2026 初全场景规模出货
思元690（MLU690）	—	更高（旗舰）	—	字节 2026 框架协议采购 20 万颗、单价 13.5 万元；2026 初量产

寒武纪是国内唯一"端边云统一架构"AI 芯片厂商，统一 MLU 指令集覆盖思元 220（端）→ 370（边）→ 590/690（云），同一套 NeuWare 工具链跨算力层级部署。

4. DeepSeek-V4 效应：改变预期坐标系

2026 年 4 月 24 日，DeepSeek 发布万亿参数旗舰 DeepSeek-V4。与一年前 V3 发布时"国产芯片能不能跑大模型"的争论不同，这次华为昇腾、寒武纪、海光、沐曦、摩尔线程、昆仑芯、平头哥、天数智芯等多家国产芯片在发布当天即完成适配。

评判坐标系正在改变：从"性能达到英伟达同代产品的百分之多少"，转向"能不能承接头部大模型的真实工作负载"。

产业解读

资本弹药到位：密集 IPO 为国产 GPU 的研发迭代与产能扩张提供充足资金，从"技术突破"迈向"商业正循环"。
训推一体成主流路线：摩尔线程走全功能 GPU 路线（图形+AI+通用计算），与华为昇腾"专注 AI"形成差异化。
软件生态是胜负手：Day-0 适配、统一软件栈（MUSA / NeuWare / MXMACA）的成熟度，正取代单纯的峰值算力，成为国产 GPU"好用"的核心标尺。

参考资料

本文持续跟踪国产 GPU 上市进程与产品迭代。

WAIC 2026前瞻：华为Atlas 950 SuperPoD真机首展，国产算力"镇馆之宝"集结

2026年7月11日 · 阅读需 5 分钟

AI Compute Cards Wiki Editorial

Industry Research Team

2026世界人工智能大会（WAIC） 将于 2026年7月17日至20日 在上海世博展览馆举行，主题"智能伙伴共创未来"。据上海市经信委披露，本届大会 1100余家企业 集中展出 3000余项展品，超300款产品全球首发。对计算卡行业而言，这将是一场国产算力的集中检阅。

1. 华为Atlas 950 SuperPoD：本届"镇馆之宝"

华为将首次展出最新超节点产品 Atlas 950 SuperPoD 真机，被业界称为本届展会国产算力的"镇馆之宝"。

核心参数

指标	Atlas 950 SuperPoD
基本单元	单柜 64 卡
最大互联规模	8,192 张昇腾 NPU 卡全互联
互联协议	华为自研"灵衢"（UnifiedBus / UB-Mesh）2.0
互联带宽	16.3 PB/s（官方称为 NVIDIA NVL144 的 62 倍）
单柜 HBM	9,216 GB
单柜算力	64 PFLOPS（FP8）/ 128 PFLOPS（FP4）
芯片构成	950DT（训练）+ 950PR（推理）
散热	全液冷盲插架构

现场将展示 1,024 昇腾卡 规模的实机，在卡规模、总算力、内存容量、互联带宽等关键指标上全面领先。

SuperCluster：全球最强 50 万卡集群

基于超节点，华为还将展示 Atlas 950 SuperCluster，集群算力规模扩展至 50 万卡，是目前全世界最强算力集群，主打"打破异构算力横向扩展时的通信和功耗瓶颈"。此外，面向普通风冷机房的 Atlas 850E 风冷超节点 同步展出，采用升级版 VCE 散热技术，降低超节点部署门槛。

2. 国产芯片 Day-0 适配腾讯混元 T3

2026年7月6日，腾讯发布融合快慢思考的混合专家模型 混元 T3（总参数 295B，上下文 256K）。模型发布后，国产芯片迅速完成 Day-0 适配：

厂商	芯片	适配情况
摩尔线程	MTT S5000	完成混元 T3 极速适配（此前已适配 DeepSeek-V4、GLM-5.2 等）
沐曦股份	曦云 C 系列	全栈自研 MXMACA 软件栈，率先完成全链路 Day-0 适配，支持零代码部署

Day-0 适配能力已成为衡量国产 GPU 软件生态成熟度的关键指标。

3. 更多国产算力首发看点

厂商 / 产品	亮点
东方算芯 DF1000	全球首颗"软件定义 + 近存计算"3D 芯片，互连间距压缩至亚微米级
中昊芯英"须臾"	国产全自研新一代 TPU 架构 AI 专用芯片，配套泰则 2.0 服务器
燧原科技 × 天数智芯	基于 OEX+dOCS 架构的国产高性能 Matrix 超节点，入围大会"卓越 AI 引领者奖"
镕铭微电子	推进下一代 VPU，从视频处理向"视觉智能体算力基座"演进

参展的国产 AI 芯片阵容还包括：摩尔线程、沐曦、燧原科技、后摩智能、此芯科技、算能、芯驰科技、飞腾、爱芯元智、瀚博半导体、天数智芯等。

产业解读：从"能不能做出来"到"能不能用得好"

WAIC 2026 折射出国产 AI 芯片竞争阶段的根本转变：

超节点成为主战场：单芯片性能之外，"卡间互联 + 集群规模 + 散热"的系统级能力成为国产算力突围的关键。华为灵衢、燧原/天数 OEX 均在此发力。
软件生态兑现：Day-0 适配从口号变为常态，国产大模型（DeepSeek-V4、GLM-5.2、混元 T3）与国产芯片的"发布即适配"闭环基本成型。
需求侧背书：中国移动此前发布 2026–2027 年 AI 超节点集采公告，规模约 6,208 卡、金额超 20 亿元，国产超节点规模化商用提速。

参考资料

本文将在 WAIC 2026 开幕后持续更新真机实测与首发细节。

华为昇腾950系列产能与订单深度：950PR月产能跳升10倍，字节56亿美元锁定35万片

2026年7月10日 · 阅读需 4 分钟

AI Compute Cards Wiki Editorial

Industry Research Team

昇腾 950 系列（950PR 推理 / 950DT 训练）已成为国产 AI 算力的核心供给。据多家券商与行业调研，950 系列产能已 100% 排满、现货稀缺，全年 120 万片目标"确定性 100%"，并存在上调至 150 万片的预期。本文汇总截至 2026 年 7 月的产能与订单数据。

1. 产能节奏：6月环比近10倍跳升

时间	950PR 月产能	备注
2026年5月	5–6 万片	基本满产
2026年6月	50–60 万片	环比接近 10 倍；中芯、华虹一供全线加班
2026年 Q3（预计）	70–80 万片	单月
2026 全年目标	120 万片	有上调至 150 万片预期

产业链交付吃紧：高速背板、液冷连接器交货周期从 2 周拉长至 6–8 周，订单已排至 2027 年。

2. 订单结构：头部云厂 + 运营商 + 海外

客户	锁定量	金额 / 备注
字节跳动	35 万片 950PR	56 亿美元，2026 Q3 起集中交付
腾讯 / 阿里 / 百度	约 25 万片 950PR + 15 万片 950DT	合计约 40 万片
三大运营商	超 20 万片	集采，用于智算中心与 AI 专网
海外	韩国 2,000 片、马来西亚 3,000 台服务器、俄罗斯万卡级集群	从试点转向商用

3. 出货预测：稳居国产第一

据科智咨询测算：

指标	2025	2026（预测）
华为昇腾总出货量	81.2 万张	102.6 万张
其中 950PR	—	约 80 万片
其中 950DT	—	约 10–20 万片

华为已完成由 910 系列向 950 系列的产品切换。互联网行业已成为昇腾最大应用市场，竞争优势正由单一硬件性能延伸至软件生态与系统能力。

4. 出海：Q4 正式入韩

据韩媒 ETNews 报道，华为计划 2026 Q4 以昇腾系列及 Atlas 950 SuperPod 正式进入韩国市场：

已完成本土分销商协议，选定 SK Shieldus 等两家渠道伙伴；
主力产品为 950PR（4 月已量产交付） 与 950DT（Q4 同步推出）；
官方口径：950PR 推理性能达 H20 的 2.87 倍，定价约为其 1/4。

昇腾路线图回顾

产品	定位	关键指标（官方路线图）
950PR	推理	1 PFLOPS（FP8）/ 2 PFLOPS（FP4），互联 2 TB/s
950DT	训练	超节点核心，Q4 推出
960	训练/推理	2 PFLOPS（FP8）/ 4 PFLOPS
970	下一代	规划中

产业解读

国产替代从推理迈向训练：950PR（推理）率先放量，950DT（训练）Q4 跟进，配合 Atlas 950 SuperPoD 万卡互联，国产算力首次具备"训练替代"完整拼图。
产能是最大变量：订单确定性极高，但中芯/华虹先进制程产能、HBM 供应、先进封装仍是放量瓶颈——这也是"现货稀缺"的根源。
出海打开第二曲线：韩国、马来西亚、俄罗斯、拉美的批量采购，标志国产算力从"内循环"走向"外循环"。

参考资料

本文数据以官方与主流券商调研为准，产能/订单为动态数字，将持续更新。

NVIDIA Vera Rubin正式出货：首台VR200 NVL72交付，三星HBM4量产，Rubin Ultra机柜天价

2026年7月10日 · 阅读需 4 分钟

AI Compute Cards Wiki Editorial

Industry Research Team

2026年7月，NVIDIA 下一代 AI 计算平台 Vera Rubin 正式启动首批出货，接替 Blackwell 架构，并计划在 2026 年下半年进入大规模量产。首批客户包括微软、谷歌、亚马逊、Meta、Oracle 等大型云服务商。

1. 全球首台 VR200 NVL72 交付（里程碑）

CoreWeave 联合 Dell 宣布，全球首台 NVIDIA Vera Rubin VR200 NVL72 机柜已正式交付，并一次性通过 L11 全机柜级硬件诊断测试。这标志着 Rubin 从路线图走向实物，供应链核心环节（HBM4、先进封装、液冷、超高功率电源）未出现重大卡点。

VR200 NVL72 核心配置

指标	Vera Rubin VR200 NVL72
机柜代号	Oberon
GPU	72 块 Rubin GPU
CPU	36 颗 Vera CPU
单 GPU 显存	288 GB HBM4
单 CPU 内存	1.5 TB LPDDR5X
整柜 HBM4	20.7 TB（20,736 GB）
整柜 LPDDR5X	54 TB
互联	NVLink 6 全互联
推理性能	~3.6 exaFLOPS 级别
散热	液冷
代际提升	单 GPU 计算约 3.5×、内存带宽约 2.8×（对比 Blackwell）

Vera CPU 集成 88 个定制 Olympus ARM 核心，与 GPU 间互联带宽 1.8 TB/s，可作为 GPU 显存扩展池。NVIDIA 已于 5 月完成对 Anthropic、OpenAI、xAI 及 Oracle Cloud 的首批 Vera CPU 交付。

2. 三星 HBM4 量产：关键瓶颈松动

2026年7月8日，三星电子正式启动面向 Vera Rubin 平台的 HBM4 量产，据报道其 HBM4 量产良率达到 70%（超出 60–65% 的初始预期）。这一关键供应链环节的确认，为 Rubin 大规模部署扫清障碍。

HBM 供应格局（2026 Q1）	份额
SK 海力士	45%
三星	40%
美光	15%

HBM4 采用 8 层堆叠（12 层设计计划 2028 年），价格约为 HBM3e 的 2.8 倍。TrendForce 预测 HBM 供给将年增 65%，到 2027 Q4 HBM4 占总产出的 35%。

3. Rubin Ultra 天价：HBM 成本主导

据美国银行全球研究（BofA Global Research）测算，Rubin 一代将把单台服务器成本推向历史新高：

成本项	Rubin VR200（Oberon）	对比
单柜 HBM4 用量	20,736 GB	—
HBM4 单价	~$18.40 / GB	Blackwell（HBM3e）~$11.26 / GB
仅 HBM4 成本	~$38.2 万	尚未计入 LPDDR5X
Rubin Ultra 机柜预估售价	~$2,100 万	IT 之家 / BofA 估算

产业解读

"Never doubt"时刻兑现：Rubin 首发交付一次性通过 L11，打消了市场对"Rubin 延期"的疑虑，2026 H2 AI 算力供应确定性提前锁定。
专为 Agentic AI 设计：Rubin 面向智能体工作流、超长上下文推理，将进一步压低万亿参数模型的训练/推理成本曲线。
HBM 是全链条赢家：单机柜 20.7 TB HBM4 用量巨大，SK 海力士、三星、美光及先进封装（CoWoS-L）、液冷、电力改造全链条受益，同时也成为成本与产能的最大约束。

参考资料

本文持续跟踪 Vera Rubin 量产爬坡与 HBM4 供应链动态。

2026年H1 AI芯片行业复盘：Blackwell Ultra、国产三强与推理新时代

2026年7月1日 · 阅读需 12 分钟

AI Compute Cards Wiki Editorial

Industry Research Team

2026年上半年，AI芯片产业发生了历史性转折——产业重心从"训练竞赛"转向"推理效率"，国产芯片市场份额首次突破40%，NVIDIA以Blackwell Ultra筑高壁垒，推理专用芯片赛道百花齐放。

一、算力再翻番：NVIDIA Blackwell Ultra 发布（6月1日）

2026年6月1日，NVIDIA CEO黄仁勋在**台北国际电脑展（Computex 2026）**上揭晓新一代AI芯片 Blackwell Ultra，为未来两年的AI基础设施竞赛划定新起跑线。

关键规格

指标	Blackwell Ultra	B200	提升
FP8算力	20 petaFLOPS	~10 petaFLOPS	100%
架构	Blackwell Ultra	Blackwell	升级
预计交付	2027年Q1	2026年Q1	—
定位	超大规模训练+推理	训练+推理	旗舰

产业意义

算力翻倍的直接影响：20 petaFLOPS FP8意味着千亿参数模型训练时间大幅缩短，万亿参数模型训练从"科学实验"走向"工程常态"
系统级平衡：Blackwell Ultra不仅是芯片，更是NVLink、HBM、散热、供电的系统级工程突破
路线图确定性：2027年Q1交付时间表，让云厂商和AI实验室可以提前18个月规划基础设施预算

挑战

能耗危机：性能翻倍伴随功耗大幅上升，数据中心供电和冷却设计面临极限挑战
可及性问题：顶级算力优先供应顶级云厂商，中小开发者和研究机构如何通过云服务以合理成本触达算力
软件栈适配：新硬件需要匹配的CUDA版本和框架支持，软件生态成熟度成为算力转化的关键瓶颈

二、国产AI芯片：从"可用"到"好用"的临界点

2026年6月16日，信创世界发布**《2026中国国产AI芯片厂商能力象限》**，清晰勾勒出国产AI芯片的整体格局。

2.1 能力象限排名

象限	代表厂商
领导者象限	华为昇腾、海光信息、寒武纪、阿里平头哥、摩尔线程
远见者象限	百度昆仑芯、壁仞科技、燧原科技、沐曦股份、瀚博半导体
竞争者象限	清微智能、黑芝麻智能、芯驰科技、砺算科技、后摩智能
挑战者象限	登临科技、知存科技、芯原股份、瑞芯微、云天励飞

2.2 华为昇腾：国产算力的定海神针

市场地位

2025年昇腾系列出货 81.2万张，占国产AI加速卡 49% 份额，稳居国产第一
昇腾950PR单卡FP8算力达 1P（PetaFLOPS）、FP4算力达 2P
推理性能约为NVIDIA H20的 2.87倍，定价仅 7.2-7.5万元，性价比优势显著

全栈优势

华为"端管云芯"一体化战略是昇腾的核心壁垒：

芯片设计：Da Vinci 3.0架构持续迭代
操作系统：鸿蒙/欧拉OS深度优化
网络通信：欧拉网络协议栈
云服务：华为云ModelArts平台无缝集成

2.3 寒武纪：率先盈利的国产AI芯片标杆

业绩爆发

指标	2025年全年	2026年Q1	同比增长
营收	64.97亿元	28.85亿元	+453% / +160%
净利润	20.59亿元（首次年度盈利）	10.13亿元	— / +185%

核心产品：思元590

在DeepSeek R1推理场景下，TPS可达 942，比H20高出约 50%
与字节跳动多年联合优化，具备短期最强的云端推理部署能力
2026年Q1营收28.85亿元中，思元590贡献超过70%

潜在风险

在2026年第2号《安全可靠测评结果公告》中缺席，原因尚未明确，将对其国内政企市场表现产生影响。

2.4 清微智能：可重构芯片的"第三路线"

技术路线

清微智能采用与Groq LPU同源的可重构数据流架构，在GPU通用性与ASIC极致效率之间找到了平衡点。

指标	清微智能 TX81	传统GPU方案	优势
推理成本	基准	+100%	降低50%
能效比	基准	基准	提升3倍
架构	可重构数据流	SIMT/SIMD	更适合推理

落地进展

可重构芯片累计出货量已超 3000万颗
在全国十余座千卡规模智算中心实现规模化落地
已启动A股IPO辅导，有望成为"可重构芯片第一股"

三、推理芯片赛道：产业重心转移的核心信号

2026年6月4日，TrendForce发布深度报告**《推理经济时代来临：AI芯片的规则正被重写》，指出AI产业的算力竞争重心正在从训练转向推理**。

3.1 为什么是现在？

成本结构改变

训练是一次性成本：模型训练完成后，边际成本趋近于零
推理是持续性成本：每一次API调用、每一个生成token，都代表算力消耗与毛利压力
单位推理成本与能效表现将直接影响毛利率与规模扩张能力

模型精简技术成熟

1.58-bit量化技术与权重剪枝，使模型可在极低内存占用下维持推理准确度
MoE（混合专家）架构通过"部分唤醒"机制，每次推理仅激活少数专家子网络，大幅降低实际运算量
精简模型的崛起，为硬式编码推理芯片提供了商业可行性

3.2 NVIDIA的百亿押注：收购Groq（2025年12月）

2025年12月24日，NVIDIA以 200亿美元取得Groq的Inference技术授权与核心团队，这是NVIDIA历史上最大规模的并购/技术收购之一。

战略意图：

补全推理短板：NVIDIA GPU在训练领域无可撼动，但推理效率一直不是最强
对抗专用推理芯片：Cerebras、Taalas、SambaNova等初创公司正在蚕食推理市场
布局Agentic AI：Agentic AI需要极低延迟、极高吞吐的推理能力

3.3 Taalas HC1：硬式编码推理的概念验证

2026年2月20日，加拿大AI芯片初创公司Taalas发布推理芯片 Taalas HC1，将Meta的开源AI模型Llama 3.1 8B直接刻印在芯片中。

关键指标

指标	Taalas HC1	NVIDIA B200（throughput optimized）	优势
推理速率	16,960 tokens/s/user	基准	~4-5x
每百万tokens成本	0.75 cents	3.79 cents	降低80%
功耗	~250W	~700W	降低64%
制程	TSMC N6	TSMC 4nm	更成熟
HBM	❌ 不使用	✅ HBM3e	成本更低

技术原理

Taalas HC1采用**存储内运算（Computing-in-Memory, CIM）**的激进实现：

将模型权重直接固化于Mask ROM中（完全硬体定义）
以片上SRAM处理动态资料（KV cache和LoRA微调权重）
仅需修改2层光罩就能产出另一个AI模型的专用芯片，将一个AI模型转化为实体芯片仅需2个月

局限性

缺乏弹性：硬式编码无法应对快速迭代的模型更新
生态壁垒：当前云端市场仍依赖通用平台，客户可能更偏好可随模型升级的弹性方案
NRE成本：一次性工程费用高，需要足够大规模的部署才能摊薄

3.4 Cerebras：晶圆级整合的上市之路

2026年5月14日，Cerebras Systems正式在纳斯达克挂牌上市，成为首家上市的晶圆级AI芯片公司。

核心技术：Wafer-Scale Integration（WSI）

WSE-3（第三代晶圆级引擎）：整片12英寸晶圆做成单一芯片
44GB片上SRAM：无需外部HBM，彻底消除内存带宽瓶颈
21 PB/s带宽：片上通信带宽，是GPU的千倍级别
与OpenAI合作：已签署逾200亿美元、规模750MW的三年算力合作协议

上市意义

Cerebras的上市是推理专用芯片赛道成熟的标志：

资本市场开始为这类公司定价
证明"非GPU"技术路线具备商业可行性
为其他推理芯片初创公司（Groq、SambaNova、Taalas等）提供了估值参照

3.5 推理芯片格局：多元技术路线并存

公司	技术路线	核心优势	代表产品
Taalas	硬式编码（Mask ROM）	极致推理效率、低成本	HC1
Cerebras	晶圆级整合（WSI）	超高带宽、大模型推理	WSE-3
Groq	SRAM-first架构	确定性延迟、高吞吐	LPU（已被NVIDIA收购）
d-Matrix	数字存储内运算（DIMC）	灵活性强于硬式编码	Corsair
Etched	Hard-wired Transformer	所有Transformer模型适用	Sohu
Axelera AI	数字存储内运算（D-IMC）+ RISC-V	高能效比	Metis AIPU

TrendForce预测：

通用GPU仍主导训练与多模型环境
但在成熟、可预测场景中，通用GPU的利润空间将受到压缩
产业格局从通用算力垄断，走向通用与专用并行的双轨结构

四、2026年H1国产AI芯片整体格局

4.1 行业进入放量期

指标	2025年	2026年Q1	趋势
国产AI加速卡出货量	165万张（占比41%）	—	持续上升
中国AI加速卡总出货量	~400万张	—	—
海光信息营收增速	—	翻倍增长	↑
寒武纪营收增速	—	+160%	↑
摩尔线程营收增速	—	翻倍增长	↑

头部厂商集体进入业绩兑现通道，行业从"技术验证"迈向"规模商用"。

4.2 三大核心发展趋势

趋势一：资本化浪潮重塑格局

2025年底至2026年初，摩尔线程、沐曦股份登陆科创板
壁仞科技登陆港股
燧原科技科创板IPO获受理
昆仑芯、平头哥启动上市进程
清微智能、瀚博半导体等推进IPO

资本化带来双重效应：

✅ 正面：为研发和生态建设提供支撑
⚠️ 负面：估值泡沫和业绩兑现压力

趋势二：产能成为最大制约变量

国产AI芯片爆发式需求与有限先进制程产能的矛盾日益尖锐：

厂商	先进制程产能需求	实际获得
华为昇腾	每月1.5万片（7nm级）	优先保障
中芯国际总产能	每月约2万片（7nm级）	—
其他厂商	合计约5000片/月	极度紧张

能否拿到稳定晶圆产能直接决定厂商生死。寒武纪75.4%的营收占比存货，本质是对产能的锁定。

趋势三：竞争从"可用"转向"好用"

早期竞争聚焦"能否跑通模型"，当前升级为"运行效率、部署成本"的比拼：

竞争维度	"可用"时代	"好用"时代
硬件性能	能否跑通模型	运行效率、能效比
软件栈	基本适配	成熟度、框架广度
生态	有无	开发者社区活跃度
部署成本	不敏感	核心竞争要素

五、2026年H2展望

5.1 即将到来的关键事件

时间	事件	影响
2026年Q3	NVIDIA Rubin架构详情公布	下一代旗舰规格揭晓
2026年Q3	华为昇腾950PR/950DT正式发布	国产推理芯片新标杆
2026年Q4	AMD MI350X规模化交付	NVIDIA Blackwell竞品
2026年Q4	寒武纪思元690发布（推测）	新一代训练芯片
2027年Q1	NVIDIA Blackwell Ultra交付	算力新标杆落地

5.2 未来三年关键竞争要素

晶圆产能获取能力：先进制程产能是稀缺资源，绑定中芯国际、TSMC的厂商具备先天优势
资本运作效率：IPO窗口期有限，能否在资本市场上融到足够资金决定研发持续性
软件生态建设深度：硬件性能只是入场券，软件栈成熟度、框架适配广度、开发者社区活跃度才是核心壁垒

六、结语：多元生态终将形成

2026年H1，AI芯片产业正在经历从"一家独大"到"多元并存"的历史性转变。

NVIDIA以Blackwell Ultra筑高训练壁垒，同时以收购Groq布局推理效率
华为昇腾以全栈能力守住国产算力的基本盘，950PR在推理性能上开始超越H20
寒武纪以率先盈利证明国产AI芯片的商业化可行性，思元590在特定场景超越国际竞品
Cerebras、Taalas等推理专用芯片公司开辟了"非GPU"的第三路线
清微智能的可重构架构为中国AI芯片提供了技术路线的多元化选择

未来三年，国产AI芯片终局将形成GPU、ASIC、可重构计算三大技术路线并存，云端与边缘协同发展的多元生态。"国产替代"不再是口号，而是正在发生的产业现实。

数据来源：

信创世界《2026中国国产AI芯片厂商能力象限》（2026-06-16）
TrendForce《推理经济时代来临：AI芯片的规则正被重写》（2026-06-04）
RayByte《算力再翻番！英伟达Blackwell Ultra芯片发布》（2026-06-02）
各公司官方财报和公告

相关阅读：

2026年6月AI芯片重大事件汇总：昇腾910C训练万亿模型、OpenAI自研芯片、RTX Spark发布

2026年6月28日 · 阅读需 6 分钟

AI Compute Cards Wiki Editorial

Industry Research Team

2026年6月，AI芯片领域迎来多个里程碑事件，标志着"国产替代"和"去英伟达化"两大趋势加速。

1. 华为昇腾910C完成1.6万亿参数DeepSeek V4 Pro训练（2026-06-05）

事件概述

2026年6月5日，深圳河套学院联合哈尔滨工业大学（深圳）、深圳市大数据研究院及华为等团队，依托昇腾910C国产AI算力集群，成功完成 1.6万亿参数DeepSeek V4 Pro大模型全参数后训练。

技术意义

指标	数值
模型参数	1.6万亿
训练芯片	昇腾910C集群
训练类型	全参数后训练（Full Parameter Post-Training）
意义	国产AI芯片首次完成万亿参数级大模型训练

产业影响

打破技术封锁：证明国产AI芯片具备训练万亿参数大模型的能力
"告别英伟达"加速：DeepSeek全面换装华为昇腾，减少了对H100的依赖
国产替代拐点：从"推理替代"迈向"训练替代"

2. OpenAI发布首款自研AI推理芯片Jalapeño（2026-06-24）

事件概述

2026年6月24日，OpenAI与博通（Broadcom）联合发布首款自研AI推理芯片 Jalapeño，设计周期仅9个月（行业平均18个月），采用TSMC 3nm工艺。

关键技术指标

指标	Jalapeño	对比（Blackwell）
制程	TSMC 3nm	TSMC 4nm
架构	Systolic Array（脉动阵列）	Blackwell GPU
设计周期	9个月	~18个月
推理成本	-50%	基准
AI辅助设计	✅ 首款	❌ 否
部署时间	2026年底	已出货

战略意义

首款AI辅助设计的AI芯片：OpenAI用GPT-5.3-Codex-Spark等模型辅助架构探索
"去英伟达化"加速：科技巨头（谷歌、亚马逊、微软、Meta、OpenAI）集体自研芯片
推理成本革命：对于每天处理数亿次API调用的OpenAI，成本降低50%意义非凡

3. NVIDIA在Computex 2026发布RTX Spark AI PC超级芯片（2026-06-01）

事件概述

2026年6月1日，NVIDIA CEO黄仁勋在Computex 2026 / GTC Taipei发布 RTX Spark AI PC超级芯片，与联发科（MediaTek）合作，采用Arm CPU + Blackwell GPU统一内存架构。

关键技术指标

指标	RTX Spark
CPU	最多20核Arm（联发科合作）
GPU	6,144 CUDA核心（Blackwell）
统一内存	128GB LPDDR5X（CPU+GPU共享）
内存带宽	300 GB/s
AI算力	~1 PFLOPS（推测）
模型容量	可运行1,200亿参数模型
上下文	最长100万tokens
TDP	~100W（推测）
上市	2026年秋季

产业影响

NVIDIA进军PC芯片市场：挑战英特尔在个人电脑领域的主导地位
AI PC新标准：本地运行120B参数模型，100万token上下文
Windows转变为AI Agent平台：与微软OpenShell框架深度合作

4. 工信部发布《2026年人工智能芯片产业发展白皮书》（2026-06-09）

事件概述

2026年6月9日，中国工业和信息化部发布《2026年人工智能芯片产业发展白皮书》，预测国内AI芯片市场规模将在2026年突破2000亿元人民币。

关键预测

指标	2026年预测
市场规模	突破2000亿元人民币
国产芯片份额	>50%（2025年为41%）
边缘推理芯片	显著进展
出货量增长	翻倍以上（相比2025年）

产业意义

国产AI芯片资本化加速：寒武纪、燧原、摩尔线程等加速IPO
边缘推理成破局关键：相比训练芯片，推理芯片更易实现国产替代
政策红利持续：国产替代从"市场行为"升级为"国家战略"

5. 字节跳动洽谈采购天数智芯5万颗推理芯片（2026-06-17）

事件概述

2026年6月17日，路透社报道称，字节跳动正与上海AI芯片企业天数智芯洽谈采购至少5万颗AI芯片，主要用于推理任务。

交易细节

项目	内容
采购方	字节跳动
供应商	天数智芯
芯片型号	智铠系列（推理GPU）
采购数量	至少5万颗
用途	推理工作负载
训练芯片	天垓系列

产业意义

国产GPU头部玩家"加人"：天数智芯首次进入头部互联网公司供应链
字节跳动2026年资本开支上调超2000亿元：主要用于AI算力和数据中心
"国产替代"从政府和国企扩展到民营科技巨头

总结：2026年6月AI芯片产业三大趋势

趋势1："国产替代"从推理迈向训练

昇腾910C完成1.6万亿参数模型训练 → 证明国产芯片具备训练能力
DeepSeek全面换装昇腾 → 头部AI公司率先"告别英伟达"
字节跳动采购天数智芯 → 民营科技巨头跟进

趋势2："去英伟达化"从口号变为行动

OpenAI Jalapeño → 首款自研芯片，推理成本-50%
谷歌TPU、亚马逊Trainium、微软Maia → 持续迭代
Meta MTIA、苹果M5 Ultra → 加大投入

趋势3：AI PC和边缘推理成为新战场

NVIDIA RTX Spark → AI PC新标准，2026年秋季上市
边缘推理芯片国产化加速 → 工信部白皮书重点提及
"万亿参数模型本地运行" → 消费者市场新卖点

展望未来（2026 H2）

昇腾950DT全面放量（2026 Q4）→ 华为最新一代训练芯片
NVIDIA Rubin R200出货（2026 H2）→ 下一代旗舰
AMD MI400 Helios机架（2026 H2）→ 对标NVIDIA GB200
OpenAI Jalapeño部署（2026年底）→ 千兆瓦级数据中心
国产AI芯片出货量翻倍以上 → 中信证券预测

参考资料

本文持续更新，欢迎提供最新动态。

AMD MI455X CES 2026 震撼发布：4年AI芯片性能涨1000倍

2026年6月16日 · 阅读需 7 分钟

AI Compute Cards Wiki Editorial

Industry Research Team

2026年1月5日，在CES 2026（国际消费电子展）首日，AMD董事会主席兼CEO苏姿丰博士在主题演讲中震撼发布：Instinct MI400系列AI加速卡。

其中最引人注目的是MI455X——AMD史上性能最强的AI加速卡，采用2nm + 3nm混合制程、432GB HBM4显存、FP4算力高达40 PFLOPS（FP8为20 PFLOPS）。

核心亮点

MI455X：FP4算力40 PFLOPS，FP8算力20 PFLOPS，相比MI355X提升10×
MI450：高性价比版，FP4算力28 PFLOPS，288GB HBM4
制程升级：全球首款采用2nm + 3nm混合制程的AI芯片（GCD用2nm，MCD用3nm）
显存升级：从MI350X的288GB HBM3e升级到432GB HBM4（MI455X）
带宽升级：从MI350X的8 TB/s升级到19.6 TB/s（提升2.45×）
架构升级：从CDNA 4升级到CDNA 5
量产时间：MI455X 2026年Q4，MI450 2026年Q3

MI400系列完整规格

📌 重要更正（2026-06-16）：经官方规格核对，MI455X 显存为 432GB HBM4（非早期报道的 288GB），FP4 算力为 40 PFLOPS。特此更正。

型号	定位	显存	FP4 算力	FP8 算力	TDP（推测）
MI455X	旗舰训练+推理	432GB HBM4	40 PFLOPS	20 PFLOPS	~1,000W
MI450	高性价比训练	288GB HBM4	28 PFLOPS	14 PFLOPS	~800W
MI440X	企业推理	216GB HBM4	25 PFLOPS	12.5 PFLOPS	~600W
MI430X	HPC / 科学计算	192GB HBM4	20 PFLOPS	10 PFLOPS	~500W
MI400X	通用 / 边缘推理	128GB HBM4	12 PFLOPS	6 PFLOPS	~400W

关键升级（vs MI350系列）：

显存：HBM3e → HBM4，容量提升 50%（432GB vs 288GB）
带宽：19.6 TB/s（vs MI350的 8 TB/s，提升 2.45×）
算力：FP4 40 PFLOPS（vs MI355X的 20 PFLOPS，提升 2×）
制程：2nm + 3nm 混合制程（GCD用2nm，MCD用3nm）
架构：CDNA 5（vs MI350的 CDNA 4）

与MI355X的性能对比

指标	MI355X（2025）	MI455X（2026）	提升
FP4算力	20 PFLOPS	40 PFLOPS	2×
FP8算力	10 PFLOPS	20 PFLOPS	2×
显存容量	288GB HBM3e	432GB HBM4	1.5×
显存带宽	8 TB/s	19.6 TB/s	2.45×
制程	TSMC 3nm	2nm + 3nm 混合	新一代
架构	CDNA 4	CDNA 5	新一代
TDP	800-1000W	~1,000W	持平

苏姿丰在CES 2026上说：

"4年前，MI250的AI性能是X。现在，MI455X的性能提升了1000倍。这就是AI芯片的进步速度。"

CDNA 5架构详解

MI400系列采用CDNA 5架构（MI355X用CDNA 4）：

关键升级

Matrix Core 升级：支持FP8/INT8/FP16，稀疏化加速
HBM4控制器：支持12层HBM4（ vs HBM3e的8层）
Infinity Fabric 4.0：Die间/Die-GPU间互联带宽提升50%
稀疏化原生支持：MoE模型的Expert Parallel优化
长上下文优化：1M+ token KV Cache加速

与NVIDIA Blackwell / Rubin对比

指标	AMD MI455X	NVIDIA B200	NVIDIA Rubin R200（2026 Q4）
FP4算力	40 PFLOPS	20 PFLOPS（稀疏 45 PFLOPS）	~40 PFLOPS（推测）
FP8算力	20 PFLOPS	10 PFLOPS（稀疏 22.5 PFLOPS）	~20 PFLOPS（推测）
显存	432GB HBM4	192GB HBM3e	288GB HBM4
显存带宽	19.6 TB/s	8 TB/s	13 TB/s
TDP	~1,000W	700-1000W	~1,000W
制程	2nm + 3nm 混合	TSMC 4np	TSMC 3nm
量产时间	2026年Q4	2024年Q4	2026年Q4
软件生态	ROCm	CUDA	CUDA
优势	显存容量、开放生态	生态最成熟	下一代架构
劣势	软件生态差距	显存较小	尚未发布

结论：MI455X在FP4/FP8算力和显存容量/带宽上领先B200，但软件生态仍是短板。与Rubin R200相比，纸面性能相近，但Rubin有CUDA生态护城河。

量产时间表

时间	事件
2025年6月12日	Advancing AI大会首次公布MI400系列规格
2026年1月5日	CES 2026正式发布MI455X/MI450/MI440X
2026年Q3	MI450开始送样
2026年Q4	MI455X正式量产
2026年Q4	MI440X（企业推理版）发布
2027年Q1	MI430X/MI400X（HPC/边缘推理版）发布
2027年	MI500系列（下一代）

AMD AI芯片路线图（2025-2027）

时间	产品	制程	备注
2024年Q4	MI325X	TSMC 5nm	HBM3e升级版
2025年Q3	MI355X（MI350系列）	TSMC 3nm	CDNA 4，288GB HBM3e
2026年Q4	MI455X（MI400系列）	2nm + 3nm 混合	CDNA 5，432GB HBM4
2027年Q1	MI500系列	TSMC 2nm（推测）	下一代，性能再提升

软件生态：ROCm的进步与挑战

✅ 进步

PyTorch 2.5+：原生支持MI300X/MI455X
Hugging Face Transformers：官方支持AMD GPU
vLLM 0.8+：MI300X推理支持（实验性）
JAX：AMD正在适配（对标Google TPU）

⚠️ 挑战

框架优化度：PyTorch在AMD GPU上的性能仍低于NVIDIA
算子覆盖率：部分小众算子需要自己写HIP代码
多卡通信：RCCL（对标NCCL）性能仍有差距
开发者生态：教程、案例、社区活跃度远不及NVIDIA

与竞品对比

厂商	产品	FP4算力	显存	量产时间	优势	劣势
AMD	MI455X	40 PFLOPS	432GB HBM4	2026 Q4	显存容量最大、开放生态	软件生态差距
NVIDIA	B200	20 PFLOPS	192GB HBM3e	2024 Q4	生态最成熟	显存较小
NVIDIA	Rubin R200	~40 PFLOPS	288GB HBM4	2026 Q4	下一代架构、CUDA生态	价格昂贵
华为	昇腾910C	~1.6 PFLOPS	64GB HBM	2026 Q2	中国本土化	受出口管制
Google	TPU 8t	~9.2 PFLOPS	~256GB HBM3e	2027年底	与Gemini集成	仅Google Cloud

行业影响

1. 对NVIDIA的冲击

AMD MI455X在纸面性能上已经追上B200（FP4 40 PFLOPS vs 20 PFLOPS），甚至在显存容量上大幅领先（432GB vs 192GB）。

但：

NVIDIA有CUDA生态护城河
NVIDIA有Vera Rubin平台（整体方案，2026 Q4发布）
AMD只能卖单卡/单机，NVIDIA卖AI工厂
MI455X量产时间（2026 Q4）与Rubin R200相同，正面竞争

2. 对国产芯片的压力

MI455X的发布意味着：国际主流AI芯片在2026年将进入2nm + HBM4时代。

国产芯片（华为昇腾、寒武纪、沐曦等）需要：

在2026-2027年追上5nm + HBM3e水平
否则差距将从"1代"扩大到"2代"

3. 对云服务商的意义

MI455X给云服务商提供了NVIDIA之外的第二选择：

微软Azure：已部署MI355X，可能跟进MI455X
谷歌Cloud：自研TPU，不会用AMD
亚马逊AWS：自研Trainium/Inferentia，不会用AMD
阿里云、腾讯云：可能采购MI455X作为NVIDIA替代方案

参考资料

MI455X芯片 - 百度百科 - 官方规格参数
AMD甩出最猛两代AI芯片！全球首推432GB HBM4 - 知乎 - 智东西现场报道
对标英伟达：AMD推出MI440X，抢攻企业级AI数据中心市场 - 腾讯新闻
AMD MI400上了432GB HBM4：纸面参数碾压NVIDIA - CocoLoop
AMD CES 2026主题演讲回放

本文基于AMD CES 2026官方公告、百度百科及知乎智东西现场报道整理，规格参数已核对官方来源。2026-06-16更新：修正MI455X显存（288GB → 432GB）和算力（FP8 6 PFLOPS → FP4 40 PFLOPS）

谷歌TPU 8i/8t 正式发布：训练与推理首次分家，2nm工艺赋能智能体时代

2026年6月16日 · 阅读需 7 分钟

AI Compute Cards Wiki Editorial

Industry Research Team

2026年4月22日，在拉斯维加斯举行的Google Cloud Next '26大会上，谷歌正式发布了第八代张量处理器（TPU）。这是谷歌史上首次将AI训练与推理任务拆分至两款独立芯片：

TPU 8t：专为模型训练设计
TPU 8i：专注高并发推理任务

此次发布未引入新的物理概念，而是聚焦于解决AI数据中心的核心痛点：万卡集群扩展效率、智能体AI工作负载优化、每瓦性能提升。

TPU 8i（推理专用）：消除"等待室效应"

TPU 8i是谷歌和**联发科（MediaTek）**首次合作设计的推理专用芯片，旨在消除"等待室效应"——即用户请求被有意排队或延迟以实现硬件利用率最大化的情况。

TPU 8i 核心规格（推测）

参数	TPU 8i	TPU v7 Ironwood
定位	推理专用	推理为主
制程	TSMC 2nm	—
Die设计	双计算Die（推测）	—
显存	8× HBM3e 12层（推测 ~192GB）	8× HBM3（192GB）
显存带宽	~7 TB/s（推测）	7,380 GB/s
FP8 算力	~4,614 TFLOPS（推测）	4,614 TFLOPS
TDP（每芯片）	1,300 W	1,000 W
互联	ICI 3D Torus	ICI 3D Torus
集成CPU	Arm Axion（64核）	无
散热	风冷/液冷均可	第4代液冷
公布时间	2026-04-22	2025-08-25
量产时间	2027年底	2026年

关键特性：

✅ 高并发推理优化：专为Agentic AI设计，支持数千个步骤的推理链条
✅ Arm Axion CPU集成：64核Neoverse V2，Host CPU + 数据预处理协同
✅ 低延迟：消除"等待室效应"，首Token延迟（TTFT）极低
✅ 每瓦性能提升117%：相比Ironwood（同等价格）

TPU 8t（训练专用）：Gemini 3/4的"发动机"

TPU 8t专为Google Gemini 3 / Gemini 4等frontier模型训练设计，是谷歌与**博通（Broadcom）**长期合作的延续。

TPU 8t 核心规格

参数	TPU 8t	TPU v7 Ironwood	提升
定位	训练专用	推理为主	形态拆分
制程	TSMC 2nm	—	新一代
Die设计	双计算Die	—	架构升级
显存	8× HBM3e 12层（单芯片推测 ~256GB）	8× HBM3（192GB）	升级
显存带宽	~7 TB/s（推测每芯片）	7,380 GB/s	持平
Pod芯片数	9,600芯片	9,216	+4%
Pod HBM总量	2 PB	—	远超
Pod FP4算力	121 EFLOPS	~42 EFLOPS（推测）	~3×
集成CPU	Arm Axion（64核）	无	新增
TDP（每芯片）	1,300 W	1,000 W	+30%
量产时间	2027年底	2026年	—

关键特性：

✅ MoE训练原生支持：Expert Parallel优化（DeepSeek / Mixtral风格）
✅ Long-context训练：1M+ token上下文训练优化
✅ RLHF/后训练：Online RL（DPO/PPO/GRPO）原生优化
✅ Arm Axion CPU协同：数据预处理/权重初始化Offload到CPU
✅ SparseCore加速：MoE路由和推荐系统

第八代TPU的战略意义

1. 训练与推理首次分家

此前，谷歌的TPU设计理念是"一个架构兼顾训练和推理"（如TPU v5p、v6e）。但智能体AI时代的到来改变了这一点：

训练工作负载：大规模矩阵乘法、长时序反向传播、稀疏化MoE
推理工作负载：高并发、低延迟、KV Cache密集型、动态批处理

这两种工作负载对芯片架构的要求截然不同。拆分后：

TPU 8t可以专注优化计算密度和显存容量
TPU 8i可以专注优化推理吞吐和每瓦性能

2. 与博通、联发科的双线合作

博通（Broadcom）：继续合作设计TPU 8t（训练），延续自TPU v1以来的长期伙伴关系
联发科（MediaTek）：首次合作设计TPU 8i（推理），引入移动芯片低功耗设计经验

这种"双线合作"策略使谷歌能够：

在训练芯片上追求极致性能（与博通的高端ASIC经验结合）
在推理芯片上追求极致能效（与联发科的移动芯片经验结合）

3. 对标NVIDIA Vera Rubin

对比	Google TPU 8t + 8i	NVIDIA Vera Rubin
策略	训练/推理拆分	统一架构（GPU+CPU）
制程	TSMC 2nm	TSMC 3nm（推测）
生态	仅Google Cloud	全球可用
软件	JAX / PyTorch/XLA	CUDA / PyTorch
量产	2027年底	2026年秋季
优势	与Gemini深度集成	生态最成熟

技术深度解析

TSMC 2nm：为何选择2nm？

谷歌是首家在AI加速器上采用TSMC 2nm制程的厂商（NVIDIA Rubin用的是3nm）。2nm（N2）工艺相比3nm（N3E）：

晶体管密度提升：~15-20%
功耗降低：~25-30%（同等性能）
性能提升：~10-15%（同等功耗）

对于功耗已达1,300W的TPU 8t/8i来说，2nm是必须的——否则4nm/3nm无法在合理功耗内集成双计算Die和8×HBM3e。

Arm Axion CPU：Google自研CPU首次进入TPU节点

此前，TPU节点使用Intel Xeon或AMD EPYC作为Host CPU。TPU 8t/8i首次集成Google自研的Arm Axion CPU（64核Neoverse V2）：

意义：

数据预处理Offload：Tokenization、数据增强等可以完全在Axion上完成，不占用TPU算力
权重初始化：大模型训练的权重初始化可以在CPU上完成，加速训练启动
推理调度：多模型推理时，Axion负责请求调度和负载均衡

这标志着TPU节点向"超节点"演进：不再是纯加速器，而是TPU + Axion CPU协同系统，对标NVIDIA Vera CPU。

第4代液冷：1,300W的散热挑战

TPU 8t/8i的TDP达到1,300W（相比Ironwood的1,000W提升30%），这给数据中心散热带来巨大挑战。

谷歌采用第4代液冷方案：

冷板液冷：直接冷却GPU Die和HBM
浸没式液冷：可选方案（超高密度部署）
智能温控：根据工作负载动态调整泵速和风扇转速

量产时间表与应用场景

时间	事件
2026-04-22	Cloud Next '26正式公布
2026年下半年	内部测试（Google DeepMind优先使用）
2027年底	**正式量产，Google Cloud开放
2028年	下一代TPU（可能为TPU 9）

目标应用场景：

✅ Frontier模型训练（Gemini 3/4、外部客户）
✅ MoE大模型推理（高并发、低延迟）
✅ 多模态AI（ViT + LLM同步推理）
✅ 智能体AI（Agentic AI工作负载）

与竞品对比

厂商	产品	制程	TDP	量产时间
Google	TPU 8i（推理）	TSMC 2nm	1,300W	2027年底
Google	TPU 8t（训练）	TSMC 2nm	1,300W	2027年底
NVIDIA	Rubin GPU	TSMC 3nm（推测）	~1,000W	2026年秋季
NVIDIA	Vera CPU	TSMC 3nm（推测）	~500W	2026年秋季
AMD	MI455X（MI400）	TSMC 3nm（推测）	~700W	2026年
华为	昇腾950PR	—	~500W	2026年Q1

行业影响

AI芯片进入2nm时代：谷歌率先采用TSMC 2nm，NVIDIA、AMD必然跟进
训练/推理拆分成为新趋势：其他厂商（如NVIDIA、AMD）可能会效仿
自研CPU成为标配：Google（Axion）、NVIDIA（Vera）、华为（鲲鹏）都在做CPU+加速器的协同设计
液冷成为必然选择：1,300W的TDP意味着风冷已经无法满足

参考资料

本文基于Google官方公告及公开资料整理，部分规格为推测值，以官方最终发布为准。

里程碑！华为昇腾910C完成1.6万亿参数大模型全参数训练

2026年6月16日 · 阅读需 7 分钟

AI Compute Cards Wiki Editorial

Industry Research Team

2026年6月5日，深圳发布官宣重磅消息：深圳河套学院联合哈工大（深圳）、华为等团队，用1000颗华为昇腾910C芯片，成功完成1.6万亿参数DeepSeek-V4-Pro大模型全参数后训练。

这不是一次试探性的尝试，而是一次里程碑式的技术突破。它用无可辩驳的工程结果证明：国产AI芯片足以支撑世界级超大参数模型训练。

为什么这很重要？

AI芯片的两道坎："推理"与"训练"

推理（Inference）：用现成模型聊天、写文案。此前国产芯片已经能做
训练（Training）：调整模型参数让它学习新能力。全参数训练要同时调整1.6万亿个参数，难度拉满

此前，万亿级参数模型的全参数训练一直被英伟达H100/H200垄断。国产芯片只能做推理，无法做大规模训练。

这次突破的意义：国产算力从"能用"跨越到"好用"，从"推理"跨越到"训练"。

技术细节

训练配置

项目	参数
芯片	华为昇腾910C × 1,000颗
模型	DeepSeek-V4-Pro
参数量	1.6万亿（1600B）
训练类型	全参数后训练（Full Parameter Post-Training）
训练框架	昇思（MindSpore）+ torch_npu
完成时间	2026年6月5日官宣

性能指标

指标	数值	评价
算力利用率	>30%	工业级水平（海外顶级芯片~40%）
关键训练算子效率提升	14%	相比上一代910B
通信带宽利用率	>60%（推测）	MoE模型的All-to-All通信
稳定性	1000颗卡连续训练无故障	集群稳定性达标

💡 关于30%算力利用率：很多人觉得30%不高，但在大模型训练领域，这已经是非常不错的工业级水平。就算用最顶级的海外芯片，很多团队的实际利用率也就在40%左右。

昇腾910C详细规格

昇腾910C是华为在2024年4月24日（华为分析师大会）公布的AI训练/推理芯片，理论算力峰值达到800 TFLOPS（BF16精度），与英伟达H100处于同等量级。

参数	昇腾910C	昇腾910B	NVIDIA H100
架构	Ascend 910C	Ascend 910B	Hopper
制程	TSMC 7nm（推测）	TSMC 7nm	TSMC 4NP
BF16算力	800 TFLOPS	256 TFLOPS	989 TFLOPS（稀疏）
显存	64GB HBM（推测）	64GB HBM2e（B1/B2）	80GB HBM3
显存带宽	~2TB/s（推测）	600 GB/s（B1/B2）	3.35 TB/s
TDP	~400W（推测）	300-400W	700W
量产时间	2026年4月（正式量产）	2022年11月	2022年3月

关键升级：

✅ 算力提升3×：从910B的256 TFLOPS提升到800 TFLOPS
✅ 软件生态完善：torch_npu适配PyTorch，昇思框架成熟
✅ 集群稳定性：1000颗卡连续训练无故障（这是最大的突破）

技术挑战与解决方案

挑战1：万亿级模型的显存需求

1.6万亿参数模型，仅模型参数就需要：

FP16精度：1.6T × 2 bytes = 3.2 TB
加上梯度、优化器状态：至少10 TB显存

华为的解决方案：

模型并行（Model Parallel）：将模型分布到1000颗910C上
ZeRO优化器：优化显存占用
梯度累积：分阶段更新参数

挑战2：万卡集群的通信效率

1000颗芯片训练时，卡间通信成为瓶颈。MoE模型需要All-to-All通信（每个专家可能需要与其他所有专家通信）。

华为的解决方案：

HCCS（Huawei Collective Communication Scheduler）：自研高速互联协议
分层通信：节点内NVLink + 节点间HCCS
通信-计算重叠：在计算的同时进行数据传输

挑战3：训练稳定性

万亿级模型训练需要数周甚至数月，任何一颗卡故障都可能导致整个训练中断。

华为的解决方案：

故障检测与自动恢复：实时监测卡的状态，故障时自动重启并恢复训练状态
检查点（Checkpoint）优化：高频保存训练状态（每N步保存一次）
昇腾集群管理软件：专门为企业级训练设计

与竞品对比

厂商	芯片	1.6万亿参数训练	生态成熟度	可用性
华为	昇腾910C	✅ 已完成	⭐⭐⭐（进步中）	中国本土
NVIDIA	H100/H200	✅ 工业标准	⭐⭐⭐⭐⭐	全球（受出口管制）
AMD	MI300X	✅ 可行	⭐⭐⭐⭐	全球
Google	TPU v5p/8t	✅ JAX原生	⭐⭐⭐⭐	Google Cloud

结论：昇腾910C在硬件性能上已经追上H100，软件生态仍有差距，但这次训练成功证明了工程可行性。

行业影响

1. 国产算力的"遵义会议"

这次突破被业内称为国产算力的"遵义会议"——从此从被动防守转向战略反攻。

具体影响：

✅ 打破"国产芯片只能推理"的偏见
✅ 证明国产芯片可以做frontier模型训练
✅ 为国产大模型（如DeepSeek-V4、文心5.0）提供算力底座

2. 对英伟达的冲击

华为昇腾910C完成万亿级训练，意味着中国AI产业对英伟达的依赖度降低。

场景	此前	现在
推理	国产芯片可用	国产芯片好用
训练	必须用H100/H200	可以用910C
大规模训练	必须用H100集群	可以用910C集群

3. 对国产芯片产业的提振

这次突破将带动整个国产AI芯片产业链：

芯片设计：寒武纪、沐曦、摩尔线程等加速迭代
晶圆制造：中芯国际、华虹等获得更多订单
封装测试：长电科技、通富微电等受益

华为昇腾芯片路线图（2025-2028）

时间	芯片	定位
2025年Q1	昇腾910C	旗舰训练/推理（已量产）
2026年Q1	昇腾950PR	推理优化（~500 TFLOPS BF16）
2026年Q4	昇腾950DT	数据中心训练
2027年Q4	昇腾960	下一代旗舰
2028年Q4	昇腾970	再下一代

训练实战经验分享

深圳河套学院团队在训练中积累了宝贵经验：

✅ 成功经验

渐进式训练：从小模型（7B）开始，逐步扩大到1.6T
混合精度训练：BF16主训练 + FP32梯度累积
通信优化：All-to-All通信与计算重叠
故障恢复：每1000步保存一次检查点

⚠️ 遇到的挑战

显存碎片：长训练过程中显存碎片化严重，需要定期整理
通信瓶颈：MoE模型的All-to-All通信占训练时间的30%+
软件Bug：torch_npu偶有内存泄漏，需要重启训练进程

参考资料

本文基于公开报道整理。向深圳河套学院、哈工大（深圳）、华为等团队表示敬意——你们用工程实践证明了中国AI算力的可行性。

Intel Gaudi 4 / Jaguar Shores 最新进展：重返AI竞赛，HBM4内存加持

2026年6月16日 · 阅读需 7 分钟

AI Compute Cards Wiki Editorial

Industry Research Team

2026年3月18日，Intel在Intel AI Summit上正式发布：Habana Gaudi 4定制AI加速卡。这是Intel在Gaudi 3（2024年4月发布）之后的最新一代AI训练/推理芯片，专为大规模模型训练设计。

同时，Intel确认下一代Jaguar Shores GPU（数据中心GPU）正在研发中，将采用HBM4内存，预计2027年发布。这标志着Intel正式重返AI芯片竞赛。

核心亮点

Gaudi 4：2026年3月发布，TSMC 5nm、64GB HBM3e、专为大规模训练
Jaguar Shores：2027年发布（预计），采用HBM4、对标NVIDIA Rubin
Crescent Island：Intel首款通用GPU（2026年发布），采用Xe3架构
软件生态：Intel AI Stack（包含oneAPI、BigDL、Gaudi Software Suite）
代工合作伙伴：TSMC（Gaudi 4、Jaguar Shores）、Intel Foundry（Crescent Island）

Gaudi 4 详细规格

Gaudi 4是Intel旗下Habana Labs（2019年收购）设计的第四代AI加速卡。

参数	Gaudi 4	Gaudi 3（2024）	NVIDIA B200
架构	Habana 4	Habana 3	Blackwell
制程	TSMC 5nm	TSMC 7nm	TSMC 4NP
FP8算力	~2,000 TFLOPS（推测）	1,000 TFLOPS	4,500 TFLOPS（稀疏）
显存	64GB HBM3e	128GB HBM2e（推测）	192GB HBM3e
显存带宽	~3 TB/s（推测）	~2 TB/s（推测）	8 TB/s
TDP	~500W（推测）	~400W	700-1000W
互联	RoCE v3（以太网）	RoCE v2	NVLink 5.0
发布时间	2026年3月	2024年4月	2024年3月
量产时间	2026年Q3（推测）	2024年Q4	2024年Q4

📌 注：Gaudi 4具体规格尚未完全公开，上表部分为推测值。

Gaudi 4的关键特性

以太网原生支持：采用RoCE v3（RDMA over Converged Ethernet），无需专用互联协议（如NVLink）
大规模扩展优化：万卡集群扩展效率优于InfiniBand（成本更低）
稀疏化加速：MoE模型原生支持
多精度支持：FP8/FP16/FP32/INT8/INT4
开放生态：支持PyTorch、TensorFlow、JAX（通过第三方适配）

Jaguar Shores：Intel的下一代GPU

Jaguar Shores是Intel首款真正意义上的数据中心GPU（不是Gaudi那样的ASIC）。

为什么叫"Jaguar Shores"？

Jaguar：美洲豹，代表"速度"和"敏捷"
Shores：海岸，代表"开放"和"连接"（对标NVIDIA的"海岸"命名风格？）

Jaguar Shores 推测规格

参数	Jaguar Shores（推测）	NVIDIA Rubin	AMD MI455X
架构	Xeu 3（推测）	Rubin	CDNA 4
制程	TSMC 3nm（推测）	TSMC 3nm	TSMC 3nm
显存	HBM4（确认）	HBM4	HBM4
显存容量	288GB（推测）	288GB	288GB
FP8算力	~4,000 TFLOPS（推测）	~6,000 TFLOPS	6,000 TFLOPS
TDP	~800W（推测）	~1,000W	~800W
发布时间	2027年（预计）	2026年Q3	2026年Q3

关键确认：

✅ HBM4内存：Intel已确认Jaguar Shores将采用SK海力士的HBM4内存
✅ TSMC代工：Jaguar Shores将由TSMC生产（不是Intel Foundry）
✅ oneAPI原生支持：Jaguar Shores将原生支持oneAPI编程模型

Crescent Island：Intel的首款通用GPU

Crescent Island是Intel在2025年10月公布的首款通用数据中心GPU，采用Xe3架构（Xe-HPG的升级版）。

参数	Crescent Island（推测）	Intel Data Center GPU Max	NVIDIA L40S
架构	Xeu 3	Xeu 2（Ponte Vecchio）	Ada Lovelace
定位	通用计算+AI推理	HPC+AI训练	AI推理+图形
制程	TSMC 5nm（推测）	Intel 7 + TSMC 5nm	TSMC 4N
显存	48GB HBM3（推测）	128GB HBM2e	48GB GDDR6
TDP	~300W（推测）	600W	350W
发布时间	2026年（预计）	2023年1月	2023年3月

定位：

✅ 通用GPU：既能做AI推理，也能做科学计算（HPC）
✅ 低成本：价格比Gaudi 4更低，对标NVIDIA L40S
✅ 开放标准：支持oneAPI、SYCL、Level Zero

Intel AI芯片路线图（2024-2027）

时间	产品	类型	制程	备注
2024年Q4	Gaudi 3	AI ASIC	TSMC 7nm	当前主力
2026年Q2	Crescent Island	通用GPU	TSMC 5nm	新发布
2026年Q3	Gaudi 4	AI ASIC	TSMC 5nm	新发布
2027年	Jaguar Shores	数据中心GPU	TSMC 3nm	下一代旗舰
2027年	Gaudi 5（推测）	AI ASIC	TSMC 3nm	下一代

与竞品对比

Gaudi 4 vs NVIDIA B200

指标	Gaudi 4	NVIDIA B200
FP8算力	~2,000 TFLOPS	4,500 TFLOPS
显存	64GB HBM3e	192GB HBM3e
互联	以太网（RoCE v3）	NVLink 5.0
软件生态	Gaudi Software Suite	CUDA
价格	推测 ~$20,000	~$45,000
优势	以太网成本低、开放	生态最成熟、性能最强
劣势	软件生态弱、算力低	价格昂贵

结论：Gaudi 4的定位是**"性价比训练方案"**，适合对成本敏感、且愿意投入软件适配的客户。

Jaguar Shores vs NVIDIA Rubin

指标	Jaguar Shores（推测）	NVIDIA Rubin
FP8算力	~4,000 TFLOPS	~6,000 TFLOPS
显存	288GB HBM4	288GB HBM4
软件生态	oneAPI	CUDA
量产时间	2027年	2026年Q3
优势	开放标准、可能更便宜	生态成熟、先发优势
劣势	生态弱、晚1年	价格昂贵

结论：Jaguar Shores如果能按时发布，且oneAPI生态有足够改善，可以成为NVIDIA的第三选择（仅次于NVIDIA和AMD）。

软件生态：oneAPI的进步与挑战

oneAPI是什么？

oneAPI是Intel推出的开放、跨架构编程模型：

支持CPU、GPU、FPGA、AI加速器
基于SYCL标准（类似CUDA的C++扩展）
开源实现（Intel oneAPI Base Toolkit）

Intel AI Stack

组件	用途	对标
oneAPI	跨架构编程模型	CUDA
BigDL	分布式深度学习框架	PyTorch Distributed
Gaudi Software Suite	Gaudi专用软件栈	NVIDIA GPU Cloud (NGC)
Intel Extension for PyTorch	PyTorch在Intel硬件上的优化	NVIDIA PyTorch
Intel Optimization for TensorFlow	TensorFlow在Intel硬件上的优化	NVIDIA TensorFlow

✅ 进步

PyTorch 2.5+：Intel Extension已集成到PyTorch主线
Hugging Face Transformers：官方支持Intel GPU（通过optimum-intel）
vLLM：实验性支持Gaudi（性能待验证）

⚠️ 挑战

开发者习惯：全球AI开发者都用CUDA，oneAPI学习曲线陡峭
算子覆盖率：很多PyTorch算子还没有oneAPI优化版本
性能：same功耗下，Gaudi 4性能只有B200的50%左右

行业影响

1. Intel能否重返AI竞赛？

挑战：

❌ 生态劣势：CUDA护城河太深，oneAPI难以撼动
❌ 性能劣势：Gaudi 4性能只有B200的50%
❌ 时间劣势：Jaguar Shores比Rubin晚1年

机会：

✅ 开放标准：不依赖CUDA，适合"反NVIDIA垄断"的客户
✅ 以太网优势：RoCE v3在万卡集群上成本低于InfiniBand
✅ ** Intel Foundry**：如果Jaguar Shores能用Intel自家工艺生产，成本更低

2. 对AMD的影响

Intel重返AI竞赛，对AMD是坏事：

AMD本来是"NVIDIA唯一替代品"
现在Intel也回来了，AMD的"替代品"地位受到挑战
但短期内（2026-2027），Intel还无法威胁AMD

3. 对国产芯片的影响

Intel Gaudi 4的发布，对国产芯片是参考案例：

证明以太网路线（RoCE）可行
证明开放生态（oneAPI）虽难但有必要
证明性价比路线有市场（成本敏感客户）

参考资料

本文基于Intel官方公告及公开资料整理，部分规格为推测值，以Intel官方最终发布为准。

1. "四小龙"资本市场集结​

2. 摩尔线程 MTT S5000：对标 H100​

3. 寒武纪：思元590/690 双旗舰​

4. DeepSeek-V4 效应：改变预期坐标系​

产业解读​

相关链接​

参考资料​

1. 华为Atlas 950 SuperPoD：本届"镇馆之宝"​

核心参数​

SuperCluster：全球最强 50 万卡集群​

2. 国产芯片 Day-0 适配腾讯混元 T3​

3. 更多国产算力首发看点​

产业解读：从"能不能做出来"到"能不能用得好"​

相关链接​

参考资料​

1. 产能节奏：6月环比近10倍跳升​

2. 订单结构：头部云厂 + 运营商 + 海外​

3. 出货预测：稳居国产第一​

4. 出海：Q4 正式入韩​

昇腾路线图回顾​

产业解读​

相关链接​

参考资料​

1. 全球首台 VR200 NVL72 交付（里程碑）​

VR200 NVL72 核心配置​

2. 三星 HBM4 量产：关键瓶颈松动​

3. Rubin Ultra 天价：HBM 成本主导​

产业解读​

相关链接​

参考资料​

一、算力再翻番：NVIDIA Blackwell Ultra 发布（6月1日）​

关键规格​

产业意义​

挑战​

二、国产AI芯片：从"可用"到"好用"的临界点​

2.1 能力象限排名​

2.2 华为昇腾：国产算力的定海神针​

市场地位​

全栈优势​

最新进展​

2.3 寒武纪：率先盈利的国产AI芯片标杆​

业绩爆发​

核心产品：思元590​

潜在风险​

2.4 清微智能：可重构芯片的"第三路线"​

技术路线​

落地进展​

三、推理芯片赛道：产业重心转移的核心信号​

3.1 为什么是现在？​

成本结构改变​

模型精简技术成熟​

3.2 NVIDIA的百亿押注：收购Groq（2025年12月）​

3.3 Taalas HC1：硬式编码推理的概念验证​

关键指标​

技术原理​

局限性​

3.4 Cerebras：晶圆级整合的上市之路​

核心技术：Wafer-Scale Integration（WSI）​

上市意义​

3.5 推理芯片格局：多元技术路线并存​

四、2026年H1国产AI芯片整体格局​

4.1 行业进入放量期​

4.2 三大核心发展趋势​

趋势一：资本化浪潮重塑格局​

趋势二：产能成为最大制约变量​

趋势三：竞争从"可用"转向"好用"​

五、2026年H2展望​

5.1 即将到来的关键事件​

5.2 未来三年关键竞争要素​

六、结语：多元生态终将形成​

1. 华为昇腾910C完成1.6万亿参数DeepSeek V4 Pro训练（2026-06-05）​

事件概述​

技术意义​

产业影响​

相关链接​

2. OpenAI发布首款自研AI推理芯片Jalapeño（2026-06-24）​

事件概述​

关键技术指标​

战略意义​

相关链接​

1. "四小龙"资本市场集结

2. 摩尔线程 MTT S5000：对标 H100

3. 寒武纪：思元590/690 双旗舰

4. DeepSeek-V4 效应：改变预期坐标系

产业解读

相关链接

参考资料

1. 华为Atlas 950 SuperPoD：本届"镇馆之宝"

核心参数

SuperCluster：全球最强 50 万卡集群

2. 国产芯片 Day-0 适配腾讯混元 T3

3. 更多国产算力首发看点

产业解读：从"能不能做出来"到"能不能用得好"

相关链接

参考资料

1. 产能节奏：6月环比近10倍跳升

2. 订单结构：头部云厂 + 运营商 + 海外

3. 出货预测：稳居国产第一

4. 出海：Q4 正式入韩

昇腾路线图回顾

产业解读

相关链接

参考资料

1. 全球首台 VR200 NVL72 交付（里程碑）

VR200 NVL72 核心配置

2. 三星 HBM4 量产：关键瓶颈松动

3. Rubin Ultra 天价：HBM 成本主导

产业解读

相关链接

参考资料

一、算力再翻番：NVIDIA Blackwell Ultra 发布（6月1日）

关键规格

产业意义

挑战

二、国产AI芯片：从"可用"到"好用"的临界点

2.1 能力象限排名

2.2 华为昇腾：国产算力的定海神针

市场地位

全栈优势

最新进展

2.3 寒武纪：率先盈利的国产AI芯片标杆

业绩爆发

核心产品：思元590

潜在风险

2.4 清微智能：可重构芯片的"第三路线"

技术路线

落地进展

三、推理芯片赛道：产业重心转移的核心信号

3.1 为什么是现在？

成本结构改变

模型精简技术成熟

3.2 NVIDIA的百亿押注：收购Groq（2025年12月）

3.3 Taalas HC1：硬式编码推理的概念验证

关键指标

技术原理

局限性

3.4 Cerebras：晶圆级整合的上市之路

核心技术：Wafer-Scale Integration（WSI）

上市意义

3.5 推理芯片格局：多元技术路线并存

四、2026年H1国产AI芯片整体格局

4.1 行业进入放量期

4.2 三大核心发展趋势

趋势一：资本化浪潮重塑格局

趋势二：产能成为最大制约变量

趋势三：竞争从"可用"转向"好用"

五、2026年H2展望

5.1 即将到来的关键事件

5.2 未来三年关键竞争要素

六、结语：多元生态终将形成

1. 华为昇腾910C完成1.6万亿参数DeepSeek V4 Pro训练（2026-06-05）

事件概述

技术意义

产业影响

相关链接

2. OpenAI发布首款自研AI推理芯片Jalapeño（2026-06-24）

事件概述

关键技术指标

战略意义

相关链接