2 篇博文含有标签「Google」

Google AI chips and cloud

查看所有标签

2026 H2 AI 芯片路线图重大更新：Qualcomm 入局、AMD MI400 三款型号揭晓、华为三代路线图

2026年6月20日 · 阅读需 7 分钟

Charles Qing

AI Hardware Analyst

2026 年 6 月更新——AI 算力卡市场正在经历近年来最剧烈的格局变化。本文将为您梳理最新路线图动态。

核心要点

Qualcomm AI 200/250 正式进入数据中心 AI 推理市场，对标 NVIDIA H200
AMD MI400 系列 揭晓三款型号：MI430X（HPC）、MI440X（企业）、MI455X（旗舰）
华为公布三代路线图：950（2026）→ 960（2027-Q4）→ 970（2028-Q4）
Intel Jaguar Shores 时间线存疑，可能延迟至 2027 或之后
NVIDIA Rubin R200 已全面量产，Vera CPU + Rubin GPU 组合正式交付

1. Qualcomm：移动芯片巨头进军数据中心 AI

AI 100 → AI 200 → AI 250

Qualcomm 在 2025 年 10 月正式发布了 AI 200 数据中心推理芯片，标志着移动芯片巨头正式进入数据中心 AI 市场。

型号	发布时间	上市时间	关键特性
AI 100	2025-10	2026 H2	机架级 AI 推理，768GB LPDDR/卡
AI 250	2025-10	2027 H1	近存计算架构，10x 有效内存带宽

为什么 Qualcomm 能成功？

低 TCO：LPDDR 内存比 HBM 便宜得多
能效优势：移动芯片设计经验，功耗控制出色
推理专用：不追求训练性能，专注推理场景
机架规格：直接液冷，160kW 机架级功耗，Ethernet 互联

市场影响

对标 NVIDIA H200：AI 200 推理性能接近 H200，但 TCO 低 30-40%
倒逼 NVIDIA：可能促使 NVIDIA 推出推理专用芯片（如 Rubin CPX）
多样化选择：打破 NVIDIA 在推理市场的垄断

2. AMD MI400 系列：三款型号精准定位

在 CES 2026（2026 年 1 月）上，AMD 正式揭晓了 MI400 系列 的三款型号，精准覆盖不同市场：

MI430X（HPC + 主权 AI）

特性	规格
定位	HPC + 主权 AI
FP32/FP64	支持（这是关键区别）
适用场景	科学计算、气候模拟、国家 AI 基础设施
竞争对手	NVIDIA 不做 FP64 的 AI 卡

MI440X（企业服务器）

特性	规格
定位	企业 8-GPU 服务器
兼容性	兼容现有数据中心基础设施
适用场景	企业 AI、私有云、边缘推理
竞争优势	比 MI455X 更便宜，更易部署

MI455X（旗舰 AI 训练）

特性	规格
定位	旗舰 AI 训练 + 推理
优化精度	FP4/FP8/BF16
Helios 机架	核心组件
竞争对手	NVIDIA Rubin R200

Helios 机架级解决方案

AMD 在 CES 2026 同时发布了 Helios 机架级 AI 解决方案：

18 颗 Zen 6 CPU（2nm 制程）
72 颗 MI455X GPU
直接液冷
预计 2026 H2 出货

3. 华为三代路线图：950 → 960 → 970

华为在全联接大会 2025（2025 年 9 月）公布了三代芯片路线图，时间线非常清晰：

昇腾 950 系列（2026）

型号	发布时间	关键特性
950PR	2026-Q1	PR（推理优化），已量产
950DT	2026-Q4	DT（Decode + 训练），预计全面放量

技术亮点：

新增支持 FP8/MXFP8/MXFP4
互联带宽 2TB/s（相比 910C 提升 2.5 倍）

昇腾 960（2027-Q4）

算力翻倍：相比 950 系列，各项规格翻倍
FP8：预计 ~2 PFLOPS
工艺：N+3（等效 5nm）
定位：对标 NVIDIA B200

昇腾 970（2028-Q4）

三代旗舰：目前仅公布时间线，规格待定
意义：华为首个覆盖完整代际的路线图
信号：中国国产 AI 芯片已进入"规划驱动"阶段

4. Intel Jaguar Shores：时间线存疑

原定计划

发布时间：2026 年
架构：Xe-HPC + Gaudi 融合
制程：18A（Intel 最先进制程）
内存：可能采用 HBM4E（而非原计划的 HBM4）

对路线图的影响

如果 Jaguar Shores 延迟至 2027 年，Intel 在 AI 芯片市场将基本出局。

5. NVIDIA Rubin 平台：已全面量产

Rubin R200（2026-Q2 全面量产）

特性	规格
HBM	288GB HBM4
算力	50 PFLOPS FP4
NVLink	NVLink 6（1800 GB/s）
制程	TSMC 4NP

Rubin NVL72 机柜（2026 H2 出货）

72 颗 Rubin GPU
36 颗 Vera CPU
1.8 EFLOPS FP4
直接液冷

Vera CPU（首次亮相）

架构：自研 CPU，替代 Grace
定位：与 Rubin GPU 深度协同
意义：NVIDIA 从 GPU 公司转型为计算平台公司

6. Google TPU v8：训练/推理正式拆分

TPU 8t（训练） + TPU 8i（推理）

Google 在 Cloud Next 2026 宣布 TPU v8 将正式拆分为训练版和推理版：

特性	TPU 8t（训练）	TPU 8i（推理）
优化方向	高算力、高带宽	低延迟、低成本
互联	光学互联	以太网
发布时间	2027	2027

意义

行业趋势：训练/推理芯片专用化
跟随者：Qualcomm AI 200 也是推理专用
NVIDIA 压力：是否需要推出推理专用芯片？

7. Cerebras WSE-4：晶圆级引擎再进化

核心规格

特性	规格
晶体管	1.4 万亿
算力	125 PFLOPS FP8
发布时间	2026 H2
制程	TSMC 5nm

竞争优势

超大模型训练：单颗 WSE-4 可训练 10T+ 参数模型
低延迟推理：整个模型在单颗芯片上，无通信开销
软件栈成熟：Cerebras 软件栈已支持 PyTorch、TensorFlow

8. 市场格局分析

训练市场

排名	厂商	产品	市场份额（预估）
1	NVIDIA	Rubin R200	70%
2	AMD	MI455X	15%
3	Google	TPU v8t	10%
4	华为	昇腾 960	5%（中国为主）

推理市场（新战场）

排名	厂商	产品	优势
1	NVIDIA	H200 / Rubin CPX	生态成熟
2	Qualcomm	AI 200	低 TCO
3	AMD	MI440X	兼容性好
4	Intel	Gaudi 4	价格低廉

9. 关键趋势

趋势 1：推理专用芯片崛起

Qualcomm AI 200：移动芯片巨头入局
NVIDIA Rubin CPX：NVIDIA 首次推出推理专用芯片
Google TPU 8i：训练/推理正式拆分

趋势 2：机架级解决方案成为标配

NVIDIA NVL72：72 GPU + 36 CPU
AMD Helios：18 CPU + 72 GPU
Qualcomm 机架：160kW 液冷机架

趋势 3：中国国产芯片进入"规划驱动"阶段

华为三代路线图：950 → 960 → 970
时间线清晰：2026-Q1 → 2027-Q4 → 2028-Q4
意义：从"追赶"到"规划"

趋势 4：HBM 产能成为瓶颈

SK 海力士：HBM4 产能已被 NVIDIA 预订
三星：HBM4E 样品已交付 AMD
影响：MI400、Rubin R200 出货量受 HBM 产能限制

10. 采购建议

如果您在 2026 H2 采购

训练场景：
- 首选：NVIDIA Rubin R200（性能最强）
- 备选：AMD MI455X（性价比更高）
- 国产：华为昇腾 950DT（中国客户）
推理场景：
- 首选：NVIDIA H200（生态成熟）
- 性价比：Qualcomm AI 200（如果可用）
- 成本敏感：AMD MI440X
HPC 场景：
- 唯一选择：AMD MI430X（支持 FP64）

如果您在 2027 采购

等待 Rubin Ultra：性能可能是 R200 的 2x
关注 MI500：AMD 下一代产品
评估 TPU v8：如果已在用 Google Cloud

结论

2026 H2 将是 AI 芯片市场有史以来最卷的半年：

NVIDIA 继续领跑，但优势缩小
AMD 三款型号精准定位，市场份额将持续提升
Qualcomm 入局推理市场，低 TCO 策略可能颠覆市场
华为三代路线图清晰，国产替代加速
Intel Jaguar Shores 成败在此一举

对于采购决策者，现在是最难做决定的时刻——因为每个选项都有明显的优缺点。

对于技术从业者，这是最好的时代——芯片性能每年翻倍，架构创新层出不穷。

参考资料

AI 算力卡未来路线图 - MirrorFrog 实时更新
NVIDIA Rubin R200 深度解析（见本站相关文章）
AMD MI400 系列 CES 2026 发布（见本站相关文章）
Qualcomm AI 100 发布分析（即将发布）

最后更新：2026-06-20
作者：Charles Qing
标签：#路线图 #市场分析 #采购决策

谷歌TPU 8i/8t 正式发布：训练与推理首次分家，2nm工艺赋能智能体时代

2026年6月16日 · 阅读需 7 分钟

AI Compute Cards Wiki Editorial

Industry Research Team

2026年4月22日，在拉斯维加斯举行的Google Cloud Next '26大会上，谷歌正式发布了第八代张量处理器（TPU）。这是谷歌史上首次将AI训练与推理任务拆分至两款独立芯片：

TPU 8t：专为模型训练设计
TPU 8i：专注高并发推理任务

此次发布未引入新的物理概念，而是聚焦于解决AI数据中心的核心痛点：万卡集群扩展效率、智能体AI工作负载优化、每瓦性能提升。

TPU 8i（推理专用）：消除"等待室效应"

TPU 8i是谷歌和**联发科（MediaTek）**首次合作设计的推理专用芯片，旨在消除"等待室效应"——即用户请求被有意排队或延迟以实现硬件利用率最大化的情况。

TPU 8i 核心规格（推测）

参数	TPU 8i	TPU v7 Ironwood
定位	推理专用	推理为主
制程	TSMC 2nm	—
Die设计	双计算Die（推测）	—
显存	8× HBM3e 12层（推测 ~192GB）	8× HBM3（192GB）
显存带宽	~7 TB/s（推测）	7,380 GB/s
FP8 算力	~4,614 TFLOPS（推测）	4,614 TFLOPS
TDP（每芯片）	1,300 W	1,000 W
互联	ICI 3D Torus	ICI 3D Torus
集成CPU	Arm Axion（64核）	无
散热	风冷/液冷均可	第4代液冷
公布时间	2026-04-22	2025-08-25
量产时间	2027年底	2026年

关键特性：

✅ 高并发推理优化：专为Agentic AI设计，支持数千个步骤的推理链条
✅ Arm Axion CPU集成：64核Neoverse V2，Host CPU + 数据预处理协同
✅ 低延迟：消除"等待室效应"，首Token延迟（TTFT）极低
✅ 每瓦性能提升117%：相比Ironwood（同等价格）

TPU 8t（训练专用）：Gemini 3/4的"发动机"

TPU 8t专为Google Gemini 3 / Gemini 4等frontier模型训练设计，是谷歌与**博通（Broadcom）**长期合作的延续。

TPU 8t 核心规格

参数	TPU 8t	TPU v7 Ironwood	提升
定位	训练专用	推理为主	形态拆分
制程	TSMC 2nm	—	新一代
Die设计	双计算Die	—	架构升级
显存	8× HBM3e 12层（单芯片推测 ~256GB）	8× HBM3（192GB）	升级
显存带宽	~7 TB/s（推测每芯片）	7,380 GB/s	持平
Pod芯片数	9,600芯片	9,216	+4%
Pod HBM总量	2 PB	—	远超
Pod FP4算力	121 EFLOPS	~42 EFLOPS（推测）	~3×
集成CPU	Arm Axion（64核）	无	新增
TDP（每芯片）	1,300 W	1,000 W	+30%
量产时间	2027年底	2026年	—

关键特性：

✅ MoE训练原生支持：Expert Parallel优化（DeepSeek / Mixtral风格）
✅ Long-context训练：1M+ token上下文训练优化
✅ RLHF/后训练：Online RL（DPO/PPO/GRPO）原生优化
✅ Arm Axion CPU协同：数据预处理/权重初始化Offload到CPU
✅ SparseCore加速：MoE路由和推荐系统

第八代TPU的战略意义

1. 训练与推理首次分家

此前，谷歌的TPU设计理念是"一个架构兼顾训练和推理"（如TPU v5p、v6e）。但智能体AI时代的到来改变了这一点：

训练工作负载：大规模矩阵乘法、长时序反向传播、稀疏化MoE
推理工作负载：高并发、低延迟、KV Cache密集型、动态批处理

这两种工作负载对芯片架构的要求截然不同。拆分后：

TPU 8t可以专注优化计算密度和显存容量
TPU 8i可以专注优化推理吞吐和每瓦性能

2. 与博通、联发科的双线合作

博通（Broadcom）：继续合作设计TPU 8t（训练），延续自TPU v1以来的长期伙伴关系
联发科（MediaTek）：首次合作设计TPU 8i（推理），引入移动芯片低功耗设计经验

这种"双线合作"策略使谷歌能够：

在训练芯片上追求极致性能（与博通的高端ASIC经验结合）
在推理芯片上追求极致能效（与联发科的移动芯片经验结合）

3. 对标NVIDIA Vera Rubin

对比	Google TPU 8t + 8i	NVIDIA Vera Rubin
策略	训练/推理拆分	统一架构（GPU+CPU）
制程	TSMC 2nm	TSMC 3nm（推测）
生态	仅Google Cloud	全球可用
软件	JAX / PyTorch/XLA	CUDA / PyTorch
量产	2027年底	2026年秋季
优势	与Gemini深度集成	生态最成熟

技术深度解析

TSMC 2nm：为何选择2nm？

谷歌是首家在AI加速器上采用TSMC 2nm制程的厂商（NVIDIA Rubin用的是3nm）。2nm（N2）工艺相比3nm（N3E）：

晶体管密度提升：~15-20%
功耗降低：~25-30%（同等性能）
性能提升：~10-15%（同等功耗）

对于功耗已达1,300W的TPU 8t/8i来说，2nm是必须的——否则4nm/3nm无法在合理功耗内集成双计算Die和8×HBM3e。

Arm Axion CPU：Google自研CPU首次进入TPU节点

此前，TPU节点使用Intel Xeon或AMD EPYC作为Host CPU。TPU 8t/8i首次集成Google自研的Arm Axion CPU（64核Neoverse V2）：

意义：

数据预处理Offload：Tokenization、数据增强等可以完全在Axion上完成，不占用TPU算力
权重初始化：大模型训练的权重初始化可以在CPU上完成，加速训练启动
推理调度：多模型推理时，Axion负责请求调度和负载均衡

这标志着TPU节点向"超节点"演进：不再是纯加速器，而是TPU + Axion CPU协同系统，对标NVIDIA Vera CPU。

第4代液冷：1,300W的散热挑战

TPU 8t/8i的TDP达到1,300W（相比Ironwood的1,000W提升30%），这给数据中心散热带来巨大挑战。

谷歌采用第4代液冷方案：

冷板液冷：直接冷却GPU Die和HBM
浸没式液冷：可选方案（超高密度部署）
智能温控：根据工作负载动态调整泵速和风扇转速

量产时间表与应用场景

时间	事件
2026-04-22	Cloud Next '26正式公布
2026年下半年	内部测试（Google DeepMind优先使用）
2027年底	**正式量产，Google Cloud开放
2028年	下一代TPU（可能为TPU 9）

目标应用场景：

✅ Frontier模型训练（Gemini 3/4、外部客户）
✅ MoE大模型推理（高并发、低延迟）
✅ 多模态AI（ViT + LLM同步推理）
✅ 智能体AI（Agentic AI工作负载）

与竞品对比

厂商	产品	制程	TDP	量产时间
Google	TPU 8i（推理）	TSMC 2nm	1,300W	2027年底
Google	TPU 8t（训练）	TSMC 2nm	1,300W	2027年底
NVIDIA	Rubin GPU	TSMC 3nm（推测）	~1,000W	2026年秋季
NVIDIA	Vera CPU	TSMC 3nm（推测）	~500W	2026年秋季
AMD	MI455X（MI400）	TSMC 3nm（推测）	~700W	2026年
华为	昇腾950PR	—	~500W	2026年Q1

行业影响

AI芯片进入2nm时代：谷歌率先采用TSMC 2nm，NVIDIA、AMD必然跟进
训练/推理拆分成为新趋势：其他厂商（如NVIDIA、AMD）可能会效仿
自研CPU成为标配：Google（Axion）、NVIDIA（Vera）、华为（鲲鹏）都在做CPU+加速器的协同设计
液冷成为必然选择：1,300W的TDP意味着风冷已经无法满足

参考资料

本文基于Google官方公告及公开资料整理，部分规格为推测值，以官方最终发布为准。

核心要点​

1. Qualcomm：移动芯片巨头进军数据中心 AI​

AI 100 → AI 200 → AI 250​

为什么 Qualcomm 能成功？​

市场影响​

2. AMD MI400 系列：三款型号精准定位​

MI430X（HPC + 主权 AI）​

MI440X（企业服务器）​

MI455X（旗舰 AI 训练）​

Helios 机架级解决方案​

3. 华为三代路线图：950 → 960 → 970​

昇腾 950 系列（2026）​

昇腾 960（2027-Q4）​

昇腾 970（2028-Q4）​

4. Intel Jaguar Shores：时间线存疑​

原定计划​

最新动态​

对路线图的影响​

5. NVIDIA Rubin 平台：已全面量产​

Rubin R200（2026-Q2 全面量产）​

Rubin NVL72 机柜（2026 H2 出货）​

Vera CPU（首次亮相）​

6. Google TPU v8：训练/推理正式拆分​

TPU 8t（训练） + TPU 8i（推理）​

意义​

7. Cerebras WSE-4：晶圆级引擎再进化​

核心规格​

竞争优势​

8. 市场格局分析​

训练市场​

推理市场（新战场）​

9. 关键趋势​

趋势 1：推理专用芯片崛起​

趋势 2：机架级解决方案成为标配​

趋势 3：中国国产芯片进入"规划驱动"阶段​

趋势 4：HBM 产能成为瓶颈​

10. 采购建议​

如果您在 2026 H2 采购​

如果您在 2027 采购​

结论​

参考资料​

TPU 8i（推理专用）：消除"等待室效应"​

TPU 8i 核心规格（推测）​

TPU 8t（训练专用）：Gemini 3/4的"发动机"​

TPU 8t 核心规格​

第八代TPU的战略意义​

1. 训练与推理首次分家​

2. 与博通、联发科的双线合作​

3. 对标NVIDIA Vera Rubin​

技术深度解析​

TSMC 2nm：为何选择2nm？​

Arm Axion CPU：Google自研CPU首次进入TPU节点​

第4代液冷：1,300W的散热挑战​

量产时间表与应用场景​

与竞品对比​

行业影响​

相关芯片​

参考资料​

核心要点

1. Qualcomm：移动芯片巨头进军数据中心 AI

AI 100 → AI 200 → AI 250

为什么 Qualcomm 能成功？

市场影响

2. AMD MI400 系列：三款型号精准定位

MI430X（HPC + 主权 AI）

MI440X（企业服务器）

MI455X（旗舰 AI 训练）

Helios 机架级解决方案

3. 华为三代路线图：950 → 960 → 970

昇腾 950 系列（2026）

昇腾 960（2027-Q4）

昇腾 970（2028-Q4）

4. Intel Jaguar Shores：时间线存疑

原定计划

最新动态

对路线图的影响

5. NVIDIA Rubin 平台：已全面量产

Rubin R200（2026-Q2 全面量产）

Rubin NVL72 机柜（2026 H2 出货）

Vera CPU（首次亮相）

6. Google TPU v8：训练/推理正式拆分

TPU 8t（训练） + TPU 8i（推理）

意义

7. Cerebras WSE-4：晶圆级引擎再进化

核心规格

竞争优势

8. 市场格局分析

训练市场

推理市场（新战场）

9. 关键趋势

趋势 1：推理专用芯片崛起

趋势 2：机架级解决方案成为标配

趋势 3：中国国产芯片进入"规划驱动"阶段

趋势 4：HBM 产能成为瓶颈

10. 采购建议

如果您在 2026 H2 采购

如果您在 2027 采购

结论

参考资料

TPU 8i（推理专用）：消除"等待室效应"

TPU 8i 核心规格（推测）

TPU 8t（训练专用）：Gemini 3/4的"发动机"

TPU 8t 核心规格

第八代TPU的战略意义

1. 训练与推理首次分家

2. 与博通、联发科的双线合作

3. 对标NVIDIA Vera Rubin

技术深度解析

TSMC 2nm：为何选择2nm？

Arm Axion CPU：Google自研CPU首次进入TPU节点

第4代液冷：1,300W的散热挑战

量产时间表与应用场景

与竞品对比

行业影响

相关芯片

参考资料