谷歌TPU 8i/8t 正式发布：训练与推理首次分家，2nm工艺赋能智能体时代

June 16, 2026 · 7 min read

AI Compute Cards Wiki Editorial

Industry Research Team

2026年4月22日，在拉斯维加斯举行的Google Cloud Next '26大会上，谷歌正式发布了第八代张量处理器（TPU）。这是谷歌史上首次将AI训练与推理任务拆分至两款独立芯片：

TPU 8t：专为模型训练设计
TPU 8i：专注高并发推理任务

此次发布未引入新的物理概念，而是聚焦于解决AI数据中心的核心痛点：万卡集群扩展效率、智能体AI工作负载优化、每瓦性能提升。

TPU 8i（推理专用）：消除"等待室效应"

TPU 8i是谷歌和**联发科（MediaTek）**首次合作设计的推理专用芯片，旨在消除"等待室效应"——即用户请求被有意排队或延迟以实现硬件利用率最大化的情况。

TPU 8i 核心规格（推测）

参数	TPU 8i	TPU v7 Ironwood
定位	推理专用	推理为主
制程	TSMC 2nm	—
Die设计	双计算Die（推测）	—
显存	8× HBM3e 12层（推测 ~192GB）	8× HBM3（192GB）
显存带宽	~7 TB/s（推测）	7,380 GB/s
FP8 算力	~4,614 TFLOPS（推测）	4,614 TFLOPS
TDP（每芯片）	1,300 W	1,000 W
互联	ICI 3D Torus	ICI 3D Torus
集成CPU	Arm Axion（64核）	无
散热	风冷/液冷均可	第4代液冷
公布时间	2026-04-22	2025-08-25
量产时间	2027年底	2026年

关键特性：

✅ 高并发推理优化：专为Agentic AI设计，支持数千个步骤的推理链条
✅ Arm Axion CPU集成：64核Neoverse V2，Host CPU + 数据预处理协同
✅ 低延迟：消除"等待室效应"，首Token延迟（TTFT）极低
✅ 每瓦性能提升117%：相比Ironwood（同等价格）

TPU 8t（训练专用）：Gemini 3/4的"发动机"

TPU 8t专为Google Gemini 3 / Gemini 4等frontier模型训练设计，是谷歌与**博通（Broadcom）**长期合作的延续。

TPU 8t 核心规格

参数	TPU 8t	TPU v7 Ironwood	提升
定位	训练专用	推理为主	形态拆分
制程	TSMC 2nm	—	新一代
Die设计	双计算Die	—	架构升级
显存	8× HBM3e 12层（单芯片推测 ~256GB）	8× HBM3（192GB）	升级
显存带宽	~7 TB/s（推测每芯片）	7,380 GB/s	持平
Pod芯片数	9,600芯片	9,216	+4%
Pod HBM总量	2 PB	—	远超
Pod FP4算力	121 EFLOPS	~42 EFLOPS（推测）	~3×
集成CPU	Arm Axion（64核）	无	新增
TDP（每芯片）	1,300 W	1,000 W	+30%
量产时间	2027年底	2026年	—

关键特性：

✅ MoE训练原生支持：Expert Parallel优化（DeepSeek / Mixtral风格）
✅ Long-context训练：1M+ token上下文训练优化
✅ RLHF/后训练：Online RL（DPO/PPO/GRPO）原生优化
✅ Arm Axion CPU协同：数据预处理/权重初始化Offload到CPU
✅ SparseCore加速：MoE路由和推荐系统

第八代TPU的战略意义

1. 训练与推理首次分家

此前，谷歌的TPU设计理念是"一个架构兼顾训练和推理"（如TPU v5p、v6e）。但智能体AI时代的到来改变了这一点：

训练工作负载：大规模矩阵乘法、长时序反向传播、稀疏化MoE
推理工作负载：高并发、低延迟、KV Cache密集型、动态批处理

这两种工作负载对芯片架构的要求截然不同。拆分后：

TPU 8t可以专注优化计算密度和显存容量
TPU 8i可以专注优化推理吞吐和每瓦性能

2. 与博通、联发科的双线合作

博通（Broadcom）：继续合作设计TPU 8t（训练），延续自TPU v1以来的长期伙伴关系
联发科（MediaTek）：首次合作设计TPU 8i（推理），引入移动芯片低功耗设计经验

这种"双线合作"策略使谷歌能够：

在训练芯片上追求极致性能（与博通的高端ASIC经验结合）
在推理芯片上追求极致能效（与联发科的移动芯片经验结合）

3. 对标NVIDIA Vera Rubin

对比	Google TPU 8t + 8i	NVIDIA Vera Rubin
策略	训练/推理拆分	统一架构（GPU+CPU）
制程	TSMC 2nm	TSMC 3nm（推测）
生态	仅Google Cloud	全球可用
软件	JAX / PyTorch/XLA	CUDA / PyTorch
量产	2027年底	2026年秋季
优势	与Gemini深度集成	生态最成熟

技术深度解析

TSMC 2nm：为何选择2nm？

谷歌是首家在AI加速器上采用TSMC 2nm制程的厂商（NVIDIA Rubin用的是3nm）。2nm（N2）工艺相比3nm（N3E）：

晶体管密度提升：~15-20%
功耗降低：~25-30%（同等性能）
性能提升：~10-15%（同等功耗）

对于功耗已达1,300W的TPU 8t/8i来说，2nm是必须的——否则4nm/3nm无法在合理功耗内集成双计算Die和8×HBM3e。

Arm Axion CPU：Google自研CPU首次进入TPU节点

此前，TPU节点使用Intel Xeon或AMD EPYC作为Host CPU。TPU 8t/8i首次集成Google自研的Arm Axion CPU（64核Neoverse V2）：

意义：

数据预处理Offload：Tokenization、数据增强等可以完全在Axion上完成，不占用TPU算力
权重初始化：大模型训练的权重初始化可以在CPU上完成，加速训练启动
推理调度：多模型推理时，Axion负责请求调度和负载均衡

这标志着TPU节点向"超节点"演进：不再是纯加速器，而是TPU + Axion CPU协同系统，对标NVIDIA Vera CPU。

第4代液冷：1,300W的散热挑战

TPU 8t/8i的TDP达到1,300W（相比Ironwood的1,000W提升30%），这给数据中心散热带来巨大挑战。

谷歌采用第4代液冷方案：

冷板液冷：直接冷却GPU Die和HBM
浸没式液冷：可选方案（超高密度部署）
智能温控：根据工作负载动态调整泵速和风扇转速

量产时间表与应用场景

时间	事件
2026-04-22	Cloud Next '26正式公布
2026年下半年	内部测试（Google DeepMind优先使用）
2027年底	**正式量产，Google Cloud开放
2028年	下一代TPU（可能为TPU 9）

目标应用场景：

✅ Frontier模型训练（Gemini 3/4、外部客户）
✅ MoE大模型推理（高并发、低延迟）
✅ 多模态AI（ViT + LLM同步推理）
✅ 智能体AI（Agentic AI工作负载）

与竞品对比

厂商	产品	制程	TDP	量产时间
Google	TPU 8i（推理）	TSMC 2nm	1,300W	2027年底
Google	TPU 8t（训练）	TSMC 2nm	1,300W	2027年底
NVIDIA	Rubin GPU	TSMC 3nm（推测）	~1,000W	2026年秋季
NVIDIA	Vera CPU	TSMC 3nm（推测）	~500W	2026年秋季
AMD	MI455X（MI400）	TSMC 3nm（推测）	~700W	2026年
华为	昇腾950PR	—	~500W	2026年Q1

行业影响

AI芯片进入2nm时代：谷歌率先采用TSMC 2nm，NVIDIA、AMD必然跟进
训练/推理拆分成为新趋势：其他厂商（如NVIDIA、AMD）可能会效仿
自研CPU成为标配：Google（Axion）、NVIDIA（Vera）、华为（鲲鹏）都在做CPU+加速器的协同设计
液冷成为必然选择：1,300W的TDP意味着风冷已经无法满足

参考资料

本文基于Google官方公告及公开资料整理，部分规格为推测值，以官方最终发布为准。

One post tagged with "2nm"

谷歌TPU 8i/8t 正式发布：训练与推理首次分家，2nm工艺赋能智能体时代

TPU 8i（推理专用）：消除"等待室效应"

TPU 8i 核心规格（推测）

TPU 8t（训练专用）：Gemini 3/4的"发动机"

TPU 8t 核心规格

第八代TPU的战略意义

1. 训练与推理首次分家

2. 与博通、联发科的双线合作

3. 对标NVIDIA Vera Rubin

技术深度解析

TSMC 2nm：为何选择2nm？

Arm Axion CPU：Google自研CPU首次进入TPU节点

第4代液冷：1,300W的散热挑战

量产时间表与应用场景

与竞品对比

行业影响

相关芯片

参考资料

TPU 8i（推理专用）：消除"等待室效应"​

TPU 8i 核心规格（推测）​

TPU 8t（训练专用）：Gemini 3/4的"发动机"​

TPU 8t 核心规格​

第八代TPU的战略意义​

1. 训练与推理首次分家​

2. 与博通、联发科的双线合作​

3. 对标NVIDIA Vera Rubin​

技术深度解析​

TSMC 2nm：为何选择2nm？​

Arm Axion CPU：Google自研CPU首次进入TPU节点​

第4代液冷：1,300W的散热挑战​

量产时间表与应用场景​

与竞品对比​

行业影响​

相关芯片​

参考资料​

TPU 8i（推理专用）：消除"等待室效应"

TPU 8i 核心规格（推测）

TPU 8t（训练专用）：Gemini 3/4的"发动机"

TPU 8t 核心规格

第八代TPU的战略意义

1. 训练与推理首次分家

2. 与博通、联发科的双线合作

3. 对标NVIDIA Vera Rubin

技术深度解析

TSMC 2nm：为何选择2nm？

Arm Axion CPU：Google自研CPU首次进入TPU节点

第4代液冷：1,300W的散热挑战

量产时间表与应用场景

与竞品对比

行业影响

相关芯片

参考资料