跳到主要内容

1 篇博文 含有标签「Google」

Google AI chips and cloud

查看所有标签

谷歌TPU 8i/8t 正式发布:训练与推理首次分家,2nm工艺赋能智能体时代

· 阅读需 7 分钟
AI Compute Cards Wiki Editorial
Industry Research Team

2026年4月22日,在拉斯维加斯举行的Google Cloud Next '26大会上,谷歌正式发布了第八代张量处理器(TPU)。这是谷歌史上首次将AI训练与推理任务拆分至两款独立芯片:

  • TPU 8t:专为模型训练设计
  • TPU 8i:专注高并发推理任务

此次发布未引入新的物理概念,而是聚焦于解决AI数据中心的核心痛点:万卡集群扩展效率智能体AI工作负载优化每瓦性能提升

TPU 8i(推理专用):消除"等待室效应"

TPU 8i是谷歌和**联发科(MediaTek)**首次合作设计的推理专用芯片,旨在消除"等待室效应"——即用户请求被有意排队或延迟以实现硬件利用率最大化的情况。

TPU 8i 核心规格(推测)

参数TPU 8iTPU v7 Ironwood
定位推理专用推理为主
制程TSMC 2nm
Die设计双计算Die(推测)
显存8× HBM3e 12层(推测 ~192GB)8× HBM3(192GB)
显存带宽~7 TB/s(推测)7,380 GB/s
FP8 算力~4,614 TFLOPS(推测)4,614 TFLOPS
TDP(每芯片)1,300 W1,000 W
互联ICI 3D TorusICI 3D Torus
集成CPUArm Axion(64核)
散热风冷/液冷均可第4代液冷
公布时间2026-04-222025-08-25
量产时间2027年底2026年

关键特性

  • 高并发推理优化:专为Agentic AI设计,支持数千个步骤的推理链条
  • Arm Axion CPU集成:64核Neoverse V2,Host CPU + 数据预处理协同
  • 低延迟:消除"等待室效应",首Token延迟(TTFT)极低
  • 每瓦性能提升117%:相比Ironwood(同等价格)

TPU 8t(训练专用):Gemini 3/4的"发动机"

TPU 8t专为Google Gemini 3 / Gemini 4等frontier模型训练设计,是谷歌与**博通(Broadcom)**长期合作的延续。

TPU 8t 核心规格

参数TPU 8tTPU v7 Ironwood提升
定位训练专用推理为主形态拆分
制程TSMC 2nm新一代
Die设计双计算Die架构升级
显存HBM3e 12层(单芯片推测 ~256GB)8× HBM3(192GB)升级
显存带宽~7 TB/s(推测每芯片)7,380 GB/s持平
Pod芯片数9,600芯片9,216+4%
Pod HBM总量2 PB远超
Pod FP4算力121 EFLOPS~42 EFLOPS(推测)~3×
集成CPUArm Axion(64核)新增
TDP(每芯片)1,300 W1,000 W+30%
量产时间2027年底2026年

关键特性

  • MoE训练原生支持:Expert Parallel优化(DeepSeek / Mixtral风格)
  • Long-context训练:1M+ token上下文训练优化
  • RLHF/后训练:Online RL(DPO/PPO/GRPO)原生优化
  • Arm Axion CPU协同:数据预处理/权重初始化Offload到CPU
  • SparseCore加速:MoE路由和推荐系统

第八代TPU的战略意义

1. 训练与推理首次分家

此前,谷歌的TPU设计理念是"一个架构兼顾训练和推理"(如TPU v5p、v6e)。但智能体AI时代的到来改变了这一点:

  • 训练工作负载:大规模矩阵乘法、长时序反向传播、稀疏化MoE
  • 推理工作负载:高并发、低延迟、KV Cache密集型、动态批处理

这两种工作负载对芯片架构的要求截然不同。拆分后:

  • TPU 8t可以专注优化计算密度显存容量
  • TPU 8i可以专注优化推理吞吐每瓦性能

2. 与博通、联发科的双线合作

  • 博通(Broadcom):继续合作设计TPU 8t(训练),延续自TPU v1以来的长期伙伴关系
  • 联发科(MediaTek):首次合作设计TPU 8i(推理),引入移动芯片低功耗设计经验

这种"双线合作"策略使谷歌能够:

  • 在训练芯片上追求极致性能(与博通的高端ASIC经验结合)
  • 在推理芯片上追求极致能效(与联发科的移动芯片经验结合)

3. 对标NVIDIA Vera Rubin

对比Google TPU 8t + 8iNVIDIA Vera Rubin
策略训练/推理拆分统一架构(GPU+CPU)
制程TSMC 2nmTSMC 3nm(推测)
生态仅Google Cloud全球可用
软件JAX / PyTorch/XLACUDA / PyTorch
量产2027年底2026年秋季
优势与Gemini深度集成生态最成熟

技术深度解析

TSMC 2nm:为何选择2nm?

谷歌是首家在AI加速器上采用TSMC 2nm制程的厂商(NVIDIA Rubin用的是3nm)。2nm(N2)工艺相比3nm(N3E):

  • 晶体管密度提升:~15-20%
  • 功耗降低:~25-30%(同等性能)
  • 性能提升:~10-15%(同等功耗)

对于功耗已达1,300W的TPU 8t/8i来说,2nm是必须的——否则4nm/3nm无法在合理功耗内集成双计算Die和8×HBM3e。

Arm Axion CPU:Google自研CPU首次进入TPU节点

此前,TPU节点使用Intel Xeon或AMD EPYC作为Host CPU。TPU 8t/8i首次集成Google自研的Arm Axion CPU(64核Neoverse V2):

意义

  1. 数据预处理Offload:Tokenization、数据增强等可以完全在Axion上完成,不占用TPU算力
  2. 权重初始化:大模型训练的权重初始化可以在CPU上完成,加速训练启动
  3. 推理调度:多模型推理时,Axion负责请求调度和负载均衡

这标志着TPU节点向"超节点"演进:不再是纯加速器,而是TPU + Axion CPU协同系统,对标NVIDIA Vera CPU。

第4代液冷:1,300W的散热挑战

TPU 8t/8i的TDP达到1,300W(相比Ironwood的1,000W提升30%),这给数据中心散热带来巨大挑战。

谷歌采用第4代液冷方案

  • 冷板液冷:直接冷却GPU Die和HBM
  • 浸没式液冷:可选方案(超高密度部署)
  • 智能温控:根据工作负载动态调整泵速和风扇转速

量产时间表与应用场景

时间事件
2026-04-22Cloud Next '26正式公布
2026年下半年内部测试(Google DeepMind优先使用)
2027年底**正式量产,Google Cloud开放
2028年下一代TPU(可能为TPU 9)

目标应用场景

  • Frontier模型训练(Gemini 3/4、外部客户)
  • MoE大模型推理(高并发、低延迟)
  • 多模态AI(ViT + LLM同步推理)
  • 智能体AI(Agentic AI工作负载)

与竞品对比

厂商产品制程TDP量产时间
GoogleTPU 8i(推理)TSMC 2nm1,300W2027年底
GoogleTPU 8t(训练)TSMC 2nm1,300W2027年底
NVIDIARubin GPUTSMC 3nm(推测)~1,000W2026年秋季
NVIDIAVera CPUTSMC 3nm(推测)~500W2026年秋季
AMDMI455X(MI400)TSMC 3nm(推测)~700W2026年
华为昇腾950PR~500W2026年Q1

行业影响

  1. AI芯片进入2nm时代:谷歌率先采用TSMC 2nm,NVIDIA、AMD必然跟进
  2. 训练/推理拆分成为新趋势:其他厂商(如NVIDIA、AMD)可能会效仿
  3. 自研CPU成为标配:Google(Axion)、NVIDIA(Vera)、华为(鲲鹏)都在做CPU+加速器的协同设计
  4. 液冷成为必然选择:1,300W的TDP意味着风冷已经无法满足

相关芯片

参考资料


本文基于Google官方公告及公开资料整理,部分规格为推测值,以官方最终发布为准。