Skip to main content

Google TPU v6p (Pathway, 2024-12)

产品概述

Google TPU v6p(代号 Pathway,非官方代号 Trillium 训练版)是 Google 第六代 TPU 的训练专用版本2024-12 发布。相比同代推理版 TPU v6e (Trillium),v6p 升级了 HBM 容量(32GB → 96GB)和 Pathways 分布式软件支持。是 Google 内部 Gemini 1.5 Pro/Ultra、Google Search、广告推荐系统训练的主力芯片。

关键定位

  • v6e (Trillium) = 推理 + 中等规模训练(TPU v6e 单独页)
  • v6p (Pathway) = 大规模训练 + Pathways 软件栈
  • v7 (Ironwood) = 2025 H2 推理专用(TPU Ironwood 单独页)

核心规格

项目参数
代号Trillium 训练版(Google 内部称 Pathway)
架构Google TPU v6(与 v6e 同代)
制程TSMC 5nm(vs v5e 7nm)
SparseCore4× 改进(处理 embedding 推荐)
HBM96 GB HBM2(v6e 仅 32GB)
HBM 带宽1.6 TB/s(v6e 仅 819 GB/s)
MXU2× 128×128(v6e 同)
FP8 dense2.7 PFLOPS(v6e 1.5 PF)
BF16 dense1.35 PFLOPS
INT82.7 POPS
稀疏性2:4 结构化稀疏(2× 加速)
TDP~450 W(v6e 同)
板卡形态Cloud TPU v6p pod slice
Pod 规模9,216 芯片(v6e 仅 256)
Pod 算力24.9 EF FP8 dense(v6e 仅 0.4 EF)
Pod 带宽14.7 TB/s 域内(v6e 仅 1.6 TB/s)
量产2024-12
价格不公开(Google Cloud 内部)

与同代 v6e 对比

指标TPU v6p (Pathway)TPU v6e (Trillium)差异
定位训练专用推理 + 中等训练-
内存96GB HBM232GB HBM2
带宽1.6 TB/s819 GB/s
FP8 dense2.7 PF1.5 PF1.8×
稀疏性2:4 结构化1:2 结构化2× 加速
SparseCore4× 改进基线
Pod 规模9,216 芯片256 芯片36×
Pod 算力24.9 EF FP80.4 EF FP862×
Pod 带宽14.7 TB/s1.6 TB/s
互联ICI + DCN 6.4 Tb/sICI 656 GB/s10×
Pathways完整支持基础显著

历代 TPU 对比

代际代号发布内存FP8 densePod 规模
TPU v2-201816GB HBMN/A (FP16 180 TF)256
TPU v3-201932GB HBMN/A (FP16 420 TF)1024
TPU v4-202132GB HBM21.1 PF4096
TPU v5e-202316GB HBM20.4 PF256
TPU v5p-2023-Q396GB HBM21.89 PF8,960
TPU v6eTrillium2024-Q232GB HBM21.5 PF256
TPU v6pPathway2024-1296GB HBM22.7 PF9,216
TPU v7Ironwood2025 H2192GB HBM3E4.6 PF9,216

Pathways 软件栈

层级工具说明
AI 框架JAXGoogle 主推(Flax / Optax / RLlib)
Pathways异构加速器统一编程(v6p 完整支持)
TensorFlow兼容(v6p 优化)
PyTorch/XLA兼容(v6p 实验)
编译器XLA加速器编译器(v6p 优化版)
分布式GSPMD张量并行(v6p 9K 芯片优化)
集合通信DUS自研(v6p 14.7 TB/s 域内)
加速器抽象Pathways Runtime跨 TPU/GPU/CPU 异构调度

Pathways 战略单一编程模型 跨 TPU pod 训练,简化超大 LLM 训练。Google 内部用 Pathways 训练 Gemini 1.5/2.0

TPU v6p 适用场景

  • 超大 LLM 训练(Gemini 1.5/2.0、PaLM 2、Gemma 2)
  • 多模态模型(视频 + 文本 + 图像)
  • 推荐系统(SparseCore 4× 加速)
  • Google Cloud TPU 客户(Anthropic Cohere 等)
  • JAX 研究(DeepMind、谷歌研究院)
  • ❌ 中国市场(出口管制)
  • ❌ PyTorch 原生(需 XLA 转译,性能损失 10-20%)

Pod 拓扑:9,216 芯片

维度配置
Pod 大小9,216 个 v6p 芯片
Pod 形态12 行 × 12 rack × 64 chip
Pod 总算力24.9 EF FP8 dense
Pod 内存总量885 TB HBM2
Pod 互联ICI (chip-to-chip) + DCN (rack-to-rack)
Pod 功耗~4.1 MW(仅 TPU)
Pod 物理尺寸~12 机柜(含冷却)
Pod 价格$50-100M(推测)

TPU v6p Pod 优势9K 芯片 14.7 TB/s 互联,对 Gemini 1.5/2.0 万亿参数模型至关重要(单卡 96GB 装不下完整模型权重)。

Google 内部使用

  • Gemini 1.5 Pro/Ultra 训练(TPU v6p + v5p 混合)
  • Google Search 排序模型(MUM、BERT 改进)
  • 广告推荐系统(SparseCore 加速 embedding)
  • YouTube 视频理解(多模态)
  • DeepMind AlphaFold 3(结构预测)
  • Waymo 自动驾驶(感知模型)
  • Google Cloud 客户:Anthropic(Claude 3.5)、Cohere、AssemblyAI、Mistral

厂商信息

项目内容
公司Google LLC
产品页https://cloud.google.com/tpu
业务部门Google Cloud + Google DeepMind
TPU 芯片设计Google Silicon team(以色列海法 + 美国 Mountain View)
代工TSMC 5nm(InFO_SoC 封装)
Google Cloud TPU 价格v6p ~$4-5/小时(pod slice)
客户Google 内部 + Anthropic / Cohere / Mistral 等

关键特性

  • 96GB HBM2:单卡大内存,训练 70B+ 模型无需多卡
  • 9,216 芯片 Pod:业界最大单一域之一(vs H100 8K 集群需 InfiniBand)
  • Pathways 分布式:单一编程模型跨 9K 芯片
  • SparseCore 4×:推荐系统 / MoE 加速
  • JAX 深度优化:JAX + Flax 性能 vs PyTorch + CUDA 相当或略高
  • 缺点:仅 Google Cloud 部署,PyTorch 兼容性弱

v6p vs v5p 对比

指标TPU v6p (2024-12)TPU v5p (2023-Q3)提升
内存96GB HBM296GB HBM2
带宽1.6 TB/s1.4 TB/s+14%
FP8 dense2.7 PF1.89 PF+43%
稀疏性2:4 结构化1:2 结构化2× 加速
SparseCore4× 改进基线
Pod 规模9,2168,9603%
Pod 算力24.9 EF16.9 EF+47%
Pathways完整基础显著
工艺TSMC 5nmTSMC 5nm

相关卡