跳到主要内容

Google TPU v5e (Trillium 训练-Lite, 2023)

产品概述

Google TPU v5e(非官方代号 Trillium-Lite)是 Google 第五代 TPU 的入门级 / 性价比版本2023-Q2 发布。基于 TSMC 5nm 制程16GB HBM2 内存,400 TFLOPS FP8 dense 算力,TDP 180W。定位是 推理 + 中小规模训练,相比 TPU v5p(训练旗舰)单芯片便宜 70%。

关键定位

  • TPU v5p(2023-Q3):96GB HBM2,1.89 PF FP8,训练专用 — 现有页
  • TPU v5e(2023-Q2):16GB HBM2,400 TF FP8,推理 + 小型训练本页
  • TPU v6e(2024-Q2):32GB HBM2,1.5 PF FP8,Trillium — 现有页
  • TPU v6p(2024-12):96GB HBM2,2.7 PF FP8,Pathway 训练 — 现有页

核心规格

项目参数
代号Trillium-Lite(Google 内部称 v5e)
架构Google TPU v5(与 v5p 同代)
制程TSMC 5nm
MXU128×128(2 个,v5p 是 4 个)
HBM16GB HBM2(v5p 是 96GB)
HBM 带宽400 GB/s(v5p 是 1.4 TB/s)
FP8 dense400 TFLOPS(v5p 是 1.89 PF)
BF16 dense200 TFLOPS
INT8400 TOPS
TDP180W(v5p 是 450W)
板卡形态Cloud TPU v5e pod slice
Pod 规模256 芯片(v5p 是 8,960)
Pod 算力102 TF FP8 dense(v5p 是 16.9 EF)
Pod 带宽1.6 TB/s 域内
量产2023-Q2
价格(Google Cloud)~$1.20/小时(pod slice)

与 TPU v5p 对比

指标TPU v5e (2023-Q2)TPU v5p (2023-Q3)差异
定位推理 + 小型训练大型训练-
制程5nm5nm
MXU2 个 128×1284 个 128×1281/2
HBM16GB HBM296GB HBM21/6
带宽400 GB/s1.4 TB/s1/3.5
FP8 dense400 TF1.89 PF1/4.7
TDP180W450W1/2.5
Pod 规模2568,9601/35
价格(Google Cloud)$1.20/小时$4.20/小时1/3.5
适合模型7B-30B70B-540B-

TPU 产品线对比

代际代号内存FP8 densePod 规模适合
TPU v4-32GB HBM21.1 PF4,096100B+
TPU v5e-16GB HBM2400 TF2567B-30B
TPU v5p-96GB HBM21.89 PF8,96070B-540B
TPU v6eTrillium32GB HBM21.5 PF2567B-70B
TPU v6pPathway96GB HBM22.7 PF9,21670B-万亿
TPU v7Ironwood192GB HBM3E4.6 PF9,216推理 192GB

TPU v5e 适用场景

  • LLM 推理(7B-30B 模型推理)
  • 小模型训练(LLaMA 7B、Mistral 7B、Qwen 1.5 14B)
  • 推荐系统(SparseCore 优化)
  • Google Cloud TPU 入门($1.20/小时)
  • JAX / Flax 训练(XLA 优化)
  • Anthropic / Cohere / Mistral(Google Cloud 客户)
  • 超大模型训练(16GB 内存限制)
  • FP8 训练(仅推理 FP8,训练 BF16)
  • PyTorch 原生(需 XLA 转译)

推理 vs 训练优势

推理

  • TTFT < 10ms(JAX + Pathways)
  • TPOT 5-8ms(4 卡互联)
  • 价格 $1.20/小时(H100 $3-5/小时,60% 便宜
  • 7B-30B LLM 优化

训练

  • LLaMA 7B 训练:v5e 256 卡 = 1.5 周期/秒(H100 8 卡 = 1 周期/秒,相当
  • LLaMA 13B 训练:v5e 256 卡 = 0.7 周期/秒(H100 8 卡 = 0.5 周期/秒,v5e 略胜
  • JAX + Flax + GSPMD 张量并行
  • 价格 $1.20/小时H100 8 卡 $25-30/小时,1/10 价格

软件栈

层级工具说明
AI 框架JAXGoogle 主推
FlaxJAX 神经网络库
OptaxJAX 优化器
RLlibJAX 强化学习
Pathways异构加速器统一编程
TensorFlow兼容
PyTorch/XLA兼容(实验)
编译器XLA加速器编译器
分布式GSPMD张量并行
集合通信DUS自研
模型库MaxText (Gemma 2 训练)Google 开源

厂商信息

项目内容
公司Google LLC
产品页https://cloud.google.com/tpu
业务部门Google Cloud + Google DeepMind
代工TSMC 5nm(InFO_SoC 封装)
Google Cloud 价格v5e ~$1.20/小时(pod slice)
客户Google 内部(Search、YouTube、DeepMind) + Anthropic / Cohere / Mistral / Hugging Face

与 NVIDIA L4 对比(推理)

指标Google TPU v5eNVIDIA L4差异
INT8400 TOPS485 TOPSL4 +21%
TDP180W72Wv5e 2.5×
能效2.22 TOPS/W6.7 TOPS/WL4 3×
内存16GB HBM224GB GDDR6L4 1.5×
价格$1.20/小时$0.80-1.20/小时相当
软件JAXCUDAL4 成熟

TPU v5e 优势Google Cloud 集成 + JAX 优化 + 价格便宜L4 优势TDP 72W(v5e 40% 节能)+ 软件成熟 + 多云部署

关键特性

  • 400 TF FP8:业界 5nm 入门 TPU 旗舰
  • 180W TDP:H100 25% 功耗
  • 16GB HBM2:推理够用,训练受限
  • Pod 256 卡:JAX GSPMD 训练优化
  • 价格便宜:$1.20/小时
  • 缺点:内存小、仅 Google Cloud、生态 5 年

相关卡