Skip to main content

Google Cloud TPU

厂商: Google

分类: TPU 张量处理器

架构: TPU Matrix

简介

Google 定制张量处理器(TPU),为 TensorFlow/JAX/PyTorch 等框架的 AI 训练和推理提供极致加速。目前主流型号包括 TPU v5e(推理优化)、TPU v5p(训练优化)和 TPU v4。

规格参数

型号算力显存/内存接口TDP制程
v6e (Trillium)918 TFLOPS (BF16) / 1,836 (INT8)32GB HBM (per chip, 1,638 GB/s)ICI 800GB/s200W5nm
v5p459 TFLOPS (BF16)95GB HBM2e (per chip, 2,575 GB/s)ICI 1,200GB/s300W4nm
v4275 TFLOPS (BF16)32GB HBM2 (per chip)ICI 互联250W7nm

官方网站

访问官方网站

驱动下载

Linux

相关文档

操作系统支持

WindowsLinuxmacOSAndroid
✅ (GCP)

版本历史

版本发布时间说明
TPU v6e2025Trillium 架构,性能翻倍
TPU v5p2024Pod 规模扩大至 8960 芯
TPU v42023PyTorch/XLA 原生支持

性能基准

型号任务性能指标
v6e Trillium PodGPT-3 175B 训练~1.1 天 (Google 数据)
v5p PodLlama 2 70B 推理~120 tok/s/chip
v5p PodJAX 大规模训练线性扩展至千卡
v4 PodMLPerf 训练多项 SOTA 成绩

定价信息

型号参考价格备注
v6e Trillium~$4.20/chip/h按需计费
v5p~$4.20/chip/h按需计费
v4~$2.46/chip/hSpot 价格更低

快速安装

GCP (gcloud CLI)

# 1. 创建 TPU
gcloud compute tpus create tpu-node \
--zone=us-central1-b \
--accelerator-type=v5p-8 \
--version=tpu-vm-v5-base

# 2. SSH 连接
gcloud compute tpus tpu-vm ssh tpu-node --zone=us-central1-b

# 3. 验证 TPU
python3 -c "import jax; print(jax.devices())"

代码示例

Python (JAX on TPU)

import jax
import jax.numpy as jnp

# 检查 TPU 设备
print(f"TPU devices: {jax.devices()}")

# 矩阵乘法自动并行
x = jax.random.normal(jax.random.PRNGKey(0), (2048, 2048))
y = jnp.dot(x, x)
print(f"TPU matrix multiply: {y.shape}")

PyTorch/XLA

import torch
import torch_xla
import torch_xla.core.xla_model as xm

# 使用 TPU 后端
device = xm.xla_device()
x = torch.randn(1024, 1024, device=device)
y = torch.matmul(x, x)
print(f"TPU matrix multiply: {y.shape}")

架构特色

  • TPU Matrix 架构: 专为矩阵运算优化的脉动阵列 (Systolic Array),天然适合 Transformer 模型
  • ICI 互联: 片间互联带宽 4.8Tbps (v5p),支持大规模 Pod (数千芯片) 线性扩展
  • 软件栈: JAX (原生最佳) / PyTorch-XLA / TensorFlow — 全部支持

模型兼容性

模型/框架支持情况备注
JAX✅ 原生最佳Google 首选
PyTorch✅ XLA 后端torch_xla
TensorFlow✅ 原生TPU 原生支持
Llama / Qwen 等 LLMJAX/PyTorch 均可
T5/BERTGoogle 内部模型原生

大规模集群部署

基于全球 AI 超算集群数据统计,Google Cloud TPU 在已公开的集群部署中累计超过 94,856 颗芯片,分布在 9 个集群中。

芯片型号统计

芯片型号总部署量集群数
Google TPU v471,6804
Google TPU v5p8,9601
Google TPU v35,1202
Google TPU v15,0001
Google TPU v24,0961

知名部署集群 Top 10

#集群名称芯片总数芯片型号运营方
1Google Oklahoma TPU v4 Pods32,768Google TPU v4 ×32,768Google, United States of America
2Gemini 1.0 Ultra training cluster A28,672Google TPU v4 ×28,672Google, United States of America
3Google Hypercomputer TPU v5p pod8,960Google TPU v5p ×8,960Google
4Paper on PaLM6,144Google TPU v4 ×6,144Google, United States of America
5Paper on AlphaZero5,000Google TPU v1 ×5,000Google, United States of America
6Google TPU v4 Pod4,096Google TPU v4 ×4,096Google, United States of America
7Google MLPerf 0.7 Submission4,096Google TPU v3 ×4,096Google, United States of America
8Google TensorFlow Research Cloud4,096Google TPU v2 ×4,096Google, United States of America
9Google TPUv3 POD Generic1,024Google TPU v3 ×1,024Google

相关产品

如果你在评估替代方案,以下产品可能也适合你的场景: