跳到主要内容

Groq LPU v2 (LPU Inference, 2024)

产品概述

Groq LPU v2(非官方代号)是 Groq 第二代 LPU 推理芯片,2024-Q3 发布TSMC 4nm 制程80GB SRAM 内存(业界最大 SRAM 容量),15 TB/s 内存带宽业界最高 LPU 带宽),188 TOPS INT8 算力,TDP 200W。是 Groq 在 NVIDIA 收购前的最后一代独立 LPU 产品,配套 GroqCloud LPU 云服务。

代际演进

  • LPU v1(2022):三星 14nm,230MB SRAM,80 TOPS INT8 — 现有 others/groq-lpu.md
  • LPU v2(2024-Q3):TSMC 4nm,80GB SRAM,188 TOPS INT8 — 本页
  • LPU v3 LPX(2026,NVIDIA 收购后):256 颗/rack 40 PB/s SRAM,640 TB/s 域内 — 现有 nvidia/groq-3-lpx.md

核心规格

项目参数
架构Groq LPU v2(deterministic dataflow)
制程TSMC 4nm
内存类型SRAM(片上)
SRAM 容量80 GB业界最大
内存带宽15 TB/s业界最高 LPU 带宽
INT8188 TOPS
BF1694 TFLOPS
FP1694 TFLOPS
TDP200 W业界能效比最高的推理芯片之一
板卡形态PCIe Gen5 ×16
互连GroqLink(自研,类 NVLink)
GroqLink 带宽900 GB/s(4 卡域内)
量产2024-Q3
单价~$20,000-30,000

LPU 架构原理

维度传统 GPUGroq LPU
计算范式异步、并行、乱序同步、数据流、确定性
执行模型CUDA cores + Tensor coresStreaming Architecture
延迟受 HBM 限制(纳秒级 + 排队)确定性(无排队,纳秒级)
吞吐量高(受 HBM 限制)极高(SRAM 0 等待)
TTFT100-500ms(排队)< 5ms(无排队)
TPOT30-50ms5-10ms(10× 优势)
适合模型大模型训练大模型推理(实时)

Deterministic Dataflow 优势

传统 GPU 推理:
输入 → HBM 排队 → 计算 → HBM 输出
延迟: ~100ms(HBM 访问 + 调度)

Groq LPU 推理:
输入 → 80GB SRAM(已存权重)→ 计算 → 输出
延迟: ~5ms(SRAM 0 等待)

关键特性

  • 权重一次性加载到 80GB SRAM
  • 推理时无需 HBM 访问(仅 SRAM)
  • 同步执行(所有 chip 同一时钟)
  • 可预测延迟(无排队抖动)

SRAM 容量演进

代际SRAM适合模型
LPU v1 (2022)230 MBLlama 2 7B
LPU v2 (2024)80 GBLlama 3 70B FP8 / Llama 2 70B FP16
LPU v3 LPX (2026)80 GB × 256 chip万亿参数

80GB SRAM 革命:首次在单芯片装下 70B 参数 FP16 模型(140GB 略超,需 FP8 70GB 装下),无需 HBM 访问,延迟从 100ms 降至 5ms。

GroqCloud 服务

项目规格
服务GroqCloud LPU Inference API
API 兼容OpenAI Chat Completions API 100% 兼容
模型支持Llama 3 70B, Mixtral 8x7B, Gemma 7B
延迟TTFT < 5ms,TPOT 5-10ms
价格$0.27 / 1M tokens(Llama 3 70B)
客户Anthropic 部分推理、Cursor IDE、Vercel、Whisper 转录
状态NVIDIA 收购后保留(GroqCloud 持续运营)

4 卡域内 900 GB/s

维度规格
单卡 SRAM80GB
4 卡域内320GB SRAM(合并寻址)
互联带宽900 GB/s
适用模型Llama 3 405B FP8(210GB)
延迟4 卡 TTFT < 10ms
价格~$100K(4 卡服务器)

与 NVIDIA H100 对比(推理)

指标Groq LPU v2NVIDIA H100优势
TTFT< 5ms100-300msLPU 20-60×
TPOT5-10ms30-50msLPU 3-5×
TDP200W700WLPU 3.5× 省电
内存80GB SRAM80GB HBM3LPU 0 等待
批量吞吐H100 +50%
价格~$25K~$25-30K相当
软件GroqWare (小)CUDA (大)H100 成熟
API 兼容OpenAI 100%-LPU 杀手锏

LPU 杀手锏TTFT < 5ms 是 H100 的 20-60 倍,是 实时 AI 推理(chatbot、code completion、语音转录)的最佳 H/W

厂商信息

项目内容
公司Groq, Inc.
创始人Jonathan Ross(前 Google TPU 架构师)
成立2016
总部美国加州山景城
融资$1B+(C 轮 2024-Q2 领投:D1 Capital)
2024 营收~$50M
代工TSMC 4nm
GroqCloud 客户Anthropic 部分推理、Cursor、Vercel、Anthropic SDK

NVIDIA 收购

2026-Q1 NVIDIA 宣布 $200亿 收购 Groq(不含 GroqCloud),Groq 团队并入 NVIDIA Vera Rubin 平台 LPU 部门,LPU v3 LPX 成为 NVIDIA Rubin 平台的机柜级 LPU 协处理器GroqCloud 持续独立运营(Jonathan Ross 留任),服务现有 OpenAI 兼容 API 客户。

LPU 适用场景

  • 实时 AI 推理(chatbot、code completion)
  • 语音转录(Whisper Large V3 实时)
  • API 服务(OpenAI 兼容)
  • 超低延迟交易(HFT AI 推理)
  • 自动驾驶(实时光线/物体检测)
  • AI 训练(LPU 仅推理)
  • 大 batch 推理(GPU 吞吐更高)
  • 传统深度学习(CNN 训练)

LPU v1 vs v2 vs v3 对比

指标LPU v1 (2022)LPU v2 (2024-Q3)LPU v3 LPX (2026)
制程三星 14nmTSMC 4nmTSMC 3nm
SRAM230MB80GB80GB × 256 chip = 20TB
带宽80 TB/s15 TB/s40 PB/s(256 chip 域内)
INT880 TOPS188 TOPS2.4 P TOPS (256 chip)
TDP200W200W4 kW (256 chip rack)
域内4 chip4 chip256 chip / rack
客户GroqCloudGroqCloud + 企业NVIDIA Vera Rubin
状态EOL (2025)量产 (2024-Q3)路线图 (2026)

相关卡