Skip to main content

Groq LPU

厂商: Groq (已被 NVIDIA 收购)

分类: LPU 语言处理器

架构: TSP (Tensor Streaming Processor)

简介

Groq LPU(Language Processing Unit)是专为大语言模型推理设计的处理器。采用确定性架构,推理延迟极低,LLaMA 等模型的 token 生成速度远超传统 GPU。2025年12月,NVIDIA 以约 $200亿收购 Groq,LPU 技术将融入 NVIDIA 产品线。第三代 LPU (LP30) 将于 2026年发布。

规格参数

型号算力显存/内存接口TDP制程
LPU v1750 TOPS (INT8) / 188 TFLOPS (FP16)230MB 芯上 SRAM以太网互联300W14nm
LPU v3 (LP30)1.2 PFLOPS (FP8)500MB 芯上 SRAMNVLink-C2C待公布Samsung 4nm

官方网站

访问官方网站

驱动下载

Linux

相关文档

操作系统支持

WindowsLinuxmacOSAndroid
✅ (GroqCloud API)

版本历史

版本发布时间说明
LPU Runtime 1.02024Llama 3 8B 达 800+ tokens/s

性能基准

型号任务性能指标
LPU v1Llama 2 70B 推理~330 tok/s (FP16, GroqCloud)
LPU v1Mixtral 8x7B 推理~180 tok/s/chip
LPU v1Llama 3 8B 推理~800 tok/s

定价信息

型号参考价格备注
LPU v1免费 APIGroqCloud 免费额度
LPU v1企业版GroqCloud 按量计费

快速安装

GroqCloud (API)

pip install groq

LPU v1 不单独出售,仅通过 GroqCloud API 使用。

代码示例

Python (Groq API)

from groq import Groq

client = Groq(api_key="your-key")
response = client.chat.completions.create(
model="llama-3.1-70b-versatile",
messages=[{"role": "user", "content": "你好"}],
max_tokens=100
)
print(response.choices[0].message.content)

架构特色

  • TSP (Tensor Streaming Processor): 专为顺序执行优化的张量处理器,每个时钟周期完成一次完整矩阵运算
  • 确定性延迟: 推理延迟完全可预测,适合实时 AI 服务
  • SRAM 密集: 片上 230MB SRAM,避免 DRAM 访问延迟

模型兼容性

模型/框架支持情况备注
Llama 系列✅ 原生Groq 官方部署
Mixtral✅ 原生MoE 模型支持
大语言模型GroqCloud API
CNN/训练仅推理,仅 Transformer

大规模集群部署

基于全球 AI 超算集群数据统计,Groq LPU 在已公开的集群部署中累计超过 19,725 颗芯片,分布在 1 个集群中。

芯片型号统计

芯片型号总部署量集群数
GroqChip LPU v119,7251

知名部署集群 Top 10

#集群名称芯片总数芯片型号运营方
1Aramco Groq Inference Cluster19,725GroqChip LPU v1 ×19,725Saudi Aramco, Saudi Arabia

相关产品

如果你在评估替代方案,以下产品可能也适合你的场景: