Skip to main content

NVIDIA Groq 3 LPX (LPU Rack-Scale)

产品概述

NVIDIA Groq 3 LPX 是 2026 H2 推出的机柜级 LPU(Language Processing Unit) 系统,NVIDIA 收购 Groq 后的旗舰 LPU 产品。每机柜 256 颗 Groq 3 LPU40 PB/s 片上 SRAM 聚合带宽640 TB/s 互联带宽35× perf/W 优势(vs H100 推理)。

Groq 3 LPX 是 NVIDIA Vera Rubin 平台推理加速 co-processor —— 当用户需要超低延迟万亿参数模型推理(如 agentic AI、real-time code generation)时,可选 LPX rack 作为 Rubin GPU 的 co-processor。

核心规格

项目参数
架构Groq 3 LPU(Tensor Streaming Processor v3)
形态机柜级(256 颗/机柜)
片上 SRAM(每 LPU)512 MB
片上 SRAM(机柜)128 GB 聚合
片上 SRAM 带宽(机柜)40 PB/s
互联(机柜内)GroqSync + NVLink-Network(640 TB/s
INT8 算力(每 LPU)2,500 TOPS(推测)
FP8 算力(机柜)~640 PFLOPS(推测)
BF16 算力(机柜)~320 PFLOPS(推测)
TDP(机柜)~80 kW
perf/W(推理)35× H100(官方)
首发2026 H2(与 Rubin R200 同期)

📌 40 PB/s 片上 SRAM 带宽 ≈ 5,000× H100 HBM 带宽(H100 80GB HBM3 = 3.35 TB/s)。这是 Groq LPU 极致低延迟的核心秘密。

NVIDIA Groq 收购

事件时间详情
首次合作2025-12NVIDIA 投资 Groq 2.5 亿美元
完全收购2026-Q1NVIDIA 全资收购 Groq(约 200 亿美元
产品整合2026 H2Groq 3 LPU 重命名为 NVIDIA Groq 3 LPX
整合到 Vera Rubin 平台2026 H2LPX rack 作为 Rubin GPU co-processor

💡 收购意义:NVIDIA 在 GPU 算力领先的基础上,**通过 LPU 补全了"超低延迟推理"**的能力。Rubin GPU + LPX 协处理 = 全场景 AI 算力覆盖(训练 + 推理 + 极致低延迟推理)。

Groq 3 LPU 单芯片 vs 机柜

项目单 LPUGroq 3 LPX 机柜
芯片数1256
片上 SRAM512 MB128 GB
SRAM 带宽160 TB/s40 PB/s
互联GroqSync 1 TB/s640 TB/s
INT8 算力2,500 TOPS~640,000 TOPS
TDP~300 W~80 kW
适用单模型推理多模型 / agentic

128 GB SRAM 聚合 ≈ 32 颗 H100 80GB 显存聚合,但延迟低 100×(纳秒级 vs 微秒级 HBM)。

Groq 3 LPX vs NVIDIA H100 / Rubin R200(推理对比)

指标H100 (SXM)Rubin R200Groq 3 LPX
显存/聚合 SRAM80 GB HBM288 GB HBM4128 GB SRAM
带宽3.35 TB/s22 TB/s40 PB/s
延迟微秒级微秒级纳秒级(1000× 优)
FP8 算力(机柜/单卡)~3,958 TFLOPS50 PFLOPS~640 PFLOPS
TTFT (首 Token)~200ms~100ms< 20ms
TPOT (单 Token)~30ms~15ms< 5ms
perf/W1× (基准)~3×35×
适用训练 + 推理训练 + 推理极致低延迟推理

💡 LPX 的核心优势是延迟(不是绝对算力)。对于 agentic AI(1000+ 调用/秒),TTFT < 20ms 是关键

适用场景

场景推荐配置
Agentic AI 推理LPX rack(1000+ 调用/秒
Real-time Code Generation(Cursor / Copilot)LPX rack
万亿参数模型推理LPX + Rubin GPU 协同
多模型并发(RAG、function calling)LPX rack
低延迟 search(perplexity、You.com)LPX rack

软件生态

  • GroqWare(收购后改名为 NVIDIA Groq SDK
  • NVIDIA NIM + LPX backend
  • vLLM 0.8+ Groq backend(推测)
  • OpenAI API 兼容层(兼容现有 LLM 应用)
  • LangChain / LlamaIndex 集成

价格(推测)

项目价格
LPX Rack(256 颗)$8M-10M / 机柜(推测)
每月运营成本~$300K-500K(含电力、散热)
每美元推理成本比 H100 低 50-70%(按 35× perf/W 折算)

LPX 不是替代 GPU,而是补充 GPU:在 agentic AI 等延迟敏感场景,LPX 是唯一选择;在 cost-sensitive 大规模推理,Rubin R200 更经济。

厂商信息

项目内容
原厂商Groq Inc.(2026-Q1 被 NVIDIA 收购)
现厂商NVIDIA Corporation(子公司)
首次发布2026 H2(Vera Rubin 平台同代)
产品页https://www.nvidia.com/en-us/data-center/lpx/
API 服务NVIDIA GroqCloud(合并自 GroqCloud)
收购金额~$200 亿

相关产品