Skip to main content

LPU 语言处理器

LPU(Language Processing Unit)是 Groq 公司推出的专用推理芯片,从零开始为 transformer 模型的计算模式设计,代表了对 AI 推理硬件架构的一次彻底革新。不同于 GPU 的 SIMT 架构,LPU 采用确定性执行模型,消除了线程调度开销和缓存未命中延迟,推理时延低至毫秒级,在 LLM 推理场景中实现每秒数千 token 的生成速度。Groq LPU 现已通过 GroqCloud 以 API 形式开放服务,支持 Llama 3、Mixtral 8x7B、Gemma 等主流开源大模型,开发者可通过标准 REST API 调用。LPU 的 token 生成速度远超同价位 GPU 方案,适合对响应速度要求极高的实时对话、代码补全、语音助手和 agent 系统等延迟敏感型应用。选择 LPU 需要接受其软件生态尚在成长阶段,但推理速度的差异化优势在当前大模型推理市场中非常显著。

本分类包含以下 AI 加速芯片/计算卡: