跳到主要内容

Intel Gaudi (Habana)

厂商: Intel Habana

分类: ASIC 专用加速卡

架构: Gaudi / Xe HPC

简介

Intel Gaudi AI 加速器(原 Habana Labs),专为 AI 训练和推理优化。Gaudi 2 和 Gaudi 3 在 LLM 训练方面表现出色,支持 PyTorch 和 TensorFlow,性价比高。

规格参数

型号算力显存/内存接口TDP制程
Gaudi 31,678 TFLOPS (FP8) / 1,678 (BF16)128GB HBM2e (3.7 TB/s)OAM + 24x 200GbE900W5nm
Gaudi 2865 TFLOPS (FP8) / 432 (BF16)96GB HBM2e (2.45 TB/s)OAM + 24x 100GbE600W7nm

官方网站

访问官方网站

驱动下载

Linux

相关文档

操作系统支持

WindowsLinuxmacOSAndroid

版本历史

版本发布时间说明
SynapseAI 1.182025-Q1Gaudi 3 全面支持
SynapseAI 1.162024-Q2PyTorch 2.1 原生集成

性能基准

型号任务性能指标
Gaudi 3 × 8GPT-3 175B 训练~1.2 天 (预估)
Gaudi 3Llama 2 70B 推理~100 tok/s (FP8)
Gaudi 2 × 8BERT-Large 训练~90% H100 效率

定价信息

型号参考价格备注
Gaudi 3需询价通过 Intel Developer Cloud 或 ODM 获取
Gaudi 2$8,000-12,000市场价低于 H100

快速安装

Linux (Ubuntu 22.04)

# 1. 安装 Habana 驱动
sudo ./habana-driver-*.run --install

# 2. 安装 SynapseAI SDK
sudo ./SynapseAI-*.run --install

# 3. 验证
hl-smi

也可通过 Intel Developer Cloud 免费试用 Gaudi 2。

代码示例

Python (PyTorch on HPU)

import torch
import habana_frameworks.torch.core as htcore

# 使用 HPU 后端 (API 与 CUDA 一致)
device = torch.device("hpu")
x = torch.randn(1024, 1024, device=device)
y = torch.matmul(x, x)
print(f"HPU matrix multiply: {y.shape}")

# Habana Graph 模式 (类似 CUDA Graphs)
htcore.hpu.graphs()

架构特色

  • Gaudi 架构: 专为大模型训练设计的 AI 加速器,集成 24x RoCE 2.0 网络接口,支持大集群直接互联
  • SynapseAI: Intel AI 软件栈,PyTorch/TensorFlow 原生支持
  • 性价比定位: Gaudi 2 价格约为 H100 的 1/3,适合预算有限的训练场景

模型兼容性

模型/框架支持情况备注
PyTorch✅ 原生HPU 后端,API 兼容 CUDA
TensorFlowHabana 后端
JAX⚠️实验性支持
Llama / Qwen 等 LLMDeepSpeed / FSDP 均支持
Stable DiffusionHPU 后端

大规模集群部署

基于全球 AI 超算集群数据统计,Intel Gaudi 在已公开的集群部署中累计超过 4,000 颗芯片,分布在 1 个集群中。

芯片型号统计

芯片型号总部署量集群数
Intel Habana Gaudi24,0001

知名部署集群 Top 10

#集群名称芯片总数芯片型号运营方
1Intel Stability Gaudi 24,000Intel Habana Gaudi2 ×4,000Intel, United States of America

相关产品

如果你在评估替代方案,以下产品可能也适合你的场景: