Skip to main content

One post tagged with "Habana"

Intel Habana Labs AI chips

View all tags

Intel Gaudi 4 / Jaguar Shores 最新进展:重返AI竞赛,HBM4内存加持

· 7 min read
AI Compute Cards Wiki Editorial
Industry Research Team

2026年3月18日,Intel在Intel AI Summit上正式发布:Habana Gaudi 4定制AI加速卡。这是Intel在Gaudi 3(2024年4月发布)之后的最新一代AI训练/推理芯片,专为大规模模型训练设计。

同时,Intel确认下一代Jaguar Shores GPU(数据中心GPU)正在研发中,将采用HBM4内存,预计2027年发布。这标志着Intel正式重返AI芯片竞赛。

核心亮点

  • Gaudi 4:2026年3月发布,TSMC 5nm、64GB HBM3e、专为大规模训练
  • Jaguar Shores:2027年发布(预计),采用HBM4、对标NVIDIA Rubin
  • Crescent Island:Intel首款通用GPU(2026年发布),采用Xe3架构
  • 软件生态:Intel AI Stack(包含oneAPI、BigDL、Gaudi Software Suite)
  • 代工合作伙伴:TSMC(Gaudi 4、Jaguar Shores)、Intel Foundry(Crescent Island)

Gaudi 4 详细规格

Gaudi 4是Intel旗下Habana Labs(2019年收购)设计的第四代AI加速卡。

参数Gaudi 4Gaudi 3(2024)NVIDIA B200
架构Habana 4Habana 3Blackwell
制程TSMC 5nmTSMC 7nmTSMC 4NP
FP8算力~2,000 TFLOPS(推测)1,000 TFLOPS4,500 TFLOPS(稀疏)
显存64GB HBM3e128GB HBM2e(推测)192GB HBM3e
显存带宽~3 TB/s(推测)~2 TB/s(推测)8 TB/s
TDP~500W(推测)~400W700-1000W
互联RoCE v3(以太网)RoCE v2NVLink 5.0
发布时间2026年3月2024年4月2024年3月
量产时间2026年Q3(推测)2024年Q42024年Q4

📌 :Gaudi 4具体规格尚未完全公开,上表部分为推测值。

Gaudi 4的关键特性

  1. 以太网原生支持:采用RoCE v3(RDMA over Converged Ethernet),无需专用互联协议(如NVLink)
  2. 大规模扩展优化:万卡集群扩展效率优于InfiniBand(成本更低)
  3. 稀疏化加速:MoE模型原生支持
  4. 多精度支持:FP8/FP16/FP32/INT8/INT4
  5. 开放生态:支持PyTorch、TensorFlow、JAX(通过第三方适配)

Jaguar Shores:Intel的下一代GPU

Jaguar Shores是Intel首款真正意义上的数据中心GPU(不是Gaudi那样的ASIC)。

为什么叫"Jaguar Shores"?

  • Jaguar:美洲豹,代表"速度"和"敏捷"
  • Shores:海岸,代表"开放"和"连接"(对标NVIDIA的"海岸"命名风格?)

Jaguar Shores 推测规格

参数Jaguar Shores(推测)NVIDIA RubinAMD MI455X
架构Xeu 3(推测)RubinCDNA 4
制程TSMC 3nm(推测)TSMC 3nmTSMC 3nm
显存HBM4(确认)HBM4HBM4
显存容量288GB(推测)288GB288GB
FP8算力~4,000 TFLOPS(推测)~6,000 TFLOPS6,000 TFLOPS
TDP~800W(推测)~1,000W~800W
发布时间2027年(预计)2026年Q32026年Q3

关键确认

  • HBM4内存:Intel已确认Jaguar Shores将采用SK海力士的HBM4内存
  • TSMC代工:Jaguar Shores将由TSMC生产(不是Intel Foundry)
  • oneAPI原生支持:Jaguar Shores将原生支持oneAPI编程模型

Crescent Island:Intel的首款通用GPU

Crescent Island是Intel在2025年10月公布的首款通用数据中心GPU,采用Xe3架构(Xe-HPG的升级版)。

参数Crescent Island(推测)Intel Data Center GPU MaxNVIDIA L40S
架构Xeu 3Xeu 2(Ponte Vecchio)Ada Lovelace
定位通用计算+AI推理HPC+AI训练AI推理+图形
制程TSMC 5nm(推测)Intel 7 + TSMC 5nmTSMC 4N
显存48GB HBM3(推测)128GB HBM2e48GB GDDR6
TDP~300W(推测)600W350W
发布时间2026年(预计)2023年1月2023年3月

定位

  • 通用GPU:既能做AI推理,也能做科学计算(HPC)
  • 低成本:价格比Gaudi 4更低,对标NVIDIA L40S
  • 开放标准:支持oneAPI、SYCL、Level Zero

Intel AI芯片路线图(2024-2027)

时间产品类型制程备注
2024年Q4Gaudi 3AI ASICTSMC 7nm当前主力
2026年Q2Crescent Island通用GPUTSMC 5nm新发布
2026年Q3Gaudi 4AI ASICTSMC 5nm新发布
2027年Jaguar Shores数据中心GPUTSMC 3nm下一代旗舰
2027年Gaudi 5(推测)AI ASICTSMC 3nm下一代

与竞品对比

Gaudi 4 vs NVIDIA B200

指标Gaudi 4NVIDIA B200
FP8算力~2,000 TFLOPS4,500 TFLOPS
显存64GB HBM3e192GB HBM3e
互联以太网(RoCE v3)NVLink 5.0
软件生态Gaudi Software SuiteCUDA
价格推测 ~$20,000~$45,000
优势以太网成本低、开放生态最成熟、性能最强
劣势软件生态弱、算力低价格昂贵

结论:Gaudi 4的定位是**"性价比训练方案"**,适合对成本敏感、且愿意投入软件适配的客户。

Jaguar Shores vs NVIDIA Rubin

指标Jaguar Shores(推测)NVIDIA Rubin
FP8算力~4,000 TFLOPS~6,000 TFLOPS
显存288GB HBM4288GB HBM4
软件生态oneAPICUDA
量产时间2027年2026年Q3
优势开放标准、可能更便宜生态成熟、先发优势
劣势生态弱、晚1年价格昂贵

结论:Jaguar Shores如果能按时发布,且oneAPI生态有足够改善,可以成为NVIDIA的第三选择(仅次于NVIDIA和AMD)。

软件生态:oneAPI的进步与挑战

oneAPI是什么?

oneAPI是Intel推出的开放、跨架构编程模型

  • 支持CPU、GPU、FPGA、AI加速器
  • 基于SYCL标准(类似CUDA的C++扩展)
  • 开源实现(Intel oneAPI Base Toolkit)

Intel AI Stack

组件用途对标
oneAPI跨架构编程模型CUDA
BigDL分布式深度学习框架PyTorch Distributed
Gaudi Software SuiteGaudi专用软件栈NVIDIA GPU Cloud (NGC)
Intel Extension for PyTorchPyTorch在Intel硬件上的优化NVIDIA PyTorch
Intel Optimization for TensorFlowTensorFlow在Intel硬件上的优化NVIDIA TensorFlow

✅ 进步

  • PyTorch 2.5+:Intel Extension已集成到PyTorch主线
  • Hugging Face Transformers:官方支持Intel GPU(通过optimum-intel)
  • vLLM:实验性支持Gaudi(性能待验证)

⚠️ 挑战

  • 开发者习惯:全球AI开发者都用CUDA,oneAPI学习曲线陡峭
  • 算子覆盖率:很多PyTorch算子还没有oneAPI优化版本
  • 性能:same功耗下,Gaudi 4性能只有B200的50%左右

行业影响

1. Intel能否重返AI竞赛?

挑战

  • 生态劣势:CUDA护城河太深,oneAPI难以撼动
  • 性能劣势:Gaudi 4性能只有B200的50%
  • 时间劣势:Jaguar Shores比Rubin晚1年

机会

  • 开放标准:不依赖CUDA,适合"反NVIDIA垄断"的客户
  • 以太网优势:RoCE v3在万卡集群上成本低于InfiniBand
  • ✅ ** Intel Foundry**:如果Jaguar Shores能用Intel自家工艺生产,成本更低

2. 对AMD的影响

Intel重返AI竞赛,对AMD是坏事:

  • AMD本来是"NVIDIA唯一替代品"
  • 现在Intel也回来了,AMD的"替代品"地位受到挑战
  • 但短期内(2026-2027),Intel还无法威胁AMD

3. 对国产芯片的影响

Intel Gaudi 4的发布,对国产芯片是参考案例:

  • 证明以太网路线(RoCE)可行
  • 证明开放生态(oneAPI)虽难但有必要
  • 证明性价比路线有市场(成本敏感客户)

相关芯片

参考资料


本文基于Intel官方公告及公开资料整理,部分规格为推测值,以Intel官方最终发布为准。