Skip to main content

2 posts tagged with "AI Accelerator"

AI accelerators and custom chips

View all tags

AMD MI455X CES 2026 震撼发布:4年AI芯片性能涨1000倍

· 7 min read
AI Compute Cards Wiki Editorial
Industry Research Team

2026年1月5日,在CES 2026(国际消费电子展)首日,AMD董事会主席兼CEO苏姿丰博士在主题演讲中震撼发布:Instinct MI400系列AI加速卡

其中最引人注目的是MI455X——AMD史上性能最强的AI加速卡,采用2nm + 3nm混合制程432GB HBM4显存、FP4算力高达40 PFLOPS(FP8为20 PFLOPS)。

核心亮点

  • MI455X:FP4算力40 PFLOPS,FP8算力20 PFLOPS,相比MI355X提升10×
  • MI450:高性价比版,FP4算力28 PFLOPS,288GB HBM4
  • 制程升级:全球首款采用2nm + 3nm混合制程的AI芯片(GCD用2nm,MCD用3nm)
  • 显存升级:从MI350X的288GB HBM3e升级到432GB HBM4(MI455X)
  • 带宽升级:从MI350X的8 TB/s升级到19.6 TB/s(提升2.45×)
  • 架构升级:从CDNA 4升级到CDNA 5
  • 量产时间:MI455X 2026年Q4,MI450 2026年Q3

MI400系列完整规格

📌 重要更正(2026-06-16):经官方规格核对,MI455X 显存为 432GB HBM4(非早期报道的 288GB),FP4 算力为 40 PFLOPS。特此更正。

型号定位显存FP4 算力FP8 算力TDP(推测)
MI455X旗舰训练+推理432GB HBM440 PFLOPS20 PFLOPS~1,000W
MI450高性价比训练288GB HBM428 PFLOPS14 PFLOPS~800W
MI440X企业推理216GB HBM425 PFLOPS12.5 PFLOPS~600W
MI430XHPC / 科学计算192GB HBM420 PFLOPS10 PFLOPS~500W
MI400X通用 / 边缘推理128GB HBM412 PFLOPS6 PFLOPS~400W

关键升级(vs MI350系列)

  • 显存:HBM3e → HBM4,容量提升 50%(432GB vs 288GB)
  • 带宽:19.6 TB/s(vs MI350的 8 TB/s,提升 2.45×
  • 算力:FP4 40 PFLOPS(vs MI355X的 20 PFLOPS,提升
  • 制程:2nm + 3nm 混合制程(GCD用2nm,MCD用3nm)
  • 架构:CDNA 5(vs MI350的 CDNA 4)

与MI355X的性能对比

指标MI355X(2025)MI455X(2026)提升
FP4算力20 PFLOPS40 PFLOPS
FP8算力10 PFLOPS20 PFLOPS
显存容量288GB HBM3e432GB HBM41.5×
显存带宽8 TB/s19.6 TB/s2.45×
制程TSMC 3nm2nm + 3nm 混合新一代
架构CDNA 4CDNA 5新一代
TDP800-1000W~1,000W持平

苏姿丰在CES 2026上说

"4年前,MI250的AI性能是X。现在,MI455X的性能提升了1000倍。这就是AI芯片的进步速度。"

CDNA 5架构详解

MI400系列采用CDNA 5架构(MI355X用CDNA 4):

关键升级

  1. Matrix Core 升级:支持FP8/INT8/FP16,稀疏化加速
  2. HBM4控制器:支持12层HBM4( vs HBM3e的8层)
  3. Infinity Fabric 4.0:Die间/Die-GPU间互联带宽提升50%
  4. 稀疏化原生支持:MoE模型的Expert Parallel优化
  5. 长上下文优化:1M+ token KV Cache加速

与NVIDIA Blackwell / Rubin对比

指标AMD MI455XNVIDIA B200NVIDIA Rubin R200(2026 Q4)
FP4算力40 PFLOPS20 PFLOPS(稀疏 45 PFLOPS)~40 PFLOPS(推测)
FP8算力20 PFLOPS10 PFLOPS(稀疏 22.5 PFLOPS)~20 PFLOPS(推测)
显存432GB HBM4192GB HBM3e288GB HBM4
显存带宽19.6 TB/s8 TB/s13 TB/s
TDP~1,000W700-1000W~1,000W
制程2nm + 3nm 混合TSMC 4npTSMC 3nm
量产时间2026年Q42024年Q42026年Q4
软件生态ROCmCUDACUDA
优势显存容量、开放生态生态最成熟下一代架构
劣势软件生态差距显存较小尚未发布

结论:MI455X在FP4/FP8算力显存容量/带宽上领先B200,但软件生态仍是短板。与Rubin R200相比,纸面性能相近,但Rubin有CUDA生态护城河。

量产时间表

时间事件
2025年6月12日Advancing AI大会首次公布MI400系列规格
2026年1月5日CES 2026正式发布MI455X/MI450/MI440X
2026年Q3MI450开始送样
2026年Q4MI455X正式量产
2026年Q4MI440X(企业推理版)发布
2027年Q1MI430X/MI400X(HPC/边缘推理版)发布
2027年MI500系列(下一代)

AMD AI芯片路线图(2025-2027)

时间产品制程备注
2024年Q4MI325XTSMC 5nmHBM3e升级版
2025年Q3MI355X(MI350系列)TSMC 3nmCDNA 4,288GB HBM3e
2026年Q4MI455X(MI400系列)2nm + 3nm 混合CDNA 5,432GB HBM4
2027年Q1MI500系列TSMC 2nm(推测)下一代,性能再提升

软件生态:ROCm的进步与挑战

✅ 进步

  • PyTorch 2.5+:原生支持MI300X/MI455X
  • Hugging Face Transformers:官方支持AMD GPU
  • vLLM 0.8+:MI300X推理支持(实验性)
  • JAX:AMD正在适配(对标Google TPU)

⚠️ 挑战

  • 框架优化度:PyTorch在AMD GPU上的性能仍低于NVIDIA
  • 算子覆盖率:部分小众算子需要自己写HIP代码
  • 多卡通信:RCCL(对标NCCL)性能仍有差距
  • 开发者生态:教程、案例、社区活跃度远不及NVIDIA

与竞品对比

厂商产品FP4算力显存量产时间优势劣势
AMDMI455X40 PFLOPS432GB HBM42026 Q4显存容量最大、开放生态软件生态差距
NVIDIAB20020 PFLOPS192GB HBM3e2024 Q4生态最成熟显存较小
NVIDIARubin R200~40 PFLOPS288GB HBM42026 Q4下一代架构、CUDA生态价格昂贵
华为昇腾910C~1.6 PFLOPS64GB HBM2026 Q2中国本土化受出口管制
GoogleTPU 8t~9.2 PFLOPS~256GB HBM3e2027年底与Gemini集成仅Google Cloud

行业影响

1. 对NVIDIA的冲击

AMD MI455X在纸面性能上已经追上B200(FP4 40 PFLOPS vs 20 PFLOPS),甚至在显存容量上大幅领先(432GB vs 192GB)。

  • NVIDIA有CUDA生态护城河
  • NVIDIA有Vera Rubin平台(整体方案,2026 Q4发布)
  • AMD只能卖单卡/单机,NVIDIA卖AI工厂
  • MI455X量产时间(2026 Q4)与Rubin R200相同,正面竞争

2. 对国产芯片的压力

MI455X的发布意味着:国际主流AI芯片在2026年将进入2nm + HBM4时代

国产芯片(华为昇腾、寒武纪、沐曦等)需要:

  • 在2026-2027年追上5nm + HBM3e水平
  • 否则差距将从"1代"扩大到"2代"

3. 对云服务商的意义

MI455X给云服务商提供了NVIDIA之外的第二选择

  • 微软Azure:已部署MI355X,可能跟进MI455X
  • 谷歌Cloud:自研TPU,不会用AMD
  • 亚马逊AWS:自研Trainium/Inferentia,不会用AMD
  • 阿里云、腾讯云:可能采购MI455X作为NVIDIA替代方案

相关芯片

参考资料


本文基于AMD CES 2026官方公告、百度百科及知乎智东西现场报道整理,规格参数已核对官方来源。2026-06-16更新:修正MI455X显存(288GB → 432GB)和算力(FP8 6 PFLOPS → FP4 40 PFLOPS)

Intel Gaudi 4 / Jaguar Shores 最新进展:重返AI竞赛,HBM4内存加持

· 7 min read
AI Compute Cards Wiki Editorial
Industry Research Team

2026年3月18日,Intel在Intel AI Summit上正式发布:Habana Gaudi 4定制AI加速卡。这是Intel在Gaudi 3(2024年4月发布)之后的最新一代AI训练/推理芯片,专为大规模模型训练设计。

同时,Intel确认下一代Jaguar Shores GPU(数据中心GPU)正在研发中,将采用HBM4内存,预计2027年发布。这标志着Intel正式重返AI芯片竞赛。

核心亮点

  • Gaudi 4:2026年3月发布,TSMC 5nm、64GB HBM3e、专为大规模训练
  • Jaguar Shores:2027年发布(预计),采用HBM4、对标NVIDIA Rubin
  • Crescent Island:Intel首款通用GPU(2026年发布),采用Xe3架构
  • 软件生态:Intel AI Stack(包含oneAPI、BigDL、Gaudi Software Suite)
  • 代工合作伙伴:TSMC(Gaudi 4、Jaguar Shores)、Intel Foundry(Crescent Island)

Gaudi 4 详细规格

Gaudi 4是Intel旗下Habana Labs(2019年收购)设计的第四代AI加速卡。

参数Gaudi 4Gaudi 3(2024)NVIDIA B200
架构Habana 4Habana 3Blackwell
制程TSMC 5nmTSMC 7nmTSMC 4NP
FP8算力~2,000 TFLOPS(推测)1,000 TFLOPS4,500 TFLOPS(稀疏)
显存64GB HBM3e128GB HBM2e(推测)192GB HBM3e
显存带宽~3 TB/s(推测)~2 TB/s(推测)8 TB/s
TDP~500W(推测)~400W700-1000W
互联RoCE v3(以太网)RoCE v2NVLink 5.0
发布时间2026年3月2024年4月2024年3月
量产时间2026年Q3(推测)2024年Q42024年Q4

📌 :Gaudi 4具体规格尚未完全公开,上表部分为推测值。

Gaudi 4的关键特性

  1. 以太网原生支持:采用RoCE v3(RDMA over Converged Ethernet),无需专用互联协议(如NVLink)
  2. 大规模扩展优化:万卡集群扩展效率优于InfiniBand(成本更低)
  3. 稀疏化加速:MoE模型原生支持
  4. 多精度支持:FP8/FP16/FP32/INT8/INT4
  5. 开放生态:支持PyTorch、TensorFlow、JAX(通过第三方适配)

Jaguar Shores:Intel的下一代GPU

Jaguar Shores是Intel首款真正意义上的数据中心GPU(不是Gaudi那样的ASIC)。

为什么叫"Jaguar Shores"?

  • Jaguar:美洲豹,代表"速度"和"敏捷"
  • Shores:海岸,代表"开放"和"连接"(对标NVIDIA的"海岸"命名风格?)

Jaguar Shores 推测规格

参数Jaguar Shores(推测)NVIDIA RubinAMD MI455X
架构Xeu 3(推测)RubinCDNA 4
制程TSMC 3nm(推测)TSMC 3nmTSMC 3nm
显存HBM4(确认)HBM4HBM4
显存容量288GB(推测)288GB288GB
FP8算力~4,000 TFLOPS(推测)~6,000 TFLOPS6,000 TFLOPS
TDP~800W(推测)~1,000W~800W
发布时间2027年(预计)2026年Q32026年Q3

关键确认

  • HBM4内存:Intel已确认Jaguar Shores将采用SK海力士的HBM4内存
  • TSMC代工:Jaguar Shores将由TSMC生产(不是Intel Foundry)
  • oneAPI原生支持:Jaguar Shores将原生支持oneAPI编程模型

Crescent Island:Intel的首款通用GPU

Crescent Island是Intel在2025年10月公布的首款通用数据中心GPU,采用Xe3架构(Xe-HPG的升级版)。

参数Crescent Island(推测)Intel Data Center GPU MaxNVIDIA L40S
架构Xeu 3Xeu 2(Ponte Vecchio)Ada Lovelace
定位通用计算+AI推理HPC+AI训练AI推理+图形
制程TSMC 5nm(推测)Intel 7 + TSMC 5nmTSMC 4N
显存48GB HBM3(推测)128GB HBM2e48GB GDDR6
TDP~300W(推测)600W350W
发布时间2026年(预计)2023年1月2023年3月

定位

  • 通用GPU:既能做AI推理,也能做科学计算(HPC)
  • 低成本:价格比Gaudi 4更低,对标NVIDIA L40S
  • 开放标准:支持oneAPI、SYCL、Level Zero

Intel AI芯片路线图(2024-2027)

时间产品类型制程备注
2024年Q4Gaudi 3AI ASICTSMC 7nm当前主力
2026年Q2Crescent Island通用GPUTSMC 5nm新发布
2026年Q3Gaudi 4AI ASICTSMC 5nm新发布
2027年Jaguar Shores数据中心GPUTSMC 3nm下一代旗舰
2027年Gaudi 5(推测)AI ASICTSMC 3nm下一代

与竞品对比

Gaudi 4 vs NVIDIA B200

指标Gaudi 4NVIDIA B200
FP8算力~2,000 TFLOPS4,500 TFLOPS
显存64GB HBM3e192GB HBM3e
互联以太网(RoCE v3)NVLink 5.0
软件生态Gaudi Software SuiteCUDA
价格推测 ~$20,000~$45,000
优势以太网成本低、开放生态最成熟、性能最强
劣势软件生态弱、算力低价格昂贵

结论:Gaudi 4的定位是**"性价比训练方案"**,适合对成本敏感、且愿意投入软件适配的客户。

Jaguar Shores vs NVIDIA Rubin

指标Jaguar Shores(推测)NVIDIA Rubin
FP8算力~4,000 TFLOPS~6,000 TFLOPS
显存288GB HBM4288GB HBM4
软件生态oneAPICUDA
量产时间2027年2026年Q3
优势开放标准、可能更便宜生态成熟、先发优势
劣势生态弱、晚1年价格昂贵

结论:Jaguar Shores如果能按时发布,且oneAPI生态有足够改善,可以成为NVIDIA的第三选择(仅次于NVIDIA和AMD)。

软件生态:oneAPI的进步与挑战

oneAPI是什么?

oneAPI是Intel推出的开放、跨架构编程模型

  • 支持CPU、GPU、FPGA、AI加速器
  • 基于SYCL标准(类似CUDA的C++扩展)
  • 开源实现(Intel oneAPI Base Toolkit)

Intel AI Stack

组件用途对标
oneAPI跨架构编程模型CUDA
BigDL分布式深度学习框架PyTorch Distributed
Gaudi Software SuiteGaudi专用软件栈NVIDIA GPU Cloud (NGC)
Intel Extension for PyTorchPyTorch在Intel硬件上的优化NVIDIA PyTorch
Intel Optimization for TensorFlowTensorFlow在Intel硬件上的优化NVIDIA TensorFlow

✅ 进步

  • PyTorch 2.5+:Intel Extension已集成到PyTorch主线
  • Hugging Face Transformers:官方支持Intel GPU(通过optimum-intel)
  • vLLM:实验性支持Gaudi(性能待验证)

⚠️ 挑战

  • 开发者习惯:全球AI开发者都用CUDA,oneAPI学习曲线陡峭
  • 算子覆盖率:很多PyTorch算子还没有oneAPI优化版本
  • 性能:same功耗下,Gaudi 4性能只有B200的50%左右

行业影响

1. Intel能否重返AI竞赛?

挑战

  • 生态劣势:CUDA护城河太深,oneAPI难以撼动
  • 性能劣势:Gaudi 4性能只有B200的50%
  • 时间劣势:Jaguar Shores比Rubin晚1年

机会

  • 开放标准:不依赖CUDA,适合"反NVIDIA垄断"的客户
  • 以太网优势:RoCE v3在万卡集群上成本低于InfiniBand
  • ✅ ** Intel Foundry**:如果Jaguar Shores能用Intel自家工艺生产,成本更低

2. 对AMD的影响

Intel重返AI竞赛,对AMD是坏事:

  • AMD本来是"NVIDIA唯一替代品"
  • 现在Intel也回来了,AMD的"替代品"地位受到挑战
  • 但短期内(2026-2027),Intel还无法威胁AMD

3. 对国产芯片的影响

Intel Gaudi 4的发布,对国产芯片是参考案例:

  • 证明以太网路线(RoCE)可行
  • 证明开放生态(oneAPI)虽难但有必要
  • 证明性价比路线有市场(成本敏感客户)

相关芯片

参考资料


本文基于Intel官方公告及公开资料整理,部分规格为推测值,以Intel官方最终发布为准。