2 posts tagged with "AI Accelerator"

AI accelerators and custom chips

View all tags

AMD MI455X CES 2026 震撼发布：4年AI芯片性能涨1000倍

June 16, 2026 · 7 min read

AI Compute Cards Wiki Editorial

Industry Research Team

2026年1月5日，在CES 2026（国际消费电子展）首日，AMD董事会主席兼CEO苏姿丰博士在主题演讲中震撼发布：Instinct MI400系列AI加速卡。

其中最引人注目的是MI455X——AMD史上性能最强的AI加速卡，采用2nm + 3nm混合制程、432GB HBM4显存、FP4算力高达40 PFLOPS（FP8为20 PFLOPS）。

核心亮点

MI455X：FP4算力40 PFLOPS，FP8算力20 PFLOPS，相比MI355X提升10×
MI450：高性价比版，FP4算力28 PFLOPS，288GB HBM4
制程升级：全球首款采用2nm + 3nm混合制程的AI芯片（GCD用2nm，MCD用3nm）
显存升级：从MI350X的288GB HBM3e升级到432GB HBM4（MI455X）
带宽升级：从MI350X的8 TB/s升级到19.6 TB/s（提升2.45×）
架构升级：从CDNA 4升级到CDNA 5
量产时间：MI455X 2026年Q4，MI450 2026年Q3

MI400系列完整规格

📌 重要更正（2026-06-16）：经官方规格核对，MI455X 显存为 432GB HBM4（非早期报道的 288GB），FP4 算力为 40 PFLOPS。特此更正。

型号	定位	显存	FP4 算力	FP8 算力	TDP（推测）
MI455X	旗舰训练+推理	432GB HBM4	40 PFLOPS	20 PFLOPS	~1,000W
MI450	高性价比训练	288GB HBM4	28 PFLOPS	14 PFLOPS	~800W
MI440X	企业推理	216GB HBM4	25 PFLOPS	12.5 PFLOPS	~600W
MI430X	HPC / 科学计算	192GB HBM4	20 PFLOPS	10 PFLOPS	~500W
MI400X	通用 / 边缘推理	128GB HBM4	12 PFLOPS	6 PFLOPS	~400W

关键升级（vs MI350系列）：

显存：HBM3e → HBM4，容量提升 50%（432GB vs 288GB）
带宽：19.6 TB/s（vs MI350的 8 TB/s，提升 2.45×）
算力：FP4 40 PFLOPS（vs MI355X的 20 PFLOPS，提升 2×）
制程：2nm + 3nm 混合制程（GCD用2nm，MCD用3nm）
架构：CDNA 5（vs MI350的 CDNA 4）

与MI355X的性能对比

指标	MI355X（2025）	MI455X（2026）	提升
FP4算力	20 PFLOPS	40 PFLOPS	2×
FP8算力	10 PFLOPS	20 PFLOPS	2×
显存容量	288GB HBM3e	432GB HBM4	1.5×
显存带宽	8 TB/s	19.6 TB/s	2.45×
制程	TSMC 3nm	2nm + 3nm 混合	新一代
架构	CDNA 4	CDNA 5	新一代
TDP	800-1000W	~1,000W	持平

苏姿丰在CES 2026上说：

"4年前，MI250的AI性能是X。现在，MI455X的性能提升了1000倍。这就是AI芯片的进步速度。"

CDNA 5架构详解

MI400系列采用CDNA 5架构（MI355X用CDNA 4）：

关键升级

Matrix Core 升级：支持FP8/INT8/FP16，稀疏化加速
HBM4控制器：支持12层HBM4（ vs HBM3e的8层）
Infinity Fabric 4.0：Die间/Die-GPU间互联带宽提升50%
稀疏化原生支持：MoE模型的Expert Parallel优化
长上下文优化：1M+ token KV Cache加速

与NVIDIA Blackwell / Rubin对比

指标	AMD MI455X	NVIDIA B200	NVIDIA Rubin R200（2026 Q4）
FP4算力	40 PFLOPS	20 PFLOPS（稀疏 45 PFLOPS）	~40 PFLOPS（推测）
FP8算力	20 PFLOPS	10 PFLOPS（稀疏 22.5 PFLOPS）	~20 PFLOPS（推测）
显存	432GB HBM4	192GB HBM3e	288GB HBM4
显存带宽	19.6 TB/s	8 TB/s	13 TB/s
TDP	~1,000W	700-1000W	~1,000W
制程	2nm + 3nm 混合	TSMC 4np	TSMC 3nm
量产时间	2026年Q4	2024年Q4	2026年Q4
软件生态	ROCm	CUDA	CUDA
优势	显存容量、开放生态	生态最成熟	下一代架构
劣势	软件生态差距	显存较小	尚未发布

结论：MI455X在FP4/FP8算力和显存容量/带宽上领先B200，但软件生态仍是短板。与Rubin R200相比，纸面性能相近，但Rubin有CUDA生态护城河。

量产时间表

时间	事件
2025年6月12日	Advancing AI大会首次公布MI400系列规格
2026年1月5日	CES 2026正式发布MI455X/MI450/MI440X
2026年Q3	MI450开始送样
2026年Q4	MI455X正式量产
2026年Q4	MI440X（企业推理版）发布
2027年Q1	MI430X/MI400X（HPC/边缘推理版）发布
2027年	MI500系列（下一代）

AMD AI芯片路线图（2025-2027）

时间	产品	制程	备注
2024年Q4	MI325X	TSMC 5nm	HBM3e升级版
2025年Q3	MI355X（MI350系列）	TSMC 3nm	CDNA 4，288GB HBM3e
2026年Q4	MI455X（MI400系列）	2nm + 3nm 混合	CDNA 5，432GB HBM4
2027年Q1	MI500系列	TSMC 2nm（推测）	下一代，性能再提升

软件生态：ROCm的进步与挑战

✅ 进步

PyTorch 2.5+：原生支持MI300X/MI455X
Hugging Face Transformers：官方支持AMD GPU
vLLM 0.8+：MI300X推理支持（实验性）
JAX：AMD正在适配（对标Google TPU）

⚠️ 挑战

框架优化度：PyTorch在AMD GPU上的性能仍低于NVIDIA
算子覆盖率：部分小众算子需要自己写HIP代码
多卡通信：RCCL（对标NCCL）性能仍有差距
开发者生态：教程、案例、社区活跃度远不及NVIDIA

与竞品对比

厂商	产品	FP4算力	显存	量产时间	优势	劣势
AMD	MI455X	40 PFLOPS	432GB HBM4	2026 Q4	显存容量最大、开放生态	软件生态差距
NVIDIA	B200	20 PFLOPS	192GB HBM3e	2024 Q4	生态最成熟	显存较小
NVIDIA	Rubin R200	~40 PFLOPS	288GB HBM4	2026 Q4	下一代架构、CUDA生态	价格昂贵
华为	昇腾910C	~1.6 PFLOPS	64GB HBM	2026 Q2	中国本土化	受出口管制
Google	TPU 8t	~9.2 PFLOPS	~256GB HBM3e	2027年底	与Gemini集成	仅Google Cloud

行业影响

1. 对NVIDIA的冲击

AMD MI455X在纸面性能上已经追上B200（FP4 40 PFLOPS vs 20 PFLOPS），甚至在显存容量上大幅领先（432GB vs 192GB）。

但：

NVIDIA有CUDA生态护城河
NVIDIA有Vera Rubin平台（整体方案，2026 Q4发布）
AMD只能卖单卡/单机，NVIDIA卖AI工厂
MI455X量产时间（2026 Q4）与Rubin R200相同，正面竞争

2. 对国产芯片的压力

MI455X的发布意味着：国际主流AI芯片在2026年将进入2nm + HBM4时代。

国产芯片（华为昇腾、寒武纪、沐曦等）需要：

在2026-2027年追上5nm + HBM3e水平
否则差距将从"1代"扩大到"2代"

3. 对云服务商的意义

MI455X给云服务商提供了NVIDIA之外的第二选择：

微软Azure：已部署MI355X，可能跟进MI455X
谷歌Cloud：自研TPU，不会用AMD
亚马逊AWS：自研Trainium/Inferentia，不会用AMD
阿里云、腾讯云：可能采购MI455X作为NVIDIA替代方案

参考资料

MI455X芯片 - 百度百科 - 官方规格参数
AMD甩出最猛两代AI芯片！全球首推432GB HBM4 - 知乎 - 智东西现场报道
对标英伟达：AMD推出MI440X，抢攻企业级AI数据中心市场 - 腾讯新闻
AMD MI400上了432GB HBM4：纸面参数碾压NVIDIA - CocoLoop
AMD CES 2026主题演讲回放

本文基于AMD CES 2026官方公告、百度百科及知乎智东西现场报道整理，规格参数已核对官方来源。2026-06-16更新：修正MI455X显存（288GB → 432GB）和算力（FP8 6 PFLOPS → FP4 40 PFLOPS）

Intel Gaudi 4 / Jaguar Shores 最新进展：重返AI竞赛，HBM4内存加持

June 16, 2026 · 7 min read

AI Compute Cards Wiki Editorial

Industry Research Team

2026年3月18日，Intel在Intel AI Summit上正式发布：Habana Gaudi 4定制AI加速卡。这是Intel在Gaudi 3（2024年4月发布）之后的最新一代AI训练/推理芯片，专为大规模模型训练设计。

同时，Intel确认下一代Jaguar Shores GPU（数据中心GPU）正在研发中，将采用HBM4内存，预计2027年发布。这标志着Intel正式重返AI芯片竞赛。

核心亮点

Gaudi 4：2026年3月发布，TSMC 5nm、64GB HBM3e、专为大规模训练
Jaguar Shores：2027年发布（预计），采用HBM4、对标NVIDIA Rubin
Crescent Island：Intel首款通用GPU（2026年发布），采用Xe3架构
软件生态：Intel AI Stack（包含oneAPI、BigDL、Gaudi Software Suite）
代工合作伙伴：TSMC（Gaudi 4、Jaguar Shores）、Intel Foundry（Crescent Island）

Gaudi 4 详细规格

Gaudi 4是Intel旗下Habana Labs（2019年收购）设计的第四代AI加速卡。

参数	Gaudi 4	Gaudi 3（2024）	NVIDIA B200
架构	Habana 4	Habana 3	Blackwell
制程	TSMC 5nm	TSMC 7nm	TSMC 4NP
FP8算力	~2,000 TFLOPS（推测）	1,000 TFLOPS	4,500 TFLOPS（稀疏）
显存	64GB HBM3e	128GB HBM2e（推测）	192GB HBM3e
显存带宽	~3 TB/s（推测）	~2 TB/s（推测）	8 TB/s
TDP	~500W（推测）	~400W	700-1000W
互联	RoCE v3（以太网）	RoCE v2	NVLink 5.0
发布时间	2026年3月	2024年4月	2024年3月
量产时间	2026年Q3（推测）	2024年Q4	2024年Q4

📌 注：Gaudi 4具体规格尚未完全公开，上表部分为推测值。

Gaudi 4的关键特性

以太网原生支持：采用RoCE v3（RDMA over Converged Ethernet），无需专用互联协议（如NVLink）
大规模扩展优化：万卡集群扩展效率优于InfiniBand（成本更低）
稀疏化加速：MoE模型原生支持
多精度支持：FP8/FP16/FP32/INT8/INT4
开放生态：支持PyTorch、TensorFlow、JAX（通过第三方适配）

Jaguar Shores：Intel的下一代GPU

Jaguar Shores是Intel首款真正意义上的数据中心GPU（不是Gaudi那样的ASIC）。

为什么叫"Jaguar Shores"？

Jaguar：美洲豹，代表"速度"和"敏捷"
Shores：海岸，代表"开放"和"连接"（对标NVIDIA的"海岸"命名风格？）

Jaguar Shores 推测规格

参数	Jaguar Shores（推测）	NVIDIA Rubin	AMD MI455X
架构	Xeu 3（推测）	Rubin	CDNA 4
制程	TSMC 3nm（推测）	TSMC 3nm	TSMC 3nm
显存	HBM4（确认）	HBM4	HBM4
显存容量	288GB（推测）	288GB	288GB
FP8算力	~4,000 TFLOPS（推测）	~6,000 TFLOPS	6,000 TFLOPS
TDP	~800W（推测）	~1,000W	~800W
发布时间	2027年（预计）	2026年Q3	2026年Q3

关键确认：

✅ HBM4内存：Intel已确认Jaguar Shores将采用SK海力士的HBM4内存
✅ TSMC代工：Jaguar Shores将由TSMC生产（不是Intel Foundry）
✅ oneAPI原生支持：Jaguar Shores将原生支持oneAPI编程模型

Crescent Island：Intel的首款通用GPU

Crescent Island是Intel在2025年10月公布的首款通用数据中心GPU，采用Xe3架构（Xe-HPG的升级版）。

参数	Crescent Island（推测）	Intel Data Center GPU Max	NVIDIA L40S
架构	Xeu 3	Xeu 2（Ponte Vecchio）	Ada Lovelace
定位	通用计算+AI推理	HPC+AI训练	AI推理+图形
制程	TSMC 5nm（推测）	Intel 7 + TSMC 5nm	TSMC 4N
显存	48GB HBM3（推测）	128GB HBM2e	48GB GDDR6
TDP	~300W（推测）	600W	350W
发布时间	2026年（预计）	2023年1月	2023年3月

定位：

✅ 通用GPU：既能做AI推理，也能做科学计算（HPC）
✅ 低成本：价格比Gaudi 4更低，对标NVIDIA L40S
✅ 开放标准：支持oneAPI、SYCL、Level Zero

Intel AI芯片路线图（2024-2027）

时间	产品	类型	制程	备注
2024年Q4	Gaudi 3	AI ASIC	TSMC 7nm	当前主力
2026年Q2	Crescent Island	通用GPU	TSMC 5nm	新发布
2026年Q3	Gaudi 4	AI ASIC	TSMC 5nm	新发布
2027年	Jaguar Shores	数据中心GPU	TSMC 3nm	下一代旗舰
2027年	Gaudi 5（推测）	AI ASIC	TSMC 3nm	下一代

与竞品对比

Gaudi 4 vs NVIDIA B200

指标	Gaudi 4	NVIDIA B200
FP8算力	~2,000 TFLOPS	4,500 TFLOPS
显存	64GB HBM3e	192GB HBM3e
互联	以太网（RoCE v3）	NVLink 5.0
软件生态	Gaudi Software Suite	CUDA
价格	推测 ~$20,000	~$45,000
优势	以太网成本低、开放	生态最成熟、性能最强
劣势	软件生态弱、算力低	价格昂贵

结论：Gaudi 4的定位是**"性价比训练方案"**，适合对成本敏感、且愿意投入软件适配的客户。

Jaguar Shores vs NVIDIA Rubin

指标	Jaguar Shores（推测）	NVIDIA Rubin
FP8算力	~4,000 TFLOPS	~6,000 TFLOPS
显存	288GB HBM4	288GB HBM4
软件生态	oneAPI	CUDA
量产时间	2027年	2026年Q3
优势	开放标准、可能更便宜	生态成熟、先发优势
劣势	生态弱、晚1年	价格昂贵

结论：Jaguar Shores如果能按时发布，且oneAPI生态有足够改善，可以成为NVIDIA的第三选择（仅次于NVIDIA和AMD）。

软件生态：oneAPI的进步与挑战

oneAPI是什么？

oneAPI是Intel推出的开放、跨架构编程模型：

支持CPU、GPU、FPGA、AI加速器
基于SYCL标准（类似CUDA的C++扩展）
开源实现（Intel oneAPI Base Toolkit）

Intel AI Stack

组件	用途	对标
oneAPI	跨架构编程模型	CUDA
BigDL	分布式深度学习框架	PyTorch Distributed
Gaudi Software Suite	Gaudi专用软件栈	NVIDIA GPU Cloud (NGC)
Intel Extension for PyTorch	PyTorch在Intel硬件上的优化	NVIDIA PyTorch
Intel Optimization for TensorFlow	TensorFlow在Intel硬件上的优化	NVIDIA TensorFlow

✅ 进步

PyTorch 2.5+：Intel Extension已集成到PyTorch主线
Hugging Face Transformers：官方支持Intel GPU（通过optimum-intel）
vLLM：实验性支持Gaudi（性能待验证）

⚠️ 挑战

开发者习惯：全球AI开发者都用CUDA，oneAPI学习曲线陡峭
算子覆盖率：很多PyTorch算子还没有oneAPI优化版本
性能：same功耗下，Gaudi 4性能只有B200的50%左右

行业影响

1. Intel能否重返AI竞赛？

挑战：

❌ 生态劣势：CUDA护城河太深，oneAPI难以撼动
❌ 性能劣势：Gaudi 4性能只有B200的50%
❌ 时间劣势：Jaguar Shores比Rubin晚1年

机会：

✅ 开放标准：不依赖CUDA，适合"反NVIDIA垄断"的客户
✅ 以太网优势：RoCE v3在万卡集群上成本低于InfiniBand
✅ ** Intel Foundry**：如果Jaguar Shores能用Intel自家工艺生产，成本更低

2. 对AMD的影响

Intel重返AI竞赛，对AMD是坏事：

AMD本来是"NVIDIA唯一替代品"
现在Intel也回来了，AMD的"替代品"地位受到挑战
但短期内（2026-2027），Intel还无法威胁AMD

3. 对国产芯片的影响

Intel Gaudi 4的发布，对国产芯片是参考案例：

证明以太网路线（RoCE）可行
证明开放生态（oneAPI）虽难但有必要
证明性价比路线有市场（成本敏感客户）

参考资料

本文基于Intel官方公告及公开资料整理，部分规格为推测值，以Intel官方最终发布为准。

核心亮点​

MI400系列完整规格​

与MI355X的性能对比​

CDNA 5架构详解​

关键升级​

与NVIDIA Blackwell / Rubin对比​

量产时间表​

AMD AI芯片路线图（2025-2027）​

软件生态：ROCm的进步与挑战​

✅ 进步​

⚠️ 挑战​

与竞品对比​

行业影响​

1. 对NVIDIA的冲击​

2. 对国产芯片的压力​

3. 对云服务商的意义​

相关芯片​

参考资料​

核心亮点​

Gaudi 4 详细规格​

Gaudi 4的关键特性​

Jaguar Shores：Intel的下一代GPU​

为什么叫"Jaguar Shores"？​

Jaguar Shores 推测规格​

Crescent Island：Intel的首款通用GPU​

Intel AI芯片路线图（2024-2027）​

与竞品对比​

Gaudi 4 vs NVIDIA B200​

Jaguar Shores vs NVIDIA Rubin​

软件生态：oneAPI的进步与挑战​

oneAPI是什么？​

Intel AI Stack​

✅ 进步​

⚠️ 挑战​

行业影响​

1. Intel能否重返AI竞赛？​

2. 对AMD的影响​

3. 对国产芯片的影响​

相关芯片​

参考资料​

核心亮点

MI400系列完整规格

与MI355X的性能对比

CDNA 5架构详解

关键升级

与NVIDIA Blackwell / Rubin对比

量产时间表

AMD AI芯片路线图（2025-2027）

软件生态：ROCm的进步与挑战

✅ 进步

⚠️ 挑战

与竞品对比

行业影响

1. 对NVIDIA的冲击

2. 对国产芯片的压力

3. 对云服务商的意义

相关芯片

参考资料

核心亮点

Gaudi 4 详细规格

Gaudi 4的关键特性

Jaguar Shores：Intel的下一代GPU

为什么叫"Jaguar Shores"？

Jaguar Shores 推测规格

Crescent Island：Intel的首款通用GPU

Intel AI芯片路线图（2024-2027）

与竞品对比

Gaudi 4 vs NVIDIA B200

Jaguar Shores vs NVIDIA Rubin

软件生态：oneAPI的进步与挑战

oneAPI是什么？

Intel AI Stack

✅ 进步

⚠️ 挑战

行业影响

1. Intel能否重返AI竞赛？

2. 对AMD的影响

3. 对国产芯片的影响

相关芯片

参考资料