3 篇博文含有标签「HBM4」

HBM4 high bandwidth memory

AMD Advancing AI 2026明日开幕：MI400三款CDNA5齐发，Helios机架3 exaFLOPS，OpenAI+Meta锁定12GW大单

2026年7月11日 · 阅读需 5 分钟

AI Hardware Analyst

AMD 已确认旗舰 AI 大会 Advancing AI 2026 将于 2026年7月22-23日 在旧金山 Moscone Center 举行，主题演讲定于 7 月 23 日，由董事长兼 CEO 苏姿丰（Lisa Su）主持。大会将补全 Instinct MI400 系列 的可用性时间线、定价与独立基准数据。

1. Instinct MI400 家族：三款 CDNA 5 加速器

AMD 在 CES 2026 已完整公布 MI400 产品矩阵，三款加速器均基于 CDNA 5 架构、TSMC 2nm 制程，按精度与场景分工：

型号	定位	关键规格
MI455X（旗舰）	大规模训练/推理（机架级）	3200 亿晶体管、12 chiplet、432 GB HBM4（12×36GB）、19.6 TB/s、FP4 40 PFLOPS / FP8 20 PFLOPS
MI440X（企业版）	本地企业 AI（8 卡节点）	低精度 AI（FP4/FP8/BF16），可直接替换 MI300/MI350，兼容既有机房供电散热
MI430X（HPC/主权 AI）	高精度科学计算 + AI	完整 FP32/FP64，已部署橡树岭 Discovery、法国首台 exascale Alice Recoque

MI455X 与 MI440X 主攻低精度 AI（FP4/FP8/BF16），MI430X 补齐传统 HPC 高精度需求——通过"按精度裁减执行单元"提升能效与性价比。三者均支持 UALink（首批兼容该标准的加速器）与 Infinity Fabric 片间互联，机架扩展走 Ultra Ethernet。

苏姿丰在 2026 Q1 财报会上确认：已向核心客户送样 MI455X GPU，客户需求"超过公司对 2027 年的内部预期"。

2. Helios 机架：3 exaFLOPS 单柜

AMD 以 Helios 机架级平台 切入超大规模市场：

指标	Helios 机架
加速器	72 × MI455X
聚合 HBM4	31 TB
总内存带宽	1.4 PB/s
单柜算力	最高 3 AI exaFLOPS（Q3 交付目标）
目标客户	超大规模训练/推理集群

Helios 采用 AMD 自研 Zen 6 EPYC Venice CPU（每机架 18 颗）+ Pensando Vulcano 800G NIC，通过开放 ROCm 软件栈整合；AMD 还规划了 双宽 128 卡 Helios 变体，单柜算力可推高至 3 AI exaFLOPS 上限。更长远的 MI500 系列（CDNA 6、2nm、HBM4E） 计划 2027 年推出，官方称相对 MI300X 的 AI 性能提升最高达 1000 倍。

3. 12GW 大单：OpenAI + Meta 双重背书

AMD 手握两份历史级别的算力协议，合计约 12 GW，全生命周期潜在收入或达 1000 亿美元：

客户	规模	首批部署	结构
OpenAI	6 GW（多代产品）	首期 1 GW，2026 H2 用 MI450	"compute-for-upside"：授予最多 1.6 亿股认股权证，随里程碑与股价目标分阶段归属
Meta	6 GW	定制 MI450 芯片，2026 H2 起	部署于下一代数据中心

财务预期

指标	2026 预测
MI400 系列营收	~$72 亿（约占数据中心销售 25%）
数据中心 GPU 营收	~$150 亿（同比 +114%）
数据中心总营收	或达 $287 亿（同比 +73%）

⚠️ 执行风险：AMD 已提示 MI450 于 Q3 量产将拖累毛利率（新品低于公司平均）；先进制程与先进封装（TSMC CoWoS）产能仍是主要约束。

产业解读

CUDA 护城河被撬动：当 Meta、OpenAI 这类构建全球最大训练集群的公司押注 AMD 硅片，AMD 长期 5–7% 的 GPU 份额天花板正被打破。
内存优势差异化：432 GB HBM4 / 19.6 TB/s 相较 NVIDIA Rubin 的 288 GB 具备容量优势，对大模型推理（KV Cache 受限场景）尤为关键。
对标节奏咬紧：MI450 与 NVIDIA Vera Rubin 同在 2026 H2 放量，两强在 HBM4 供应、CoWoS 产能上正面争夺。

参考资料

本文写于 Advancing AI 2026（7月22-23日，明日开幕）前夕；大会主题演讲定于 7 月 23 日由苏姿丰主持，届时将揭晓 MI400 最终上市时间、定价与独立基准数据，我们将同步更新。

NVIDIA Vera Rubin正式出货：首台VR200 NVL72交付，三星HBM4量产，Rubin Ultra机柜天价

2026年7月10日 · 阅读需 5 分钟

AI Compute Cards Wiki Editorial

Industry Research Team

2026年7月，NVIDIA 下一代 AI 计算平台 Vera Rubin 正式启动首批出货，接替 Blackwell 架构，并计划在 2026 年下半年进入大规模量产。首批客户包括微软、谷歌、亚马逊、Meta、Oracle 等大型云服务商。

1. 全球首台 VR200 NVL72 交付（里程碑）

CoreWeave 联合 Dell 宣布，全球首台 NVIDIA Vera Rubin VR200 NVL72 机柜已正式交付，并一次性通过 L11 全机柜级硬件诊断测试。这标志着 Rubin 从路线图走向实物，供应链核心环节（HBM4、先进封装、液冷、超高功率电源）未出现重大卡点。

VR200 NVL72 核心配置

指标	Vera Rubin VR200 NVL72
机柜代号	Oberon
GPU	72 块 Rubin GPU
CPU	36 颗 Vera CPU
单 GPU 显存	288 GB HBM4
单 CPU 内存	1.5 TB LPDDR5X
整柜 HBM4	20.7 TB（20,736 GB）
整柜 LPDDR5X	54 TB
互联	NVLink 6 全互联
推理性能	~3.6 exaFLOPS 级别
散热	液冷
代际提升	单 GPU 计算约 3.5×、内存带宽约 2.8×（对比 Blackwell）

Vera CPU 集成 88 个定制 Olympus ARM 核心，与 GPU 间互联带宽 1.8 TB/s，可作为 GPU 显存扩展池。NVIDIA 已于 5 月完成对 Anthropic、OpenAI、xAI 及 Oracle Cloud 的首批 Vera CPU 交付。

2. 三星 HBM4 量产：关键瓶颈松动

2026年7月8日，三星电子正式启动面向 Vera Rubin 平台的 HBM4 量产，据报道其 HBM4 量产良率达到 70%（超出 60–65% 的初始预期）。这一关键供应链环节的确认，为 Rubin 大规模部署扫清障碍。

HBM 供应格局（2026 Q1）	份额
SK 海力士	45%
三星	40%
美光	15%

HBM4 采用 8 层堆叠（12 层设计计划 2028 年），价格约为 HBM3e 的 2.8 倍。TrendForce 预测 HBM 供给将年增 65%，到 2027 Q4 HBM4 占总产出的 35%。

3. Rubin Ultra 天价：HBM 成本主导

据美国银行全球研究（BofA Global Research）测算，Rubin 一代将把单台服务器成本推向历史新高：

成本项	Rubin VR200（Oberon）	对比
单柜 HBM4 用量	20,736 GB	—
HBM4 单价	~$18.40 / GB	Blackwell（HBM3e）~$11.26 / GB
仅 HBM4 成本	~$38.2 万	尚未计入 LPDDR5X
Rubin Ultra 机柜预估售价	~$2,100 万	IT 之家 / BofA 估算

4. Rubin Ultra 设计调整：原 4 芯片方案取消（据 SemiAnalysis）

半导体研究机构 SemiAnalysis（2026-06-30） 披露，GTC 2026 发布的原版 4 芯片 Rubin Ultra GPU 已被取消，2027 年实际出货的版本规模与性能均缩减约一半：

取消原因：原版在单一 CoWoS-L 封装内集成 4 颗计算 die + 16 颗 HBM4E，基板在 4 die 配置下出现翘曲（warpage），导致计算 die 与基板接触失效、良率崩塌；替代方案 CoPoS 量产要等到 2028 年底以后，赶不上 2027 节点。
新方案：改为 双 die（与标准 Rubin 同构）+ HBM4E，单 GPU 约 384 GB HBM4E（高于标准 Rubin 的 288 GB），但总算力与带宽仅为原版一半；为逼近原设计的聚合算力，NVIDIA 预计在 Kyber 机架内以"2+2"板级配置 拼出四 die 等效规模。
Kyber 机架延迟：配套 Kyber NVL144 机架因中板 PCB 制造难题推迟 12 个月以上至 2028 年，800V 直流供电方案同样推迟至 2028 年。

⚠️ 口径提示：NVIDIA 未就上述设计调整发表官方评论；X 平台亦有声音认为"芯片数量并未改变、属旧闻翻炒"。本段基于 SemiAnalysis 公开报告整理，最终以 NVIDIA 官方披露为准。我们已在 Rubin Ultra 预览卡中标注"规格待官方确认"。

产业解读

"Never doubt"时刻兑现：Rubin 首发交付一次性通过 L11，打消了市场对"Rubin 延期"的疑虑，2026 H2 AI 算力供应确定性提前锁定。
专为 Agentic AI 设计：Rubin 面向智能体工作流、超长上下文推理，将进一步压低万亿参数模型的训练/推理成本曲线。
HBM 是全链条赢家：单机柜 20.7 TB HBM4 用量巨大，SK 海力士、三星、美光及先进封装（CoWoS-L）、液冷、电力改造全链条受益，同时也成为成本与产能的最大约束。

参考资料

本文持续跟踪 Vera Rubin 量产爬坡与 HBM4 供应链动态。

AMD MI455X CES 2026 震撼发布：4年AI芯片性能涨1000倍

2026年6月16日 · 阅读需 7 分钟

AI Compute Cards Wiki Editorial

Industry Research Team

2026年1月5日，在CES 2026（国际消费电子展）首日，AMD董事会主席兼CEO苏姿丰博士在主题演讲中震撼发布：Instinct MI400系列AI加速卡。

其中最引人注目的是MI455X——AMD史上性能最强的AI加速卡，采用2nm + 3nm混合制程、432GB HBM4显存、FP4算力高达40 PFLOPS（FP8为20 PFLOPS）。

核心亮点

MI455X：FP4算力40 PFLOPS，FP8算力20 PFLOPS，相比MI355X提升10×
MI450：高性价比版，FP4算力28 PFLOPS，288GB HBM4
制程升级：全球首款采用2nm + 3nm混合制程的AI芯片（GCD用2nm，MCD用3nm）
显存升级：从MI350X的288GB HBM3e升级到432GB HBM4（MI455X）
带宽升级：从MI350X的8 TB/s升级到19.6 TB/s（提升2.45×）
架构升级：从CDNA 4升级到CDNA 5
量产时间：MI455X 2026年Q4，MI450 2026年Q3

MI400系列完整规格

📌 重要更正（2026-06-16）：经官方规格核对，MI455X 显存为 432GB HBM4（非早期报道的 288GB），FP4 算力为 40 PFLOPS。特此更正。

型号	定位	显存	FP4 算力	FP8 算力	TDP（推测）
MI455X	旗舰训练+推理	432GB HBM4	40 PFLOPS	20 PFLOPS	~1,000W
MI450	高性价比训练	288GB HBM4	28 PFLOPS	14 PFLOPS	~800W
MI440X	企业推理	216GB HBM4	25 PFLOPS	12.5 PFLOPS	~600W
MI430X	HPC / 科学计算	192GB HBM4	20 PFLOPS	10 PFLOPS	~500W
MI400X	通用 / 边缘推理	128GB HBM4	12 PFLOPS	6 PFLOPS	~400W

关键升级（vs MI350系列）：

显存：HBM3e → HBM4，容量提升 50%（432GB vs 288GB）
带宽：19.6 TB/s（vs MI350的 8 TB/s，提升 2.45×）
算力：FP4 40 PFLOPS（vs MI355X的 20 PFLOPS，提升 2×）
制程：2nm + 3nm 混合制程（GCD用2nm，MCD用3nm）
架构：CDNA 5（vs MI350的 CDNA 4）

与MI355X的性能对比

指标	MI355X（2025）	MI455X（2026）	提升
FP4算力	20 PFLOPS	40 PFLOPS	2×
FP8算力	10 PFLOPS	20 PFLOPS	2×
显存容量	288GB HBM3e	432GB HBM4	1.5×
显存带宽	8 TB/s	19.6 TB/s	2.45×
制程	TSMC 3nm	2nm + 3nm 混合	新一代
架构	CDNA 4	CDNA 5	新一代
TDP	800-1000W	~1,000W	持平

苏姿丰在CES 2026上说：

"4年前，MI250的AI性能是X。现在，MI455X的性能提升了1000倍。这就是AI芯片的进步速度。"

CDNA 5架构详解

MI400系列采用CDNA 5架构（MI355X用CDNA 4）：

关键升级

Matrix Core 升级：支持FP8/INT8/FP16，稀疏化加速
HBM4控制器：支持12层HBM4（ vs HBM3e的8层）
Infinity Fabric 4.0：Die间/Die-GPU间互联带宽提升50%
稀疏化原生支持：MoE模型的Expert Parallel优化
长上下文优化：1M+ token KV Cache加速

与NVIDIA Blackwell / Rubin对比

指标	AMD MI455X	NVIDIA B200	NVIDIA Rubin R200（2026 Q4）
FP4算力	40 PFLOPS	20 PFLOPS（稀疏 45 PFLOPS）	~40 PFLOPS（推测）
FP8算力	20 PFLOPS	10 PFLOPS（稀疏 22.5 PFLOPS）	~20 PFLOPS（推测）
显存	432GB HBM4	192GB HBM3e	288GB HBM4
显存带宽	19.6 TB/s	8 TB/s	13 TB/s
TDP	~1,000W	700-1000W	~1,000W
制程	2nm + 3nm 混合	TSMC 4np	TSMC 3nm
量产时间	2026年Q4	2024年Q4	2026年Q4
软件生态	ROCm	CUDA	CUDA
优势	显存容量、开放生态	生态最成熟	下一代架构
劣势	软件生态差距	显存较小	尚未发布

结论：MI455X在FP4/FP8算力和显存容量/带宽上领先B200，但软件生态仍是短板。与Rubin R200相比，纸面性能相近，但Rubin有CUDA生态护城河。

量产时间表

时间	事件
2025年6月12日	Advancing AI大会首次公布MI400系列规格
2026年1月5日	CES 2026正式发布MI455X/MI450/MI440X
2026年Q3	MI450开始送样
2026年Q4	MI455X正式量产
2026年Q4	MI440X（企业推理版）发布
2027年Q1	MI430X/MI400X（HPC/边缘推理版）发布
2027年	MI500系列（下一代）

AMD AI芯片路线图（2025-2027）

时间	产品	制程	备注
2024年Q4	MI325X	TSMC 5nm	HBM3e升级版
2025年Q3	MI355X（MI350系列）	TSMC 3nm	CDNA 4，288GB HBM3e
2026年Q4	MI455X（MI400系列）	2nm + 3nm 混合	CDNA 5，432GB HBM4
2027年Q1	MI500系列	TSMC 2nm（推测）	下一代，性能再提升

软件生态：ROCm的进步与挑战

✅ 进步

PyTorch 2.5+：原生支持MI300X/MI455X
Hugging Face Transformers：官方支持AMD GPU
vLLM 0.8+：MI300X推理支持（实验性）
JAX：AMD正在适配（对标Google TPU）

⚠️ 挑战

框架优化度：PyTorch在AMD GPU上的性能仍低于NVIDIA
算子覆盖率：部分小众算子需要自己写HIP代码
多卡通信：RCCL（对标NCCL）性能仍有差距
开发者生态：教程、案例、社区活跃度远不及NVIDIA

与竞品对比

厂商	产品	FP4算力	显存	量产时间	优势	劣势
AMD	MI455X	40 PFLOPS	432GB HBM4	2026 Q4	显存容量最大、开放生态	软件生态差距
NVIDIA	B200	20 PFLOPS	192GB HBM3e	2024 Q4	生态最成熟	显存较小
NVIDIA	Rubin R200	~40 PFLOPS	288GB HBM4	2026 Q4	下一代架构、CUDA生态	价格昂贵
华为	昇腾910C	~1.6 PFLOPS	64GB HBM	2026 Q2	中国本土化	受出口管制
Google	TPU 8t	~9.2 PFLOPS	~256GB HBM3e	2027年底	与Gemini集成	仅Google Cloud

行业影响

1. 对NVIDIA的冲击

AMD MI455X在纸面性能上已经追上B200（FP4 40 PFLOPS vs 20 PFLOPS），甚至在显存容量上大幅领先（432GB vs 192GB）。

但：

NVIDIA有CUDA生态护城河
NVIDIA有Vera Rubin平台（整体方案，2026 Q4发布）
AMD只能卖单卡/单机，NVIDIA卖AI工厂
MI455X量产时间（2026 Q4）与Rubin R200相同，正面竞争

2. 对国产芯片的压力

MI455X的发布意味着：国际主流AI芯片在2026年将进入2nm + HBM4时代。

国产芯片（华为昇腾、寒武纪、沐曦等）需要：

在2026-2027年追上5nm + HBM3e水平
否则差距将从"1代"扩大到"2代"

3. 对云服务商的意义

MI455X给云服务商提供了NVIDIA之外的第二选择：

微软Azure：已部署MI355X，可能跟进MI455X
谷歌Cloud：自研TPU，不会用AMD
亚马逊AWS：自研Trainium/Inferentia，不会用AMD
阿里云、腾讯云：可能采购MI455X作为NVIDIA替代方案

参考资料

MI455X芯片 - 百度百科 - 官方规格参数
AMD甩出最猛两代AI芯片！全球首推432GB HBM4 - 知乎 - 智东西现场报道
对标英伟达：AMD推出MI440X，抢攻企业级AI数据中心市场 - 腾讯新闻
AMD MI400上了432GB HBM4：纸面参数碾压NVIDIA - CocoLoop
AMD CES 2026主题演讲回放

本文基于AMD CES 2026官方公告、百度百科及知乎智东西现场报道整理，规格参数已核对官方来源。2026-06-16更新：修正MI455X显存（288GB → 432GB）和算力（FP8 6 PFLOPS → FP4 40 PFLOPS）

3 篇博文含有标签「HBM4」

AMD Advancing AI 2026明日开幕：MI400三款CDNA5齐发，Helios机架3 exaFLOPS，OpenAI+Meta锁定12GW大单

1. Instinct MI400 家族：三款 CDNA 5 加速器

2. Helios 机架：3 exaFLOPS 单柜

3. 12GW 大单：OpenAI + Meta 双重背书

财务预期

产业解读

相关链接

参考资料

NVIDIA Vera Rubin正式出货：首台VR200 NVL72交付，三星HBM4量产，Rubin Ultra机柜天价

1. 全球首台 VR200 NVL72 交付（里程碑）

VR200 NVL72 核心配置

2. 三星 HBM4 量产：关键瓶颈松动

3. Rubin Ultra 天价：HBM 成本主导

4. Rubin Ultra 设计调整：原 4 芯片方案取消（据 SemiAnalysis）

产业解读

相关链接

参考资料

AMD MI455X CES 2026 震撼发布：4年AI芯片性能涨1000倍

核心亮点

MI400系列完整规格

与MI355X的性能对比

CDNA 5架构详解

关键升级

与NVIDIA Blackwell / Rubin对比

量产时间表

AMD AI芯片路线图（2025-2027）

软件生态：ROCm的进步与挑战

✅ 进步

⚠️ 挑战

与竞品对比

行业影响

1. 对NVIDIA的冲击

2. 对国产芯片的压力

3. 对云服务商的意义

相关芯片

参考资料

1. Instinct MI400 家族：三款 CDNA 5 加速器​

2. Helios 机架：3 exaFLOPS 单柜​

3. 12GW 大单：OpenAI + Meta 双重背书​

财务预期​

产业解读​

相关链接​

参考资料​

1. 全球首台 VR200 NVL72 交付（里程碑）​

VR200 NVL72 核心配置​

2. 三星 HBM4 量产：关键瓶颈松动​

3. Rubin Ultra 天价：HBM 成本主导​

4. Rubin Ultra 设计调整：原 4 芯片方案取消（据 SemiAnalysis）​

产业解读​

相关链接​

参考资料​

核心亮点​

MI400系列完整规格​

与MI355X的性能对比​

CDNA 5架构详解​

关键升级​

与NVIDIA Blackwell / Rubin对比​

量产时间表​

AMD AI芯片路线图（2025-2027）​

软件生态：ROCm的进步与挑战​

✅ 进步​

⚠️ 挑战​

与竞品对比​

行业影响​

1. 对NVIDIA的冲击​

2. 对国产芯片的压力​

3. 对云服务商的意义​

相关芯片​

参考资料​

1. Instinct MI400 家族：三款 CDNA 5 加速器

2. Helios 机架：3 exaFLOPS 单柜

3. 12GW 大单：OpenAI + Meta 双重背书

财务预期

产业解读

相关链接

参考资料

1. 全球首台 VR200 NVL72 交付（里程碑）

VR200 NVL72 核心配置

2. 三星 HBM4 量产：关键瓶颈松动

3. Rubin Ultra 天价：HBM 成本主导

4. Rubin Ultra 设计调整：原 4 芯片方案取消（据 SemiAnalysis）

产业解读

相关链接

参考资料

核心亮点

MI400系列完整规格

与MI355X的性能对比

CDNA 5架构详解

关键升级

与NVIDIA Blackwell / Rubin对比

量产时间表

AMD AI芯片路线图（2025-2027）

软件生态：ROCm的进步与挑战

✅ 进步

⚠️ 挑战

与竞品对比

行业影响

1. 对NVIDIA的冲击

2. 对国产芯片的压力

3. 对云服务商的意义

相关芯片

参考资料