跳到主要内容

AMD ROCm / GPU

厂商: AMD

分类: GPU 图形处理器

架构: CDNA 4 / CDNA 3 / CDNA 2

简介

AMD Radeon 显卡与 Instinct 计算卡的 GPU 计算平台。ROCm(Radeon Open Compute)是 AMD 的开源 GPU 计算平台,支持 Radeon RX、Radeon PRO、Instinct MI 系列。

规格参数

型号算力显存/内存接口TDP制程
MI350X待公布 (FP8)288GB HBM3EOAM待公布3nm (CDNA 4)
MI325X2,614 TFLOPS (FP8) / 1,307 (FP16)256GB HBM3EOAM750W5nm (CDNA 3)
MI300X2,614 TFLOPS (FP8) / 1,307 (FP16)192GB HBM3OAM750W5nm (CDNA 3)
MI300A983 TFLOPS (FP8) / 246 (FP16)128GB HBM3OAM (CPU+GPU)750W5nm (CDNA 3)
MI250X383 TFLOPS (FP16)128GB HBM2eOAM560W6nm (CDNA 2)
RX 7900 XTX61 TFLOPS (FP32)24GB GDDR6PCIe 4.0355WRDNA 3

官方网站

访问官方网站

驱动下载

Windows

Linux

相关文档

操作系统支持

WindowsLinuxmacOSAndroid
⚠️ (部分支持)

版本历史

版本发布时间说明
ROCm 6.12024-Q4MI300X 全面支持
ROCm 6.02024-Q1PyTorch 2.x 原生集成
ROCm 5.72023-Q3CDNA 3 支持

性能基准

型号任务性能指标
MI300X × 8GPT-3 175B 训练~1.5 天 (MLPerf)
MI300XLlama 2 70B 推理~95 tok/s (FP16)
MI250X × 8BERT-Large 训练~85% H100 效率
RX 7900 XTXStable Diffusion XL~2.2s/img

定价信息

型号参考价格备注
MI300X$12,000-16,000性价比高于 H100
MI250X$8,000-12,000上一代数据中心卡
RX 7900 XTX¥4,099-4,999消费级旗舰

快速安装

Linux (Ubuntu 22.04)

# 1. 添加 ROCm 仓库
wget https://repo.radeon.com/amdgpu-install/6.1/ubuntu/jammy/amdgpu-install_6.1.60100-1_all.deb
sudo dpkg -i amdgpu-install_6.1.60100-1_all.deb
sudo amdgpu-install --usecase=rocm

# 2. 验证安装
rocminfo
/opt/rocm/bin/rocm-smi

ROCm 目前官方仅支持 Linux,Windows 支持处于预览阶段。

代码示例

Python (PyTorch ROCm)

import torch

# ROCm 使用 HIP 后端,API 与 CUDA 一致
assert torch.cuda.is_available(), "ROCm GPU not found"
print(f"GPU: {torch.cuda.get_device_name(0)}")
print(f"HIP version: {torch.version.hip}")

# PyTorch ROCm 版本可直接运行 CUDA 代码
x = torch.randn(2048, 2048).cuda()
y = torch.matmul(x, x)
print(f"HIP matrix multiply: {y.shape}")

PyTorch ROCm 版本需从 pytorch.org 单独下载,选择 ROCm 对应版本。

架构特色

  • CDNA 3 架构 (MI300): Chiplet 设计,CPU+GPU 封装在同一基板上 (MI300A);Infinity Fabric 互联
  • 开源策略: ROCm 完全开源,包括计算运行时、编译器和库
  • HIP 兼容层: HIP API 与 CUDA 高度兼容,CUDA 代码只需少量修改即可移植

模型兼容性

模型/框架支持情况备注
PyTorch✅ 原生ROCm 后端,API 兼容 CUDA
TensorFlow⚠️ 有限通过 PluggableDevice 支持
JAX通过插件支持
Llama 等 LLMvLLM / llama.cpp 均支持 ROCm
Stable DiffusionDirectML / ROCm 后端
WhisperOpenAI Whisper 原生支持

大规模集群部署

基于全球 AI 超算集群数据统计,AMD ROCm 在已公开的集群部署中累计超过 145,952 颗芯片,分布在 17 个集群中。

芯片型号统计

芯片型号总部署量集群数
AMD Radeon Instinct MI250X68,6727
AMD Instinct MI300A51,6965
AMD Instinct MI300X20,3843
AMD Instinct MI2105,2002

知名部署集群 Top 10

#集群名称芯片总数芯片型号运营方
1Lawrence Livermore NL El Capitan Phase 244,544AMD Instinct MI300A ×44,544US Department of Energy, United States of America
2Oak Ridge NL Frontier37,632AMD Radeon Instinct MI250X ×37,632US Department of Energy, United States of America
3Oracle OCI MI300x16,384AMD Instinct MI300X ×16,384Oracle, United States of America
4Eni HPC613,888AMD Radeon Instinct MI250X ×13,888Eni, Italy
5EuroHPC LUMI11,912AMD Radeon Instinct MI250X ×11,912EuroHPC JU, Finland
6Lawrence Livermore NL Tuolumne4,608AMD Instinct MI300A ×4,608US Department of Energy, United States of America
7Core42 AI-034,320AMD Instinct MI210 ×4,320G42, United Arab Emirates
8Vultr Chicago Cluster3,000AMD Instinct MI300X ×3,000Vultr, United States of America
9Microsoft Explorer-WUS31,920AMD Radeon Instinct MI250X ×1,920Microsoft, United States of America
10Sandia NL El Dorado1,520AMD Instinct MI300A ×1,520US Department of Energy, United States of America

相关产品

如果你在评估替代方案,以下产品可能也适合你的场景: