跳到主要内容

Apple Silicon GPU

厂商: Apple

分类: GPU 图形处理器

架构: Apple GPU (统一内存架构)

简介

Apple M 系列芯片(M1/M2/M3/M4/Pro/Max/Ultra)内置 GPU,通过 Metal 3 框架提供 GPU 加速计算。统一内存架构允许 CPU 和 GPU 共享内存,非常适合 AI 推理和机器学习。

规格参数

型号算力显存/内存接口TDP制程
M4 Ultra27 TFLOPS (FP16)256GB 统一内存集成 SoC150WN3E (3nm)
M3 Max18 TFLOPS (FP16)128GB 统一内存集成 SoC100WN3B (3nm)
M2 Ultra15 TFLOPS (FP16)192GB 统一内存集成 SoC100WN5 (5nm)

官方网站

访问官方网站

驱动下载

macOS

Linux

相关文档

操作系统支持

WindowsLinuxmacOSAndroid
⚠️ (Asahi Linux)

版本历史

版本发布时间说明
Metal 32023M3 系列支持 mesh shading
Core ML 72024M4 NPU 深度集成

性能基准

型号任务性能指标
M4 UltraLlama 3 70B 推理 (MLX)~25 tok/s (量化)
M3 MaxLlama 3 8B 推理~40 tok/s (4-bit)
M2 UltraStable Diffusion XL~3.5s/img (batch=1)
M4Whisper-large-v3~6x 实时转录

定价信息

型号参考价格备注
M4 Ultra (Mac Pro/Studio)¥49,999 起需整机购买,不可单独采购
M3 Max (MacBook Pro)¥27,999 起笔记本形态
M2 Ultra (Mac Studio)¥29,999 起已逐步被 M4 取代

快速安装

macOS (MLX 框架)

# 1. 安装 MLX (Apple 官方 ML 框架)
pip install mlx

# 2. 安装 MLX 示例模型
python -m mlx_lm.generate --model mlx-community/Llama-3.2-1B-4bit --max-tokens 50

macOS (llama.cpp MPS 后端)

# 1. 编译 llama.cpp (自动启用 Metal)
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make LLAMA_METAL=1

# 2. 运行推理
./llama-cli -m models/llama-3.2-1b.Q4_K_M.gguf -p "你好"

代码示例

Python (MLX)

import mlx.core as mx

# 在 Apple Silicon GPU 上创建张量
x = mx.random.normal((1024, 1024))
y = mx.matmul(x, x)
print(f"Apple GPU matrix multiply: {y.shape}")
print(f"Device: {mx.default_device()}")

Python (PyTorch MPS 后端)

import torch

if torch.backends.mps.is_available():
x = torch.randn(1024, 1024, device="mps")
y = torch.matmul(x, x)
print(f"MPS matrix multiply: {y.shape}")

架构特色

  • 统一内存架构 (UMA): CPU 和 GPU 共享同一块内存,无需数据拷贝,对 LLM 推理尤其有利 — 模型加载无显存瓶颈
  • Metal 框架: Apple 低级图形/计算 API,性能接近 CUDA
  • MLX 框架: Apple 官方 ML 框架,专为 Apple Silicon 优化,支持延迟加载和统一内存

模型兼容性

模型/框架支持情况备注
PyTorch✅ MPS 后端部分算子可能回退 CPU
MLX✅ 原生Apple 官方框架,推荐
llama.cpp✅ Metal 后端本地 LLM 推理首选
Llama / Qwen 等 LLMMLX-LM / llama.cpp 均可
Stable Diffusion通过 MPS / Core ML
WhisperMLX-Whisper

相关产品

如果你在评估替代方案,以下产品可能也适合你的场景: