跳到主要内容

Microsoft Maia 200 (微软第二代 AI 推理加速器)

产品概述

Microsoft Maia 200 是微软于 2026年1月26日 发布的第二代自研 AI 加速器,专为超大规模 AI 推理打造。采用台积电 3nm 制程,集成超过 1,400 亿晶体管,单芯片 FP4 算力超过 10 PFLOPS,FP8 算力超过 5 PFLOPS。首次在微软自研芯片中引入原生 FP8/FP4 张量核心,并搭载 216GB HBM3e 内存和 7TB/s 超高带宽。

定位:Maia 200 是微软首个性能最高的自研硅芯片,也是 Azure 部署过的性价比最高的推理系统——相比 Azure fleet 中的最新一代硬件,每美元性能提升 30%

核心规格

项目参数
架构Maia 200 SoC(Tile-Cluster-SoC 三级分层架构)
制程TSMC 3nm(N3P)
晶体管数超过 1,400 亿
FP4 算力10+ PFLOPS(原生张量核心)
FP8 算力5+ PFLOPS(原生张量核心)
HBM 类型HBM3e
HBM 容量216 GB
HBM 带宽7 TB/s
片上 SRAM272 MB
Scale-up 带宽2.8 TB/s(单加速器双向)
TDP750 W
集群规模最多 6,144 个加速器
网络基于标准以太网的两层 scale-up 网络
发布时间2026年1月26日
首发部署美国爱荷华州得梅因附近(US Central)
后续部署美国亚利桑那州凤凰城附近(US West 3)

架构细节

Tile-Cluster-SoC 三级分层架构

  • Tile(瓦片):基本计算单元,包含张量核心、SRAM、DMA 引擎
  • Cluster(集群):多个 Tile 通过片上网络(NoC)连接,共享 L2 SRAM
  • SoC(系统级芯片):多个 Cluster 通过全局 NoC 连接,外接 HBM3e 和高速网络

内存子系统优化

  • 针对窄精度数据类型优化:FP4/FP8 数据宽度小,内存带宽是关键瓶颈
  • 专用 DMA 引擎:高带宽数据传输,减少 CPU 干预
  • 272MB 片上 SRAM:存储热点权重和激活值,减少 HBM 访问次数
  • 专用片上网络(NoC):高带宽、低延迟的片上通信

扩展网络设计

  • 基于标准以太网:无需依赖专有网络架构(如 NVIDIA NVLink)
  • 两层 scale-up 网络:通过自定义传输层和紧密集成的 NIC 实现
  • 统一 Maia AI 传输协议:节点内、机架内、机架间的无差别通信,最小化网络跳数
  • 支持最多 6,144 个加速器集群:可实现可预测的、高性能的集合通信操作

与竞品对比

指标Maia 200AWS Trainium 3Google TPU v7NVIDIA H200
FP4 算力10+ PFLOPS~3.3 PFLOPS~5 PFLOPS(估算)1.98 PFLOPS
FP8 算力5+ PFLOPS~6.6 PFLOPS~5 PFLOPS1.97 PFLOPS
HBM 容量216 GB128 GB(估算)192 GB141 GB
HBM 带宽7 TB/s~3.5 TB/s(估算)~4 TB/s4.8 TB/s
制程TSMC 3nmTSMC 4nm(估算)TSMC 4nmTSMC 4NP
集群规模6,14416,384(Trn2 UltraCluster)9,216(Ironwood)576(NVL576)
每美元性能+30%(vs Azure 上一代)

关键优势:Maia 200 的 FP4 性能是 AWS Trainium 3 的 3 倍,FP8 性能超过 Google TPU v7

Azure 部署与生态

首发部署区域

  • US Central(美国爱荷华州得梅因附近):2026年1月起
  • US West 3(美国亚利桑那州凤凰城附近):即将部署
  • 未来扩展:更多 Azure 区域将陆续部署

支持的工作负载

  • OpenAI GPT-5.2 系列:为 Microsoft Foundry 和 Microsoft 365 Copilot 提供算力
  • 微软超智能团队:用于合成数据生成和强化学习,优化下一代自研模型
  • 合成数据管道:独特设计加速高质量、领域特定数据的生成和过滤

Maia SDK(预览版)

  • Triton 编译器:针对 Maia 200 架构优化的内核编译
  • PyTorch 支持:无缝迁移现有 PyTorch 模型
  • NPL 低级编程语言:细粒度控制需求
  • Maia 模拟器和成本计算器:在代码生命周期早期优化效率

能效与 TCO

指标Maia 200Azure 上一代硬件
每美元性能+30%基准
功耗(单加速器)750W~800-1,000W(估算)
散热方案第二代闭环液冷换热器单元(HXU)风冷/液冷混合
TCO(总拥有成本)降低(能效提升 + 以太网标准网络)基准

与前代 Maia 100 对比

指标Maia 100(2023)Maia 200(2026)提升
制程TSMC 5nmTSMC 3nm更先进
晶体管数~500 亿(估算)1,400 亿+2.8×
FP4 支持❌ 不支持支持新增
FP8 支持✅ 支持(非原生)原生张量核心优化
HBM 容量64 GB(估算)216 GB3.4×
HBM 带宽~1.6 TB/s(估算)7 TB/s4.4×
TDP500W(估算)750W1.5×
部署规模数千(Azure)6,144+扩大

技术亮点

1. 原生 FP4/FP8 张量核心

  • FP4:4位浮点,模型显存占用减少 75%(vs FP16),推理吞吐量提升
  • FP8:8位浮点,精度接近 FP16,算力比 FP16 提升
  • 稀疏优化:支持结构化稀疏,FP4 稀疏模式算力可达 20+ PFLOPS

2. 以太网标准网络

  • 无需专有网络:基于标准以太网的 scale-up 设计,降低部署成本和复杂性
  • 自定义传输层:针对 AI 工作负载优化,性能接近专有网络
  • 两层网络拓扑:最小化网络跳数,提升大规模集群性能

3. 液冷原生设计

  • 第二代 HXU:闭环液冷换热器单元,原生支持数据中心部署
  • 芯片级遥测:实时监测温度、电压、频率,提升可靠性
  • Azure 控制平面集成:芯片和机架级别的安全、遥测、诊断和管理

发布时间与获取方式

  • 官方发布:2026年1月26日(微软执行副总裁 Scott Guthrie 在官方博客发布)
  • 首发部署:2026年1月起,US Central 区域
  • 获取方式仅通过 Azure 云服务(不单独销售物理芯片)
    • Microsoft Foundry(原 Azure AI)
    • Microsoft 365 Copilot
    • Azure 虚拟机(Maia 200 实例)
  • Maia SDK 预览版:已开放申请

外部链接