Skip to main content

机柜级 AI 时代:NVL72 vs Helios vs Groq 3 LPX vs Trn3 UltraServer 四大方案对比

· 7 min read
AI Compute Cards Wiki Editorial
Industry Research Team

2026 年 AI 算力进入"机柜级"时代。单芯片对标已退潮,整机柜方案成为主战场。本文将深度对比 NVIDIA Rubin NVL72/NVL576、AMD Helios、Groq 3 LPX、AWS Trn3 UltraServer、Google TPU 8t pod 五大机柜级方案。

为什么是机柜级时代?

单芯片对标的局限

单芯片指标2018 (V100)2024 (H100)2026 (Rubin R200)2028 (推测)
算力125 TFLOPS989 TFLOPS25 PFLOPS80 PFLOPS
显存32 GB80 GB288 GB1 TB
TDP300 W700 W1,800 W3,000 W

单芯片 TDP 即将突破 3,000W——物理散热、电源、互联都达到极限。

机柜级的优势

  • 统一散热:液冷整柜,散热效率高
  • 统一电源:集中供电,能效优化
  • 统一互联:NVLink 6 / UALoF / GroqSync / NeuronLink
  • 统一管理:单系统软件栈
  • 统一采购:单 SKU 购买,简化运维

五大机柜级方案

1. NVIDIA Rubin NVL72 / NVL576

项目Rubin NVL72Rubin NVL576
GPU 数72576
CPU 数36288
HBM 总量20.7 TB HBM4165 TB HBM4
显存带宽1.6 PB/s12.7 PB/s
NVLink 聚合252 TB/s2,016 TB/s
FP4 稀疏算力3.6 EFLOPS28.8 EFLOPS
FP8 稀疏算力1.8 EFLOPS14.4 EFLOPS
DC 网络ConnectX-9 1152 端口ConnectX-9 1152 端口
TDP(机柜)~130 kW~1 MW
散热液冷液冷
适用100B+ 模型训练1T+ 巨型模型
价格~$3-5M~$25-40M
发布时间2026 H22026 H2+

Rubin NVL576 = 28.8 EFLOPS FP4 = 1.5 ExaFLOPS FP8 = 全球最强 AI 超级节点

2. AMD Helios 机柜

项目Helios
GPU 数72 颗 MI400
CPU 数36 颗 EPYC Venice
HBM 总量31.1 TB HBM4
显存带宽1.4 PB/s
Scale-up 互联UALoF 260 TB/s(开放标准)
Scale-out 网络Pensando Vulcano 800G
FP4 dense 算力2.88 EFLOPS
FP8 dense 算力1.44 EFLOPS
TDP(机柜)~80 kW
散热液冷
适用700B+ 模型训练
价格~$2-3M
发布时间2026

Helios 在 dense 算力上超越 NVIDIA Rubin NVL72(2.88 vs 1.8 EF FP8 dense)

3. NVIDIA Groq 3 LPX 机柜(推理专用)

项目Groq 3 LPX
LPU 数256 颗 Groq 3 LPU
CPU 数无(独立)
片上 SRAM128 GB 聚合
SRAM 带宽40 PB/s(SRAM,非 HBM)
互联GroqSync + NVLink-Network 640 TB/s
FP8 算力~640 PFLOPS
INT8 算力~640,000 TOPS
TDP(机柜)~80 kW
TTFT(首 Token 延迟)< 20ms
TPOT< 5ms
散热液冷
适用超低延迟推理(Agentic AI)
价格~$8-10M
发布时间2026 H2

Groq 3 LPX 是当前唯一专为 Agentic AI 设计的机柜级 LPU 系统

4. AWS Trn3 UltraServer

项目Trn3 UltraServer
芯片数144 颗 Trainium 3
HBM 总量~20.7 TB
NeuronLink-v4全互联,>10 TB/s 双向
FP8 dense 算力52 PFLOPS
BF16 dense 算力~187 PFLOPS
TDP(机柜)~100 kW
散热液冷
适用400B+ 模型训练
价格(推测)~$3-5M
发布时间2025-12 GA

Trn3 UltraServer = 性价比最高的大规模训练方案(每美元性能 2-3× NVIDIA)

5. Google TPU 8t pod

项目TPU 8t pod
芯片数9,216 颗 TPU 8t
HBM 总量~2 PB HBM
互联3D Torus
集成 CPUArm Axion(每节点 64 核)
BF16 dense 算力~32 PFLOPS × 9,216 = 295 EFLOPS
FP8 dense 算力~590 EFLOPS
散热液冷
适用Gemini 3/4 训练
价格仅 Google Cloud
发布时间2026-04-22

TPU 8t pod = 全球最大 AI 训练集群(9,216 颗芯片 × 9 PFLOPS ≈ 83 EFLOPS FP4 dense)

五大方案横向对比

指标NVIDIA NVL72AMD HeliosGroq 3 LPXTrn3 UltraServerTPU 8t pod
形态训练机柜训练机柜推理机柜训练机柜训练 pod
芯片数72 GPU72 GPU256 LPU144 chip9,216 chip
总内存20.7 TB HBM31.1 TB HBM128 GB SRAM20.7 TB HBM~2 PB HBM
互联NVLink 6 252 TB/sUALoF 260 TB/sGroqSync 640 TB/sNeuronLink-v43D Torus
FP4 算力3.6 EF (sparse)2.88 EF (dense)
FP8 算力1.8 EF (sparse)1.44 EF (dense)640 PF52 PF (dense)590 EF (dense)
TDP130 kW80 kW80 kW100 kW~10 MW (pod)
TTFT~100ms~100ms< 20ms~100ms~100ms
生态CUDA 13ROCm 8Groq SDKNeuron 3JAX 0.5+
价格$3-5M$2-3M$8-10M$3-5M内部使用
客户所有云 + 客户客户 + 云客户 + 云AWS CloudGoogle Cloud
标准化❌ NVLink 封闭✅ UALoF 开放❌ GroqSync❌ NeuronLink❌ Torus
发布时间2026 H220262026 H22025-12 GA2026-04

选型建议

大规模训练

场景推荐方案理由
100B-700B 模型训练NVIDIA Rubin NVL72单机柜可装 100B,FP4 算力最强
700B-1T 模型训练NVIDIA Rubin NVL576 或 AMD Helios多机柜互联
1T+ 巨型模型训练NVIDIA NVL576 (8 个)28.8 EFLOPS × 8 = 230 EFLOPS
超大规模 (Gemini 级)Google TPU 8t pod (9,216 chip)仅 Google Cloud
AWS 内部训练Trn3 UltraServer性价比最高
开放生态偏好AMD HeliosUALoF 开放互联

超低延迟推理

场景推荐方案理由
Agentic AI (1000+ 调用/秒)Groq 3 LPXTTFT < 20ms,唯一选择
Real-time Code Gen(Copilot)Groq 3 LPX100ms 以内响应
万亿参数推理NVIDIA Rubin R200 + Groq 3 LPX 协同GPU 训练 + LPU 推理
70B 单模型推理TPU 8i(288GB HBM)单卡可装 FP16 70B
多模态实时推理TPU 8i(风冷)散热灵活

成本敏感训练

场景推荐方案理由
百亿参数训练AWS Trn3 UltraServer每美元性能 2-3× NVIDIA
超大规模 (Gemini 外)AWS Trn3 UltraServer × N$3-5M/机柜
70B 微调AMD Helios 单机柜性价比 + 开放生态
千亿参数训练Trn3 UltraServer × 3144 × 3 = 432 chip

机柜级的未来趋势

1. 单机柜算力持续增长

年份单机柜算力主流方案
2024~0.2 EFLOPS FP8GB200 NVL72
20261.8-3.6 EFLOPS FP8Rubin NVL72 / Helios
20288-15 EFLOPS FP8Rubin Ultra NVL72 / MI500
203030-50 EFLOPS FP8Feynman 时代

2. 多机柜互联标准竞争

标准厂商状态
NVLink NetworkNVIDIA封闭,2026 主力
UALoFAMD/Broadcom/Intel开放,2026 Helios 首发
UALink联盟UALoF 演进版
NeuronLinkAWS私有
GroqSyncGroq (NVIDIA)私有,超低延迟

3. 软件生态分层

  • 训练框架:PyTorch + JAX + Megatron
  • 推理引擎:vLLM + TensorRT-LLM + SGLang
  • 资源调度:Slurm + Kubernetes + Ray
  • 多机柜管理:NVIDIA Base Command / AMD ROCm RunTime

详细产品页

总结

2026 年 AI 算力的主战场是机柜级方案:

  1. NVIDIA Rubin NVL72/NVL576——训练最强,FP4 3.6/28.8 EFLOPS
  2. AMD Helios——开放生态,dense 算力领先
  3. Groq 3 LPX——超低延迟推理,TTFT < 20ms
  4. AWS Trn3 UltraServer——性价比最高,2-3× 每美元
  5. Google TPU 8t pod——超大规模,9,216 chip 集群

没有最好,只有最合适。选型需结合:

  • 模型规模(100B / 700B / 1T+)
  • 训练 vs 推理
  • 延迟要求(普通 vs Agentic)
  • 生态偏好(CUDA / ROCm / JAX / Neuron)
  • 预算($2-10M/机柜)
  • 部署位置(自建 / 云)