Skip to main content

NPU (Neural Processing Unit) 架构

什么是 NPU

NPU(Neural Processing Unit)专为神经网络推理设计的处理器,广义上包括所有"非 GPU、非 CPU"的 AI 加速器。狭义上特指端侧 / 边缘低功耗 AI 芯片(区别于数据中心的 ASIC/WSE/LPU)。

典型 NPU:Huawei Ascend、Intel Gaudi、Hailo、Apple Neural Engine(SoC 集成)。

NPU vs GPU vs TPU

维度NPUGPUTPU
主要定位推理(部分训练)训练 + 推理训练 + 推理
部署场景边缘 / 端侧 / 数据中心数据中心 / 工作站仅 Google Cloud
功耗< 100W100-1000W100-700W
生态分散(厂商 SDK)CUDA 成熟JAX/TF
通用性
编程厂商 SDKCUDAXLA

主要 NPU 厂商

Huawei 昇腾(达芬奇架构)

  • Ascend 910B / 910C / 910D:数据中心训练 + 推理
  • Ascend 310:边缘推理(10-22W)
  • MindSpore 生态
  • 中国市场主导

Intel Gaudi(Habana Labs)

  • Gaudi 1 / 2 / 3:数据中心训练 + 推理
  • SynapseAI SDK
  • 性价比路线

Hailo

  • Hailo-8 / 8L / 15:边缘视觉 AI 推理
  • Dataflow Architecture(类 WSE)
  • < 10W 超低功耗

Apple Neural Engine

  • 集成于 M-Series / A-Series SoC
  • 16-76 TOPS(按 SoC 代际)
  • 端侧 Apple Intelligence

端侧 NPU(PC 集成)

  • Intel Meteor Lake / Lunar Lake / Arrow Lake-H / Panther Lake
  • AMD Ryzen AI (XDNA)(基于 Xilinx)
  • Qualcomm Hexagon NPU(Snapdragon X Elite)
  • Apple M-Series ANE

主流 NPU 规格对比

NPU算力TDP内存部署
Huawei Ascend 910C780 TFLOPS BF16310W128GB HBM2e数据中心
Huawei Ascend 310P22 TOPS INT88W24GB LPDDR4X边缘
Intel Gaudi 31,835 TFLOPS BF16900W128GB HBM2e数据中心
Hailo-826 TOPS2.5W4GB边缘
Apple M4 ANE38 TOPS集成共享 UMA端侧
Qualcomm Hexagon NPU45 TOPS集成共享端侧 PC

NPU 适用场景

  • 边缘 / 端侧 AI 推理(低功耗、永远在线)
  • ✅ 数据中心定制 AI 加速(华为、Intel)
  • ✅ 大模型推理优化(特定模型)
  • ✅ 端侧 GenAI(Apple Intelligence、Copilot+ PC)
  • ❌ 通用 AI 训练(应使用 GPU / TPU)
  • ❌ 大模型训练(H100/B200 更优)

详细产品页

Huawei Ascend(达芬奇架构)

Intel Gaudi(Habana Labs)

Intel Core Ultra(端侧 PC NPU)

Qualcomm(端侧 PC + 移动 NPU)

MediaTek(移动 NPU)

  • MediaTek Dimensity 9400 - 3nm N3E, Cortex-X925, NPU 890 第八代, 全球首款 Agentic AI 引擎, 端侧 LoRA 训练

Apple(端侧 ANE)

韩国 AI 三剑客(数据中心 + 边缘 NPU)

国产 AI 创业(数据中心 NPU)

边缘 NPU

  • Hailo-15 - 2024-Q4 7-20 TOPS AI-ISP Gen3 视觉 AI
  • Hailo-8 - 2019, 26 TOPS 2.5W 边缘长青树

相关架构