Alibaba Hanguang 800 含光 800 (阿里推理, 2021)
产品概述
Alibaba 含光 800(Hanguang 800) 是阿里巴巴旗下 平头哥(T-Head) 半导体公司发布的第一代 AI 推理芯片,2019-09 杭州云栖大会发布,2021 量产。基于 TSMC 12nm,820 INT8 TOPS 算力(业界领先推理芯片),700 GB/s 内存带宽,168W TDP。配套 HALO(Hanguang Accelerated Linear Operator)软件栈。
战略意义:含光 800 是中国互联网公司自研 AI 芯片的开端,阿里内部淘宝搜索推荐、阿里云 PAI 平台、菜鸟物流调度 全部部署含光 800,替代 NVIDIA T4 / L4 推理。2021 阿里云营收 ¥100B+,AI 推理算力 70% 来自自研。
核心规格
| 项目 | 参数 |
|---|
| 架构 | Hanguang NPU(自研) |
| 制程 | TSMC 12nm |
| 计算核心 | 170,000 个 NPU Core(自研 ISA) |
| 片上 SRAM | 32MB |
| HBM | 32GB HBM2(4 个 stack) |
| 内存带宽 | 700 GB/s |
| INT8 | 820 TOPS |
| BF16 | 128 TFLOPS(业界领先推理 BF16 之一) |
| FP16 | 128 TFLOPS |
| TDP | 168W |
| 板卡形态 | PCIe Gen3 ×16 |
| 互连 | PCIe + 自研 RLLink |
| 量产 | 2021-Q3 |
| 单价 | 不公开(阿里内部) |
12nm 制程选择原因
| 维度 | 含光 800 (12nm) | 同期 NVIDIA T4 (12nm) | 同期 Huawei Ascend 310 (12nm) |
|---|
| 制程 | 12nm | 12nm | 12nm |
| INT8 | 820 TOPS | 130 TOPS | 16 TOPS (310) / 22 TOPS |
| BF16 | 128 TFLOPS | - | - |
| TDP | 168W | 70W | 8W (310) |
| 量 | 阿里内部 100K+ | NVIDIA 通用 | 华为云 + 端侧 |
12nm 选择原因:成熟制程 + 量产稳定(vs 7nm 早期良率问题),足够性能 + 成本优势。阿里 2021 整体战略:自研 + 性价比 + 不依赖美国先进制程。
含光 vs 同期竞品
| 指标 | Alibaba 含光 800 | NVIDIA T4 | Huawei Ascend 310 | Google Edge TPU |
|---|
| 制程 | 12nm | 12nm | 12nm | 28nm |
| INT8 | 820 TOPS | 130 TOPS | 16-22 TOPS | 4 TOPS |
| TDP | 168W | 70W | 8W | 2W |
| 能效 | 4.88 TOPS/W | 1.86 TOPS/W | 2-2.75 TOPS/W | 2 TOPS/W |
| 内存 | 32GB HBM2 | 16GB GDDR6 | 8GB LPDDR4 | 8MB SRAM |
| 价格 | 不公开 | ~$2K | 不公开 | ~$60 |
含光 800 优势:INT8 算力是 T4 6.3×,能效是 T4 2.6×,2021 业界推理芯片领先。
阿里内部部署场景
| 场景 | 业务 | 节省 |
|---|
| 淘宝搜索推荐 | 10 亿商品搜索排序 | 节省 50% GPU 成本(vs V100) |
| 阿里云 PAI 平台 | 机器学习推理服务 | 单卡 T4 5× 算力 |
| 菜鸟物流调度 | 1000 万+ 包裹路径优化 | 调度延迟 50ms |
| 天猫图像识别 | 商品图像 1M+/天 | 替代 T4 90% 工作负载 |
| 支付宝风控 | 实时欺诈检测 | 毫秒级决策 |
| 钉钉智能客服 | LLM 推理 | 成本降低 70% |
含光 800 商业化意义:阿里首个自研 AI 芯片 100% 内部替代 NVIDIA。单芯片 5× T4 算力 + 70% 成本节省。
HALO 软件栈
| 层级 | 工具 | 说明 |
|---|
| AI 框架 | HALO(Hanguang Accelerated Linear Operator) | 统一编程平台 |
| PyTorch(HALO 后端) | 自动映射 NPU |
| TensorFlow(HALO 后端) | 兼容 |
| HALO-MLA | Multi-Level API(高级) |
| HALO-Lite | 轻量 API(推理) |
| 编译器 | HALO Compiler | PyTorch / TF → NPU |
| 运行时 | HALO Runtime | 调度 |
| 量化 | HALO Quant | INT8 自动 |
| 模型库 | HALO ModelZoo | 100+ 推理模型 |
HALO 优势:阿里内部 100+ 模型预优化(淘宝搜索、推荐、风控、图像、NLP),开箱即用。
厂商信息
| 项目 | 内容 |
|---|
| 公司 | 阿里巴巴 / 平头哥(T-Head)半导体 |
| 业务部门 | 阿里云 + 平头哥半导体 |
| 成立 | 平头哥 2018-09(中天微 + 达摩院自研合并) |
| 含光 800 团队 | 阿里达摩院 + 平头哥(上海 + 杭州) |
| 总投入 | $5B+(2018-2023 累计) |
| 首颗芯片 | 含光 800(2019 发布,2021 量产) |
| 后续 | 玄铁 C910(RISC-V CPU)、羽山 600(SSD 主控)、镇岳 510(企业级 SSD) |
| 客户 | 阿里内部 100% + 阿里云 PAI 平台 |
| 员工 | 平头哥 ~1500 人(半导体) |
| 代工 | TSMC 12nm + 5nm(2024 推测) |
平头哥产品线
| 产品 | 类型 | 发布 | 算力 | 用途 |
|---|
| 含光 800 | AI 推理 | 2019-09 / 2021 量产 | 820 INT8 TOPS | 阿里内部 + 阿里云 |
| 玄铁 C910 | RISC-V CPU | 2019 | 2.5 GHz 12 核 | IoT / Edge |
| 玄铁 C906 | RISC-V CPU | 2019 | 1 GHz | MCU |
| 羽山 600 | SSD 主控 | 2020 | PCIe Gen4 | 数据中心 SSD |
| 镇岳 510 | 企业级 SSD | 2022 | 16TB | 阿里云盘古 |
| 含光 900 (推测) | AI 推理下一代 | 2024 推测 | 2-3 PF | 2024+ |
阿里 AI 战略
| 维度 | 2019 含光 800 时代 | 2024+ 推测 |
|---|
| 业务 | 阿里内部 + 阿里云 | 阿里云 + 外部客户 |
| 应用 | 搜索 / 推荐 / 物流 | + LLM (Qwen) / 多模态 |
| 算力 | 820 INT8 TOPS | 2-3 PF (推测) |
| 内存 | 32GB HBM2 | 96-128GB HBM3 (推测) |
| 量产 | 10K+ 颗 / 年 | 100K+ 颗 / 年 |
| T-Head 团队 | 半导体独立 | 阿里云全栈集成 |
关键特性
- 820 INT8 TOPS:2021 业界领先推理
- 128 BF16 TFLOPS:支持 LLM 推理
- 32GB HBM2:32GB 内存推理 LLaMA 1 65B
- HALO 软件栈:阿里内部 100+ 模型
- 100% 内部替代:阿里淘宝 / 天猫 / 支付宝 / 菜鸟 / 钉钉
- TDP 168W:单 GPU 替代
- 缺点:已停产(2023-12)、未外部销售、生态 4 年
与国产 AI 芯片对比(2021 时代)
| 指标 | Alibaba 含光 800 | Huawei Ascend 310 | 寒武纪 MLU 370 |
|---|
| 制程 | 12nm | 12nm | 7nm |
| INT8 | 820 TOPS | 22 TOPS | 96 TOPS |
| TDP | 168W | 8W | 35W |
| 内存 | 32GB HBM2 | 8GB LPDDR4 | 48GB HBM2 |
| 部署 | 阿里内部 | 华为云 | 政企云 |
2021 含光 800 算力是 Ascend 310 的 37 倍,但 2022 后华为昇腾 910 系列 + 寒武纪 590 迅速赶上,含光 800 优势不再。
适用场景
- ✅ 阿里内部 AI 推理(淘宝 / 天猫 / 支付宝 / 菜鸟 / 钉钉)
- ✅ 阿里云 PAI 推理服务(PAI-EAS)
- ✅ LLM 推理(Qwen 7B / 14B / 72B 优化)
- ✅ 搜索 / 推荐 / 图像 / NLP(100+ 模型预优化)
- ✅ 阿里电商业务(淘宝搜索排序)
- ❌ 外部销售(仅内部 + 阿里云)
- ❌ AI 训练(仅推理)
- ❌ CUDA 专有工作负载(需 HALO 移植)
关键时间线
| 时间 | 事件 |
|---|
| 2018-09 | 阿里成立平头哥半导体(中天微 + 达摩院) |
| 2019-09 | 含光 800 在杭州云栖大会发布(达摩院研发) |
| 2020 | 平头哥内部测试 + 阿里小规模部署 |
| 2021-Q3 | 含光 800 量产,阿里内部 100K+ 颗部署 |
| 2022 | 含光 800 部署到阿里云 PAI 平台 |
| 2023 | 阿里内部推理算力 70% 含光 800 |
| 2023-12 | 含光 800 正式停产(向下一代过渡) |
| 2024+ | 含光下一代(推测 900 系列) |
相关卡