产品概述
昆仑芯 P800 是昆仑芯科技(百度旗下)推出的第三代 AI 加速卡,基于自研 XPU-P 架构,FP16 峰值算力 345 TFLOPS(超越 NVIDIA H20 的 148 TFLOPS),TDP 约 400W,采用 OAM 模块形态,2024 年 3 月上市。支持 DeepSeek-V3/R1 671B 满血版单机 8 卡运行,已交付多个万卡级集群。
关键定位:
- 昆仑芯 1 代(2018):14nm,百度内部部署
- 昆仑芯 2 代(2021):7nm,自研 Kunlun Core II,256 INT8 TOPS
- 昆仑芯 P800(2024):XPU-P 架构,FP16 345 TFLOPS,OAM — 本页
- 昆仑芯 M100(2026 初):推理专用 — 已有页
- 昆仑芯 M300(2027 初):超大规模多模态训练
核心规格
| 项目 | 参数 |
|---|
| 架构 | 自研 XPU-P 架构 |
| 代数 | 第三代 AI 加速卡 |
| FP16 | 345 TFLOPS(超越 H20 148 TFLOPS) |
| 低功耗 FP16 | 128 TFLOPS @ 120W |
| INT8 | 支持 8-bit 推理(具体 TOPS 未公开) |
| MoE 支持 | 原生支持 MoE 架构 |
| TDP | ~400W |
| 板卡形态 | OAM 模块 |
| 互联 | XCCL(昆仑芯互联),支持 IB/ROCE |
| 虚拟化 | 硬件级 vXPU,单卡可拆分为 32 个虚拟实例 |
| 集群规模 | 支持万卡集群,已实现全自研三万卡集群 |
| 超节点 | 天池 256 / 天池 512 |
| 量产 | 2024 年 3 月上市,2025 年起大规模交付 |
| 供应状态 | 供不应求,受限于晶圆代工产能 |
大模型适配能力
| 模型 | 部署方式 | 备注 |
|---|
| DeepSeek-V3/R1 671B | 单机 8 卡推理 | 通过信通院适配认证 |
| DeepSeek MoE 全参训练 | 32 台即可完成 | 支持 MLA、多专家并行 |
| 文心(ERNIE)系列 | 百度云原生支持 | 百度智能云主力部署 |
| Llama / Qwen / ChatGLM | 支持 | 含 MoE 蒸馏版本 |
| Baichuan | 支持 | 国产模型生态 |
CUDA 兼容性:CUDA 上可运行的模型在 P800 上迁移成本低,支持 vLLM 等开源推理框架。
厂商信息
| 项目 | 内容 |
|---|
| 公司 | 昆仑芯科技(北京)有限公司 |
| 母公司 | 百度(持股 57.67%) |
| 成立 | 2021 年 4 月(从百度独立) |
| P800 上市 | 2024 年 3 月 |
| IPO 状态 | 2026 年 5 月启动科创板 IPO 辅导 |
| 估值 | 超百亿元 |
| 主要客户 | 百度智能云、中国移动(AI 推理服务器集采中标) |
| 认证 | 信通院《智算服务集群稳定运行》五星评级 |
适用场景
- ✅ 国产大模型训练(DeepSeek、文心等全参训练)
- ✅ 大模型推理(671B 单机 8 卡部署)
- ✅ 百度智能云(百舸平台核心算力底座)
- ✅ 国产智算中心(万卡集群已验证)
- ✅ MoE 模型推理(硬件原生优化)
- ❌ CUDA 生态深度依赖场景(迁移需适配)
- ❌ 低功耗边缘部署(400W TDP 较高)
- ❌ 国际市场(出口管制受限)
关键时间线
| 时间 | 事件 |
|---|
| 2018 | 昆仑芯 1 代发布(14nm) |
| 2021-04 | 昆仑芯科技独立运营 |
| 2021 | 昆仑芯 2 代量产(7nm Kunlun Core II) |
| 2024-03 | P800 正式上市(本页) |
| 2025-02 | 通过 DeepSeek 671B 适配认证 |
| 2025 | 大规模交付万卡集群 |
| 2026-05 | 启动科创板 IPO |
相关卡