Kunlun 昆仑芯 P800 (2024)

产品概述

昆仑芯 P800 是昆仑芯科技（百度旗下）推出的第三代 AI 加速卡，基于自研 XPU-P 架构，FP16 峰值算力 345 TFLOPS（超越 NVIDIA H20 的 148 TFLOPS），TDP 约 400W，采用 OAM 模块形态，2024 年 3 月上市。支持 DeepSeek-V3/R1 671B 满血版单机 8 卡运行，已交付多个万卡级集群。

关键定位：

昆仑芯 1 代（2018）：14nm，百度内部部署
昆仑芯 2 代（2021）：7nm，自研 Kunlun Core II，256 INT8 TOPS
昆仑芯 P800（2024）：XPU-P 架构，FP16 345 TFLOPS，OAM — 本页
昆仑芯 M100（2026 初）：推理专用 — 已有页
昆仑芯 M300（2027 初）：超大规模多模态训练

核心规格

项目	参数
架构	自研 XPU-P 架构
代数	第三代 AI 加速卡
FP16	345 TFLOPS（超越 H20 148 TFLOPS）
低功耗 FP16	128 TFLOPS @ 120W
INT8	支持 8-bit 推理（具体 TOPS 未公开）
MoE 支持	原生支持 MoE 架构
TDP	~400W
板卡形态	OAM 模块
互联	XCCL（昆仑芯互联），支持 IB/ROCE
虚拟化	硬件级 vXPU，单卡可拆分为 32 个虚拟实例
集群规模	支持万卡集群，已实现全自研三万卡集群
超节点	天池 256 / 天池 512
量产	2024 年 3 月上市，2025 年起大规模交付
供应状态	供不应求，受限于晶圆代工产能

大模型适配能力

模型	部署方式	备注
DeepSeek-V3/R1 671B	单机 8 卡推理	通过信通院适配认证
DeepSeek MoE 全参训练	32 台即可完成	支持 MLA、多专家并行
文心（ERNIE）系列	百度云原生支持	百度智能云主力部署
Llama / Qwen / ChatGLM	支持	含 MoE 蒸馏版本
Baichuan	支持	国产模型生态

CUDA 兼容性：CUDA 上可运行的模型在 P800 上迁移成本低，支持 vLLM 等开源推理框架。

厂商信息

项目	内容
公司	昆仑芯科技（北京）有限公司
母公司	百度（持股 57.67%）
成立	2021 年 4 月（从百度独立）
P800 上市	2024 年 3 月
IPO 状态	2026 年 5 月启动科创板 IPO 辅导
估值	超百亿元
主要客户	百度智能云、中国移动（AI 推理服务器集采中标）
认证	信通院《智算服务集群稳定运行》五星评级

适用场景

✅ 国产大模型训练（DeepSeek、文心等全参训练）
✅ 大模型推理（671B 单机 8 卡部署）
✅ 百度智能云（百舸平台核心算力底座）
✅ 国产智算中心（万卡集群已验证）
✅ MoE 模型推理（硬件原生优化）
❌ CUDA 生态深度依赖场景（迁移需适配）
❌ 低功耗边缘部署（400W TDP 较高）
❌ 国际市场（出口管制受限）

关键时间线

时间	事件
2018	昆仑芯 1 代发布（14nm）
2021-04	昆仑芯科技独立运营
2021	昆仑芯 2 代量产（7nm Kunlun Core II）
2024-03	P800 正式上市（本页）
2025-02	通过 DeepSeek 671B 适配认证
2025	大规模交付万卡集群
2026-05	启动科创板 IPO

产品概述​

核心规格​

大模型适配能力​

厂商信息​

适用场景​

关键时间线​

相关卡​