Skip to main content

Kunlun 昆仑芯 P800 (2024)

产品概述

昆仑芯 P800 是昆仑芯科技(百度旗下)推出的第三代 AI 加速卡,基于自研 XPU-P 架构FP16 峰值算力 345 TFLOPS(超越 NVIDIA H20 的 148 TFLOPS),TDP 约 400W,采用 OAM 模块形态,2024 年 3 月上市。支持 DeepSeek-V3/R1 671B 满血版单机 8 卡运行,已交付多个万卡级集群。

关键定位

  • 昆仑芯 1 代(2018):14nm,百度内部部署
  • 昆仑芯 2 代(2021):7nm,自研 Kunlun Core II,256 INT8 TOPS
  • 昆仑芯 P800(2024):XPU-P 架构,FP16 345 TFLOPS,OAM本页
  • 昆仑芯 M100(2026 初):推理专用 — 已有页
  • 昆仑芯 M300(2027 初):超大规模多模态训练

核心规格

项目参数
架构自研 XPU-P 架构
代数第三代 AI 加速卡
FP16345 TFLOPS(超越 H20 148 TFLOPS)
低功耗 FP16128 TFLOPS @ 120W
INT8支持 8-bit 推理(具体 TOPS 未公开)
MoE 支持原生支持 MoE 架构
TDP~400W
板卡形态OAM 模块
互联XCCL(昆仑芯互联),支持 IB/ROCE
虚拟化硬件级 vXPU,单卡可拆分为 32 个虚拟实例
集群规模支持万卡集群,已实现全自研三万卡集群
超节点天池 256 / 天池 512
量产2024 年 3 月上市,2025 年起大规模交付
供应状态供不应求,受限于晶圆代工产能

大模型适配能力

模型部署方式备注
DeepSeek-V3/R1 671B单机 8 卡推理通过信通院适配认证
DeepSeek MoE 全参训练32 台即可完成支持 MLA、多专家并行
文心(ERNIE)系列百度云原生支持百度智能云主力部署
Llama / Qwen / ChatGLM支持含 MoE 蒸馏版本
Baichuan支持国产模型生态

CUDA 兼容性:CUDA 上可运行的模型在 P800 上迁移成本低,支持 vLLM 等开源推理框架。

厂商信息

项目内容
公司昆仑芯科技(北京)有限公司
母公司百度(持股 57.67%)
成立2021 年 4 月(从百度独立)
P800 上市2024 年 3 月
IPO 状态2026 年 5 月启动科创板 IPO 辅导
估值超百亿元
主要客户百度智能云、中国移动(AI 推理服务器集采中标)
认证信通院《智算服务集群稳定运行》五星评级

适用场景

  • 国产大模型训练(DeepSeek、文心等全参训练)
  • 大模型推理(671B 单机 8 卡部署)
  • 百度智能云(百舸平台核心算力底座)
  • 国产智算中心(万卡集群已验证)
  • MoE 模型推理(硬件原生优化)
  • CUDA 生态深度依赖场景(迁移需适配)
  • 低功耗边缘部署(400W TDP 较高)
  • 国际市场(出口管制受限)

关键时间线

时间事件
2018昆仑芯 1 代发布(14nm)
2021-04昆仑芯科技独立运营
2021昆仑芯 2 代量产(7nm Kunlun Core II)
2024-03P800 正式上市(本页)
2025-02通过 DeepSeek 671B 适配认证
2025大规模交付万卡集群
2026-05启动科创板 IPO

相关卡