Hygon 海光 DCU K100 AI 版 (2024)
产品概述
海光 DCU K100 AI 版(深算三号) 是海光信息面向 AI 数据中心推出的高性能 GPGPU 加速卡,基于自研 x86 兼容 GPGPU 架构,FP16/BF16 算力 192 TFLOPS、INT8 算力 392 TOPS,配备 40GB HBM2e 显存和 1.2 TB/s 读取带宽。兼容 ROCm/DTK 软件栈,可大幅降低 CUDA 迁移成本,专为国产大模型训练与推理打造。
产品演进:
- 深算一号(2022):早期 GPGPU,DCU 架构验证
- 深算二号(2023):双精度 K100 + AI 优化版
- DCU K100 AI 版(2024):FP16 192 TFLOPS,x86 指令集 — 本页
- 深算三号(规划中):下一代 GPGPU
核心规格
| 项目 | 参数 |
|---|
| 架构 | 自研 GPGPU,x86 指令集兼容 |
| 制程 | 先进制程(推测 7nm,官方未公开) |
| FP32 | 49 TFLOPS |
| TF32 | 96 TFLOPS |
| FP16 / BF16 | 192 TFLOPS |
| INT8 | 392 TOPS |
| 显存容量 | 40GB HBM2e(另有 64GB HBM3 版本传闻) |
| 显存带宽 | 1.2 TB/s(读取,双环形总线,实测利用率 92%+) |
| 总线拓扑 | 双环形 HBM2e 总线(读写分离,避免冲突) |
| 调度器 | 统一张量调度器,动态感知 Attention QKV 矩阵 |
| TDP | 约 300-400W(实测数据未公开) |
| 板卡形态 | PCIe 全高全长双宽卡 |
| 软件生态 | DTK(DCU Toolkit),基于 ROCm,兼容 CUDA |
DTK 软件生态
| 层级 | 工具 | 说明 |
|---|
| 运行时 | ROCm | AMD 开源 GPGPU 平台 |
| 编程框架 | DTK(DCU Toolkit) | 海光自研,兼容 HIP/CUDA |
| AI 框架 | PyTorch (HIP 后端) | 通过 ROCm 自动映射 |
| TensorFlow | 支持 |
| PaddlePaddle | 百度飞桨 |
| 编译器 | HIPIFY | CUDA 代码自动转换工具 |
| 算子库 | MIOpen | 类 cuDNN |
| 量化 | 支持 FP16/INT8 混合精度 | 原生 BF16 格式 |
CUDA 兼容性:通过 DTK/HIP 生态,可将 CUDA 代码自动转换为 DCU 可执行代码,迁移成本远低于完全自研架构。
厂商信息
| 项目 | 内容 |
|---|
| 公司 | 海光信息技术股份有限公司 |
| 股票代码 | 688041(科创板) |
| 技术来源 | 基于 x86 授权 + 自研 DCU 架构 |
| K100 AI 版上市 | 2024 年 |
| 主要客户 | 三大运营商、智算中心、金融/能源央企 |
| 对标产品 | NVIDIA H20(FP16 192 vs H20 148 TFLOPS) |
| 价格优势 | 相比 H20 便宜不少 |
关键技术特性
- 双环形 HBM2e 总线:读写路径物理分离,实测利用率稳定 92%+(同代竞品卡约 76%),ResNet-50 等训练负载表现优异
- 统一张量调度器:动态感知 Attention 层 QKV 矩阵尺寸变化,消除调度抖动
- x86 兼容生态:底层指令集兼容 x86,软件开发迁移成本更低
- 原生 BF16:硬件支持 Brain Floating Point 格式
- Qwen-7B 微调实测:Batch size 从 4 跳至 8 时利用率曲线几乎无陡升(对比 A100 出现明显调度抖动)
适用场景
- ✅ 国产智算中心(x86 生态兼容,央企/运营商优先)
- ✅ 大模型训练(Qwen 系列、Baichuan 等国产模型)
- ✅ 大模型推理(192 TFLOPS FP16 推理服务)
- ✅ 计算机视觉训练(ResNet-50、YOLOv8)
- ✅ 科学计算(x86 生态 + 大规模线性代数、PDE 求解)
- ❌ CUDA 原生生态(需通过 HIP 转译,部分算子需手工优化)
- ❌ 超大模型训练(40GB 显存受限,需多卡并行)
与 NVIDIA H20 对比
| 指标 | 海光 DCU K100 AI | NVIDIA H20 | 差异 |
|---|
| FP16 | 192 TFLOPS | 148 TFLOPS | DCU K100 +30% |
| INT8 | 392 TOPS | 296 TOPS | DCU K100 +32% |
| 显存 | 40GB HBM2e | 96GB HBM3 | H20 2.4× |
| 软件生态 | DTK (ROCm) / HIP | CUDA | H20 成熟度更高 |
| 价格 | 较低 | 较高 | DCU K100 有优势 |
| 供应 | 国产稳定 | 出口管制风险 | DCU K100 安全 |
DCU K100 优势:算力超越 H20,价格更低,供应安全;劣势:显存较小,软件生态成熟度不及 CUDA。
国产 GPU 生态对比
| 产品 | 架构 | FP16 (TFLOPS) | 显存 | 软件生态 | 优势 |
|---|
| 海光 DCU K100 | GPGPU/x86 | 192 | 40GB HBM2e | DTK (ROCm) | x86 兼容 |
| 寒武纪 MLU 590 | 自研 MLUv05 | 128 | 96GB HBM2 | NeuWare | 国产 AI 成熟 |
| 昆仑芯 P800 | XPU-P | 345 | 未公开 | 自研 | 算力最强 |
| 沐曦 C600 | XCORE 1.5 | ~300 (FP8:1000) | 144GB HBM3e | MXMACA | 显存最大 |
| 燧原 T20 | GCU-CARA | ~80 (TF32:160) | 64GB HBM2E | TopsRider | 集群方案 |
关键时间线
| 时间 | 事件 |
|---|
| 2016 | 海光信息成立(AMD x86/Zen 授权) |
| 2022 | 深算一号 DCU 发布 |
| 2023 | 深算二号双精度 K100 发布 |
| 2024 | DCU K100 AI 版上市(深算三号 AI 版) |
| 2025 | K100 AI 版大规模部署 |
相关卡