跳到主要内容

Hygon 海光 DCU K100 AI 版 (2024)

产品概述

海光 DCU K100 AI 版(深算三号) 是海光信息面向 AI 数据中心推出的高性能 GPGPU 加速卡,基于自研 x86 兼容 GPGPU 架构FP16/BF16 算力 192 TFLOPSINT8 算力 392 TOPS,配备 40GB HBM2e 显存1.2 TB/s 读取带宽。兼容 ROCm/DTK 软件栈,可大幅降低 CUDA 迁移成本,专为国产大模型训练与推理打造。

产品演进

  • 深算一号(2022):早期 GPGPU,DCU 架构验证
  • 深算二号(2023):双精度 K100 + AI 优化版
  • DCU K100 AI 版(2024):FP16 192 TFLOPS,x86 指令集本页
  • 深算三号(规划中):下一代 GPGPU

核心规格

项目参数
架构自研 GPGPU,x86 指令集兼容
制程先进制程(推测 7nm,官方未公开)
FP3249 TFLOPS
TF3296 TFLOPS
FP16 / BF16192 TFLOPS
INT8392 TOPS
显存容量40GB HBM2e(另有 64GB HBM3 版本传闻)
显存带宽1.2 TB/s(读取,双环形总线,实测利用率 92%+)
总线拓扑双环形 HBM2e 总线(读写分离,避免冲突)
调度器统一张量调度器,动态感知 Attention QKV 矩阵
TDP约 300-400W(实测数据未公开)
板卡形态PCIe 全高全长双宽卡
软件生态DTK(DCU Toolkit),基于 ROCm,兼容 CUDA

DTK 软件生态

层级工具说明
运行时ROCmAMD 开源 GPGPU 平台
编程框架DTK(DCU Toolkit)海光自研,兼容 HIP/CUDA
AI 框架PyTorch (HIP 后端)通过 ROCm 自动映射
TensorFlow支持
PaddlePaddle百度飞桨
编译器HIPIFYCUDA 代码自动转换工具
算子库MIOpen类 cuDNN
量化支持 FP16/INT8 混合精度原生 BF16 格式

CUDA 兼容性:通过 DTK/HIP 生态,可将 CUDA 代码自动转换为 DCU 可执行代码,迁移成本远低于完全自研架构。

厂商信息

项目内容
公司海光信息技术股份有限公司
股票代码688041(科创板)
技术来源基于 x86 授权 + 自研 DCU 架构
K100 AI 版上市2024 年
主要客户三大运营商、智算中心、金融/能源央企
对标产品NVIDIA H20(FP16 192 vs H20 148 TFLOPS)
价格优势相比 H20 便宜不少

关键技术特性

  • 双环形 HBM2e 总线:读写路径物理分离,实测利用率稳定 92%+(同代竞品卡约 76%),ResNet-50 等训练负载表现优异
  • 统一张量调度器:动态感知 Attention 层 QKV 矩阵尺寸变化,消除调度抖动
  • x86 兼容生态:底层指令集兼容 x86,软件开发迁移成本更低
  • 原生 BF16:硬件支持 Brain Floating Point 格式
  • Qwen-7B 微调实测:Batch size 从 4 跳至 8 时利用率曲线几乎无陡升(对比 A100 出现明显调度抖动)

适用场景

  • 国产智算中心(x86 生态兼容,央企/运营商优先)
  • 大模型训练(Qwen 系列、Baichuan 等国产模型)
  • 大模型推理(192 TFLOPS FP16 推理服务)
  • 计算机视觉训练(ResNet-50、YOLOv8)
  • 科学计算(x86 生态 + 大规模线性代数、PDE 求解)
  • CUDA 原生生态(需通过 HIP 转译,部分算子需手工优化)
  • 超大模型训练(40GB 显存受限,需多卡并行)

与 NVIDIA H20 对比

指标海光 DCU K100 AINVIDIA H20差异
FP16192 TFLOPS148 TFLOPSDCU K100 +30%
INT8392 TOPS296 TOPSDCU K100 +32%
显存40GB HBM2e96GB HBM3H20 2.4×
软件生态DTK (ROCm) / HIPCUDAH20 成熟度更高
价格较低较高DCU K100 有优势
供应国产稳定出口管制风险DCU K100 安全

DCU K100 优势:算力超越 H20,价格更低,供应安全;劣势:显存较小,软件生态成熟度不及 CUDA。

国产 GPU 生态对比

产品架构FP16 (TFLOPS)显存软件生态优势
海光 DCU K100GPGPU/x8619240GB HBM2eDTK (ROCm)x86 兼容
寒武纪 MLU 590自研 MLUv0512896GB HBM2NeuWare国产 AI 成熟
昆仑芯 P800XPU-P345未公开自研算力最强
沐曦 C600XCORE 1.5~300 (FP8:1000)144GB HBM3eMXMACA显存最大
燧原 T20GCU-CARA~80 (TF32:160)64GB HBM2ETopsRider集群方案

关键时间线

时间事件
2016海光信息成立(AMD x86/Zen 授权)
2022深算一号 DCU 发布
2023深算二号双精度 K100 发布
2024DCU K100 AI 版上市(深算三号 AI 版)
2025K100 AI 版大规模部署

相关卡