跳到主要内容

Enflame 燧原 云燧 T20 (2021)

产品概述

云燧 T20 是燧原科技于 2021 年 7 月 7 日 在世界人工智能大会(WAIC)上发布的第二代 AI 训练加速卡,基于自研 邃思 2.0(DTU 2.0)芯片,采用 2.5D 先进封装(57.5mm × 57.5mm,整合 9 颗芯片),TF32 算力 160 TFLOPS(国内率先支持 TF32)、INT8 算力 320 TOPS,配备 64GB HBM2E 显存(1.8 TB/s 带宽),GCU-LARE 互联技术支持集群扩展至 8192 卡(1.3 EFLOPS)。

燧原是"GPU 四小龙"之一,主打国产云端 AI 训练与推理。

产品演进

  • 邃思 1.0 / 云燧 T10(2019):第一代 12nm,FP32 20 TFLOPS
  • 邃思 2.0 / 云燧 T20/T21(2021):2.5D 封装,TF32 160 TFLOPS本页
  • 邃思 3.0 / 云燧 T30(规划中):下一代

核心规格

邃思 2.0 芯片

项目参数
架构自研 GCU-CARA 全域计算架构
制程未公开(行业推测 12nm)
封装2.5D 先进封装,整合 9 颗芯片
封装尺寸57.5mm × 57.5mm(发布时中国最大计算芯片)
FP3240 TFLOPS
TF32160 TFLOPS(国内率先支持)
FP16 / BF16支持(具体数值未披露)
INT8320 TOPS
显存64GB HBM2E(三星,国内首款支持)
显存带宽1.8 TB/s(芯片级)
互联GCU-LARE®(燧原智能互联),双向 300 GB/s

云燧 T20 加速卡

项目参数
核心芯片邃思 2.0
定位数据中心 AI 训练加速卡
形态PCIe 训练加速卡
多卡互联机内 4 卡全互联 / 增强 8 卡全互联
集群支持从单机多卡到千卡级别
软件栈驭算 TopsRider 2.0
开发接口C++ / Python,多层次 API 开放
发布2021 年 7 月 7 日(WAIC 2021)
TDP未公开

GCU-LARE 互联与集群

规格参数
互联技术GCU-LARE® 全域互联
芯片间带宽双向 300 GB/s
机内互联4 卡全互联 → 增强 8 卡全互联
集群方案云燧智算集群 CloudBlazer Matrix 2.0
最大集群8192 张 云燧训练卡
集群总算力最高 1.3 EFLOPS(FP32)
散热液冷,PUE < 1.5
机柜方案单机柜高密度部署

发布时纪录:燧原 COO 表示"在全世界还没有人能达到在单精度算力上用 8000 张卡实现超过 1E 的算力"。

软件栈 TopsRider 2.0

层级工具说明
平台驭算 TopsRider 2.0燧原统一编程平台
AI 框架PyTorch原生支持
TensorFlow支持
PaddlePaddle百度飞桨
开发接口C++ / Python多层次 API
算子库自研算子库覆盖主流模型
编译器GCU-CARA 工具链自动化优化
性能TF32 精度平均 2.5 倍于友商次旗舰多类模型与友商旗舰不分伯仲

厂商信息

项目内容
公司上海燧原科技股份有限公司
成立2018 年 3 月
创始人赵立东(前 AMD 中国区高管)、张亚林(COO)
T20 发布2021 年 7 月 7 日(WAIC 2021)
融资累计数十亿元(腾讯、红杉等)
定位国产云端 AI 训练/推理芯片
生态"GPU 四小龙"之一(沐曦、壁仞、燧原、摩尔线程)
合作与友商合作打造云燧智算集群

适用场景

  • 国产 AI 大模型训练(8192 卡集群 1.3 EFLOPS)
  • 数据中心训练(TF32 160 TFLOPS 高效训练)
  • 千卡级集群部署(GCU-LARE 互联成熟方案)
  • 模型种类覆盖广(多精度、动态特征支持)
  • 国产化算力刚需(自主可控)
  • 单卡推理(非主要定位,云燧 i20 推理卡更优)
  • CUDA 生态(自研 TopsRider,迁移需适配)
  • FP8 训练(不支持,需关注 T30)
  • 制程未公开(行业推测 12nm,落后同期 7nm 竞品)

与同期国产 AI 训练卡对比(2021)

指标燧原 T20寒武纪 MLU 370华为 Ascend 910差异
发布2021-072021-Q42019T20 年中发布
封装2.5D 先进封装普通封装普通封装T20 先进
TF32160 TFLOPS不支持不支持T20 独有
FP3240 TFLOPS24 TFLOPS256 TFLOPSAscend 910 领先
INT8320 TOPS96 TOPS512 TOPSAscend 910 领先
显存64GB HBM2E48GB HBM232GB HBM2T20 最大
带宽1.8 TB/s614 GB/s1.2 TB/sT20 最大
互联300 GB/s200 GB/sHCCST20 领先
集群8192 卡 1.3 EFLOPS千卡4096 卡T20 最大

2021 国产 AI 训练霸主:T20 显存最大(64GB)、互联最强(300 GB/s)、集群最大(8192 卡 1.3 EFLOPS)。但 FP32 算力(40 TFLOPS)和 INT8(320 TOPS)低于华为 Ascend 910。

关键时间线

时间事件
2018-03燧原科技成立
2019-12邃思 1.0 / 云燧 T10 发布(12nm)
2021-07-07邃思 2.0 / 云燧 T20 发布(WAIC)
2021-2023T20/T21 大规模部署,云燧智算集群商用
规划中邃思 3.0 / 云燧 T30

相关卡