Enflame 燧原云燧 T20 (2021)

产品概述

云燧 T20 是燧原科技于 2021 年 7 月 7 日 在世界人工智能大会（WAIC）上发布的第二代 AI 训练加速卡，基于自研 邃思 2.0（DTU 2.0）芯片，采用 2.5D 先进封装（57.5mm × 57.5mm，整合 9 颗芯片），TF32 算力 160 TFLOPS（国内率先支持 TF32）、INT8 算力 320 TOPS，配备 64GB HBM2E 显存（1.8 TB/s 带宽），GCU-LARE 互联技术支持集群扩展至 8192 卡（1.3 EFLOPS）。

燧原是"GPU 四小龙"之一，主打国产云端 AI 训练与推理。

产品演进：

邃思 1.0 / 云燧 T10（2019）：第一代 12nm，FP32 20 TFLOPS
邃思 2.0 / 云燧 T20/T21（2021）：2.5D 封装，TF32 160 TFLOPS — 本页
邃思 3.0 / 云燧 T30（规划中）：下一代

核心规格

邃思 2.0 芯片

项目	参数
架构	自研 GCU-CARA 全域计算架构
制程	未公开（行业推测 12nm）
封装	2.5D 先进封装，整合 9 颗芯片
封装尺寸	57.5mm × 57.5mm（发布时中国最大计算芯片）
FP32	40 TFLOPS
TF32	160 TFLOPS（国内率先支持）
FP16 / BF16	支持（具体数值未披露）
INT8	320 TOPS
显存	64GB HBM2E（三星，国内首款支持）
显存带宽	1.8 TB/s（芯片级）
互联	GCU-LARE®（燧原智能互联），双向 300 GB/s

云燧 T20 加速卡

项目	参数
核心芯片	邃思 2.0
定位	数据中心 AI 训练加速卡
形态	PCIe 训练加速卡
多卡互联	机内 4 卡全互联 / 增强 8 卡全互联
集群	支持从单机多卡到千卡级别
软件栈	驭算 TopsRider 2.0
开发接口	C++ / Python，多层次 API 开放
发布	2021 年 7 月 7 日（WAIC 2021）
TDP	未公开

GCU-LARE 互联与集群

规格	参数
互联技术	GCU-LARE® 全域互联
芯片间带宽	双向 300 GB/s
机内互联	4 卡全互联 → 增强 8 卡全互联
集群方案	云燧智算集群 CloudBlazer Matrix 2.0
最大集群	8192 张云燧训练卡
集群总算力	最高 1.3 EFLOPS（FP32）
散热	液冷，PUE < 1.5
机柜方案	单机柜高密度部署

发布时纪录：燧原 COO 表示"在全世界还没有人能达到在单精度算力上用 8000 张卡实现超过 1E 的算力"。

软件栈 TopsRider 2.0

层级	工具	说明
平台	驭算 TopsRider 2.0	燧原统一编程平台
AI 框架	PyTorch	原生支持
	TensorFlow	支持
	PaddlePaddle	百度飞桨
开发接口	C++ / Python	多层次 API
算子库	自研算子库	覆盖主流模型
编译器	GCU-CARA 工具链	自动化优化
性能	TF32 精度平均 2.5 倍于友商次旗舰	多类模型与友商旗舰不分伯仲

厂商信息

项目	内容
公司	上海燧原科技股份有限公司
成立	2018 年 3 月
创始人	赵立东（前 AMD 中国区高管）、张亚林（COO）
T20 发布	2021 年 7 月 7 日（WAIC 2021）
融资	累计数十亿元（腾讯、红杉等）
定位	国产云端 AI 训练/推理芯片
生态	"GPU 四小龙"之一（沐曦、壁仞、燧原、摩尔线程）
合作	与友商合作打造云燧智算集群

适用场景

✅ 国产 AI 大模型训练（8192 卡集群 1.3 EFLOPS）
✅ 数据中心训练（TF32 160 TFLOPS 高效训练）
✅ 千卡级集群部署（GCU-LARE 互联成熟方案）
✅ 模型种类覆盖广（多精度、动态特征支持）
✅ 国产化算力刚需（自主可控）
❌ 单卡推理（非主要定位，云燧 i20 推理卡更优）
❌ CUDA 生态（自研 TopsRider，迁移需适配）
❌ FP8 训练（不支持，需关注 T30）
❌ 制程未公开（行业推测 12nm，落后同期 7nm 竞品）

与同期国产 AI 训练卡对比（2021）

指标	燧原 T20	寒武纪 MLU 370	华为 Ascend 910	差异
发布	2021-07	2021-Q4	2019	T20 年中发布
封装	2.5D 先进封装	普通封装	普通封装	T20 先进
TF32	160 TFLOPS	不支持	不支持	T20 独有
FP32	40 TFLOPS	24 TFLOPS	256 TFLOPS	Ascend 910 领先
INT8	320 TOPS	96 TOPS	512 TOPS	Ascend 910 领先
显存	64GB HBM2E	48GB HBM2	32GB HBM2	T20 最大
带宽	1.8 TB/s	614 GB/s	1.2 TB/s	T20 最大
互联	300 GB/s	200 GB/s	HCCS	T20 领先
集群	8192 卡 1.3 EFLOPS	千卡	4096 卡	T20 最大

2021 国产 AI 训练霸主：T20 显存最大（64GB）、互联最强（300 GB/s）、集群最大（8192 卡 1.3 EFLOPS）。但 FP32 算力（40 TFLOPS）和 INT8（320 TOPS）低于华为 Ascend 910。

关键时间线

时间	事件
2018-03	燧原科技成立
2019-12	邃思 1.0 / 云燧 T10 发布（12nm）
2021-07-07	邃思 2.0 / 云燧 T20 发布（WAIC）
2021-2023	T20/T21 大规模部署，云燧智算集群商用
规划中	邃思 3.0 / 云燧 T30

产品概述​

核心规格​

邃思 2.0 芯片​

云燧 T20 加速卡​

GCU-LARE 互联与集群​

软件栈 TopsRider 2.0​

厂商信息​

适用场景​

与同期国产 AI 训练卡对比（2021）​

关键时间线​

相关卡​