产品概述
云燧 T20 是燧原科技于 2021 年 7 月 7 日 在世界人工智能大会(WAIC)上发布的第二代 AI 训练加速卡,基于自研 邃思 2.0(DTU 2.0)芯片,采用 2.5D 先进封装(57.5mm × 57.5mm,整合 9 颗芯片),TF32 算力 160 TFLOPS(国内率先支持 TF32)、INT8 算力 320 TOPS,配备 64GB HBM2E 显存(1.8 TB/s 带宽),GCU-LARE 互联技术支持集群扩展至 8192 卡(1.3 EFLOPS)。
燧原是"GPU 四小龙"之一,主打国产云端 AI 训练与推理。
产品演进:
- 邃思 1.0 / 云燧 T10(2019):第一代 12nm,FP32 20 TFLOPS
- 邃思 2.0 / 云燧 T20/T21(2021):2.5D 封装,TF32 160 TFLOPS — 本页
- 邃思 3.0 / 云燧 T30(规划中):下一代
核心规格
邃思 2.0 芯片
| 项目 | 参数 |
|---|
| 架构 | 自研 GCU-CARA 全域计算架构 |
| 制程 | 未公开(行业推测 12nm) |
| 封装 | 2.5D 先进封装,整合 9 颗芯片 |
| 封装尺寸 | 57.5mm × 57.5mm(发布时中国最大计算芯片) |
| FP32 | 40 TFLOPS |
| TF32 | 160 TFLOPS(国内率先支持) |
| FP16 / BF16 | 支持(具体数值未披露) |
| INT8 | 320 TOPS |
| 显存 | 64GB HBM2E(三星,国内首款支持) |
| 显存带宽 | 1.8 TB/s(芯片级) |
| 互联 | GCU-LARE®(燧原智能互联),双向 300 GB/s |
云燧 T20 加速卡
| 项目 | 参数 |
|---|
| 核心芯片 | 邃思 2.0 |
| 定位 | 数据中心 AI 训练加速卡 |
| 形态 | PCIe 训练加速卡 |
| 多卡互联 | 机内 4 卡全互联 / 增强 8 卡全互联 |
| 集群 | 支持从单机多卡到千卡级别 |
| 软件栈 | 驭算 TopsRider 2.0 |
| 开发接口 | C++ / Python,多层次 API 开放 |
| 发布 | 2021 年 7 月 7 日(WAIC 2021) |
| TDP | 未公开 |
GCU-LARE 互联与集群
| 规格 | 参数 |
|---|
| 互联技术 | GCU-LARE® 全域互联 |
| 芯片间带宽 | 双向 300 GB/s |
| 机内互联 | 4 卡全互联 → 增强 8 卡全互联 |
| 集群方案 | 云燧智算集群 CloudBlazer Matrix 2.0 |
| 最大集群 | 8192 张 云燧训练卡 |
| 集群总算力 | 最高 1.3 EFLOPS(FP32) |
| 散热 | 液冷,PUE < 1.5 |
| 机柜方案 | 单机柜高密度部署 |
发布时纪录:燧原 COO 表示"在全世界还没有人能达到在单精度算力上用 8000 张卡实现超过 1E 的算力"。
软件栈 TopsRider 2.0
| 层级 | 工具 | 说明 |
|---|
| 平台 | 驭算 TopsRider 2.0 | 燧原统一编程平台 |
| AI 框架 | PyTorch | 原生支持 |
| TensorFlow | 支持 |
| PaddlePaddle | 百度飞桨 |
| 开发接口 | C++ / Python | 多层次 API |
| 算子库 | 自研算子库 | 覆盖主流模型 |
| 编译器 | GCU-CARA 工具链 | 自动化优化 |
| 性能 | TF32 精度平均 2.5 倍于友商次旗舰 | 多类模型与友商旗舰不分伯仲 |
厂商信息
| 项目 | 内容 |
|---|
| 公司 | 上海燧原科技股份有限公司 |
| 成立 | 2018 年 3 月 |
| 创始人 | 赵立东(前 AMD 中国区高管)、张亚林(COO) |
| T20 发布 | 2021 年 7 月 7 日(WAIC 2021) |
| 融资 | 累计数十亿元(腾讯、红杉等) |
| 定位 | 国产云端 AI 训练/推理芯片 |
| 生态 | "GPU 四小龙"之一(沐曦、壁仞、燧原、摩尔线程) |
| 合作 | 与友商合作打造云燧智算集群 |
适用场景
- ✅ 国产 AI 大模型训练(8192 卡集群 1.3 EFLOPS)
- ✅ 数据中心训练(TF32 160 TFLOPS 高效训练)
- ✅ 千卡级集群部署(GCU-LARE 互联成熟方案)
- ✅ 模型种类覆盖广(多精度、动态特征支持)
- ✅ 国产化算力刚需(自主可控)
- ❌ 单卡推理(非主要定位,云燧 i20 推理卡更优)
- ❌ CUDA 生态(自研 TopsRider,迁移需适配)
- ❌ FP8 训练(不支持,需关注 T30)
- ❌ 制程未公开(行业推测 12nm,落后同期 7nm 竞品)
与同期国产 AI 训练卡对比(2021)
| 指标 | 燧原 T20 | 寒武纪 MLU 370 | 华为 Ascend 910 | 差异 |
|---|
| 发布 | 2021-07 | 2021-Q4 | 2019 | T20 年中发布 |
| 封装 | 2.5D 先进封装 | 普通封装 | 普通封装 | T20 先进 |
| TF32 | 160 TFLOPS | 不支持 | 不支持 | T20 独有 |
| FP32 | 40 TFLOPS | 24 TFLOPS | 256 TFLOPS | Ascend 910 领先 |
| INT8 | 320 TOPS | 96 TOPS | 512 TOPS | Ascend 910 领先 |
| 显存 | 64GB HBM2E | 48GB HBM2 | 32GB HBM2 | T20 最大 |
| 带宽 | 1.8 TB/s | 614 GB/s | 1.2 TB/s | T20 最大 |
| 互联 | 300 GB/s | 200 GB/s | HCCS | T20 领先 |
| 集群 | 8192 卡 1.3 EFLOPS | 千卡 | 4096 卡 | T20 最大 |
2021 国产 AI 训练霸主:T20 显存最大(64GB)、互联最强(300 GB/s)、集群最大(8192 卡 1.3 EFLOPS)。但 FP32 算力(40 TFLOPS)和 INT8(320 TOPS)低于华为 Ascend 910。
关键时间线
| 时间 | 事件 |
|---|
| 2018-03 | 燧原科技成立 |
| 2019-12 | 邃思 1.0 / 云燧 T10 发布(12nm) |
| 2021-07-07 | 邃思 2.0 / 云燧 T20 发布(WAIC) |
| 2021-2023 | T20/T21 大规模部署,云燧智算集群商用 |
| 规划中 | 邃思 3.0 / 云燧 T30 |
相关卡