燧原科技 云燧T21 (邃思2.0 / DTU 2.0)
产品概述
云燧T21 是燧原科技(Enflame Technology)基于第二代云端训练芯片 邃思2.0(DTU 2.0) 推出的OAM训练模组,2021年7月发布。邃思2.0是迄今中国最大的AI计算芯片(3306mm²),采用格罗方德12nm FinFET工艺,支持TF32精度(中国首款),配备64GB HBM2E内存(中国首款)。
产品定位:高性能AI训练加速卡,面向大规模模型训练场景。
核心规格
| 项目 | 参数 |
|---|---|
| 架构 | GCU-CARA(全域计算架构,第二代) |
| 芯片代号 | 邃思2.0(DTU 2.0) |
| 制程 | 格罗方德 12nm FinFET |
| 芯片面积 | 3306 mm²(57.5mm × 57.5mm) |
| 封装 | 2.5D CoWoS(日月光),9芯片整合 |
| FP32 | 40 TFLOPS |
| TF32 | 160 TFLOPS(中国首款支持TF32的AI芯片) |
| FP16 / BF16 | 134.4 TFLOPS |
| INT8 | 320 TOPS |
| 显存 | 64 GB HBM2E(4颗三星HBM2E) |
| 显存带宽 | 1.8 TB/s(最大) |
| 互联 | GCU-LARE,双向 300 GB/s |
| TDP | ~300W(推测,基于T20加速卡) |
| 接口 | OAM模组(T21)/ PCIe 4.0(T20) |
| 发布 | 2021年7月 |
| 量产 | 2021年Q4 |
数据说明:
- ✅ FP32、TF32、FP16、INT8、显存、带宽为官方数据(知乎专栏确认)
- ⚠️ TDP为推测值,官方未公布
产品特点
1. 中国最大AI计算芯片
- 3306mm²芯片面积:达到日月光2.5D封装极限
- 9芯片整合:1颗主芯片 + 4颗HBM2E + 4颗辅助芯片
- 12nm工艺:格罗方德12nm FinFET(非7nm/5nm,但通过大面积实现高算力)
2. 首款支持TF32精度的国产芯片
- TF32(TensorFloat-32):单精度张量精度,兼顾FP32的数值稳定性和FP16的算力效率
- 全精度支持:FP32、TF32、FP16、BF16、INT8
- 中国首款:率先支持TF32精度的国产AI芯片
3. 海量显存带宽
- 64GB HBM2E:中国首款支持HBM2E的AI芯片
- 1.8 TB/s带宽:海量吞吐能力,支持大规模模型训练
- 4颗三星HBM2E:中心主芯片边缘布置4颗HBM2E内存
4. 高速全域互联
- GCU-LARE:专为AI训练集群研发的全域互联技术
- 300 GB/s双向带宽:支持数千张加速卡互联
- 优异线性加速比:大规模集群训练性能接近线性扩展
软件栈:驭算TopsRider
驭算TopsRider 是燧原科技自主知识产权的计算及编程平台。
| 组件 | 功能 | 对标 |
|---|---|---|
| 深度学习框架 | PyTorch、TensorFlow、PaddlePaddle适配 | 主流框架 |
| 分布式训练 | 支持Horovod分布式训练框架 | Horovod |
| 算子泛化 | 基于算子泛化技术及图优化策略 | - |
| 编程模型 | 开放升级的编程模型 | CUDA |
| 算子接口 | 可扩展的算子接口 | cuBLAS、cuDNN |
云燧集群:CloudBlazer Matrix 2.0
燧原科技与合作伙伴(浪潮等)共同打造 云燧智算集群CloudBlazer Matrix 2.0:
- 8192张云燧训练卡:组成超大规模智算集群
- 1.3 EFLOPS(1300 PFLOPS):单精度智能算力
- Exascale级计算:百万兆级计算能力
与友商旗舰对比(官方Benchmark)
燧原科技COO张亚林在发布会上展示了T20与NVIDIA V100、A100的Benchmark对比:
| 指标 | 云燧T20(PCIe) | 云燧T21(OAM) | NVIDIA A100 | NVIDIA V100 |
|---|---|---|---|---|
| FP32 | 33.6 TFLOPS | 40 TFLOPS | 19.5 TFLOPS | ? |
| TF32 | 134.4 TFLOPS | 160 TFLOPS | ? | - |
| FP16 | 134.4 TFLOPS | 134.4 TFLOPS | 312 TFLOPS | ? |
| INT8 | 268.8 TOPS | 320 TOPS | 624 TOPS | ? |
说明:燧原T20/T21在FP32和TF32精度下优于A100,但在FP16和INT8下仍落后。
演进路线
| 芯片 | 制程 | FP32 | TF32 | 显存 | 发布 |
|---|---|---|---|---|---|
| 邃思1.0 | 12nm | 20 TFLOPS | - | 32GB HBM2 | 2019年 |
| 邃思2.0 | 12nm | 40 TFLOPS | 160 TFLOPS | 64GB HBM2E | 2021年 |
| 邃思3.0(规划) | 7nm/5nm | ? | ? | HBM3 | 2024年? |
相关产品
- 天数智芯 天垓150(BI-V150) - 国产通用GPU训练卡
- 华为昇腾910C - 国产最强AI训练芯片
- 寒武纪MLU690 - 国产AI训练芯片
- 完整对比表
参考资料
- 知乎《燧原科技发布国内最大的AI计算芯片 整数精度INT8算力达320TOPS》(2021-07-12)
- 电子工程世界《"中国最大"AI单芯片邃思2.0发布》(2021-07-08)
- 燧原科技官方发布会(WAIC 2021)
最后更新:2026年7月3日