燧原科技云燧T21 (邃思2.0 / DTU 2.0)

产品概述

云燧T21 是燧原科技（Enflame Technology）基于第二代云端训练芯片 邃思2.0（DTU 2.0） 推出的OAM训练模组，2021年7月发布。邃思2.0是迄今中国最大的AI计算芯片（3306mm²），采用格罗方德12nm FinFET工艺，支持TF32精度（中国首款），配备64GB HBM2E内存（中国首款）。

产品定位：高性能AI训练加速卡，面向大规模模型训练场景。

核心规格

项目	参数
架构	GCU-CARA（全域计算架构，第二代）
芯片代号	邃思2.0（DTU 2.0）
制程	格罗方德 12nm FinFET
芯片面积	3306 mm²（57.5mm × 57.5mm）
封装	2.5D CoWoS（日月光），9芯片整合
FP32	40 TFLOPS
TF32	160 TFLOPS（中国首款支持TF32的AI芯片）
FP16 / BF16	134.4 TFLOPS
INT8	320 TOPS
显存	64 GB HBM2E（4颗三星HBM2E）
显存带宽	1.8 TB/s（最大）
互联	GCU-LARE，双向 300 GB/s
TDP	~300W（推测，基于T20加速卡）
接口	OAM模组（T21）/ PCIe 4.0（T20）
发布	2021年7月
量产	2021年Q4

数据说明：

✅ FP32、TF32、FP16、INT8、显存、带宽为官方数据（知乎专栏确认）

⚠️ TDP为推测值，官方未公布

产品特点

1. 中国最大AI计算芯片

3306mm²芯片面积：达到日月光2.5D封装极限
9芯片整合：1颗主芯片 + 4颗HBM2E + 4颗辅助芯片
12nm工艺：格罗方德12nm FinFET（非7nm/5nm，但通过大面积实现高算力）

2. 首款支持TF32精度的国产芯片

TF32（TensorFloat-32）：单精度张量精度，兼顾FP32的数值稳定性和FP16的算力效率
全精度支持：FP32、TF32、FP16、BF16、INT8
中国首款：率先支持TF32精度的国产AI芯片

3. 海量显存带宽

64GB HBM2E：中国首款支持HBM2E的AI芯片
1.8 TB/s带宽：海量吞吐能力，支持大规模模型训练
4颗三星HBM2E：中心主芯片边缘布置4颗HBM2E内存

4. 高速全域互联

GCU-LARE：专为AI训练集群研发的全域互联技术
300 GB/s双向带宽：支持数千张加速卡互联
优异线性加速比：大规模集群训练性能接近线性扩展

软件栈：驭算TopsRider

驭算TopsRider 是燧原科技自主知识产权的计算及编程平台。

组件	功能	对标
深度学习框架	PyTorch、TensorFlow、PaddlePaddle适配	主流框架
分布式训练	支持Horovod分布式训练框架	Horovod
算子泛化	基于算子泛化技术及图优化策略	-
编程模型	开放升级的编程模型	CUDA
算子接口	可扩展的算子接口	cuBLAS、cuDNN

云燧集群：CloudBlazer Matrix 2.0

燧原科技与合作伙伴（浪潮等）共同打造 云燧智算集群CloudBlazer Matrix 2.0：

8192张云燧训练卡：组成超大规模智算集群
1.3 EFLOPS（1300 PFLOPS）：单精度智能算力
Exascale级计算：百万兆级计算能力

与友商旗舰对比（官方Benchmark）

燧原科技COO张亚林在发布会上展示了T20与NVIDIA V100、A100的Benchmark对比：

指标	云燧T20（PCIe）	云燧T21（OAM）	NVIDIA A100	NVIDIA V100
FP32	33.6 TFLOPS	40 TFLOPS	19.5 TFLOPS	?
TF32	134.4 TFLOPS	160 TFLOPS	?	-
FP16	134.4 TFLOPS	134.4 TFLOPS	312 TFLOPS	?
INT8	268.8 TOPS	320 TOPS	624 TOPS	?

说明：燧原T20/T21在FP32和TF32精度下优于A100，但在FP16和INT8下仍落后。

演进路线

芯片	制程	FP32	TF32	显存	发布
邃思1.0	12nm	20 TFLOPS	-	32GB HBM2	2019年
邃思2.0	12nm	40 TFLOPS	160 TFLOPS	64GB HBM2E	2021年
邃思3.0（规划）	7nm/5nm	?	?	HBM3	2024年?

参考资料

知乎《燧原科技发布国内最大的AI计算芯片整数精度INT8算力达320TOPS》（2021-07-12）
电子工程世界《"中国最大"AI单芯片邃思2.0发布》（2021-07-08）
燧原科技官方发布会（WAIC 2021）

最后更新：2026年7月3日

产品概述​

核心规格​

产品特点​

1. 中国最大AI计算芯片​

2. 首款支持TF32精度的国产芯片​

3. 海量显存带宽​

4. 高速全域互联​

软件栈：驭算TopsRider​

云燧集群：CloudBlazer Matrix 2.0​

与友商旗舰对比（官方Benchmark）​

演进路线​

相关产品​

参考资料​