产品概述
TX81 是清微智能于 2024 年量产的云端大算力 AI 芯片,基于清微自研 可重构计算架构(RPU)设计,采用独特的 C2C(Compute-to-Compute)算力网格技术,构建高带宽、低延迟的数据流通路,支持万亿以上参数大模型部署,整体解决方案成本相比同行业产品降低 50%,能效比提升 3 倍,是清微智能面向智算中心等大规模 AI 应用场景的主力芯片产品。
定位:云端训练+推理一体芯片(RPU 架构,与 GPU/ASIC 路径不同),依托可重构架构的灵活性,同时支持训练与推理场景。
核心规格
| 项目 | 参数 |
|---|
| 架构 | 自研 RPU(Reconfigurable Processing Unit),可重构计算架构 |
| 制程 | 未公开(推测 7nm/6nm) |
| FP32/FP16/INT8 算力 | 未公开(官方未披露具体 TFLOPS/TOPS 数值) |
| C2C 算力网格 | 独特架构,高带宽、低延迟数据通路,扩展性和灵活性优于传统交换机方案 |
| 大模型支持 | 万亿以上参数大模型部署 |
| 显存容量 | 未公开 |
| TDP | 300 W(推测) |
| 互联 | C2C 网格互联(多卡扩展) |
| 发布 | 2024 年(量产) |
| 量产 | 2024 年起 |
| 软件栈 | 清微智能软件栈(支持 PyTorch/TensorFlow 适配) |
⚠️ 规格说明:TX81 的详细规格(TDP、显存、具体算力数值)官方未完整公开,以上部分为基于公开报道的推测,以清微智能后续官方数据表为准。
RPU 架构优势
清微智能的 RPU 架构是 CPU、FPGA、GPU 之外的第四类通用计算芯片:
| 特性 | RPU(可重构) | GPU | 优势 |
|---|
| 能效比 | 同等算力下能耗比 GPU 降低 50%+ | 基准 | RPU 更优 |
| 灵活性 | 硬件级可重构,算法与硬件协同优化 | 固定架构 | RPU 更灵活 |
| 扩展性 | C2C 算力网格,无外部交换机瓶颈 | NVLink/InfiniBand | 架构级优势 |
| 成本 | 解决方案成本比同行业 降低 50% | 基准 | RPU 更优 |
清微智能产品矩阵
| 系列 | 定位 | 代表产品 | 发布 |
|---|
| TX5 系列 | IoT/边缘视觉 | TX510 | 2021 |
| TX8 系列 | 云端大算力 | TX81 | 2024 |
| TX8 系列(下一代) | 云端大算力(升级) | TX82(规划) | 2026(规划) |
已验证部署
- REX1032 训推一体服务器:搭载 TX81 芯片,支持万亿参数大模型部署
- 适配 DeepSeek-R1 系列模型:已在多个行业实现服务器部署
- 应用场景:智算中心、金融、能源等行业
出货情况
| 产品 | 出货量 |
|---|
| 可重构芯片(全品类,含 IoT) | 超 3000 万颗 |
| 云端 AI 算力卡(TX81 等) | 超 2 万张 |
适用场景
- ✅ 智算中心(C2C 网格架构,低延迟高带宽)
- ✅ 万亿参数大模型训练/推理(TX81 已验证)
- ✅ 成本敏感型项目(解决方案成本降低 50%)
- ✅ 能效敏感型数据中心(能效比提升 3 倍)
- ✅ DeepSeek 等国产大模型部署(已适配)
- ❌ CUDA 生态强依赖(RPU 为独立架构,需迁移)
- ❌ 公开算力基准测试(官方未披露具体 TFLOPS)
产品演进
| 产品 | 发布 | 状态 |
|---|
| TX510(IoT 视觉) | 2021 | 在售 |
| TX81(云端大算力) | 2024 | 当前主力 |
| TX82(云端大算力升级) | 2026(规划) | 下一代 |
相关卡
参考资料