跳到主要内容

Rebellions REBEL-Quad

厂商: Rebellions (韩国)

分类: ASIC 专用加速卡

架构: UCIe-Advanced Chiplet

简介

Rebellions REBEL-Quad 是韩国 AI 芯片公司 Rebellions 推出的数据中心级 AI 加速卡,基于 UCIe-Advanced 4-chiplet 架构,专为前沿大语言模型的训练与推理设计。REBEL-Quad 采用统一混合精度核心,FP8 和 FP16 在单一管线中执行,无需单独的计算块或重新编译内核。

规格参数

型号算力显存/内存接口TDP制程
REBEL-Quad2,048 TFLOPS (FP8) / 1,024 (FP16)144GB HBM3E2× PCIe Gen5 x16600W5nm

官方网站

访问官方网站

驱动下载

Linux

相关文档

操作系统支持

WindowsLinuxmacOSAndroid

版本历史

版本发布时间说明
REBEL-Quad20254-chiplet UCIe-Advanced 架构,144GB HBM3E

性能基准

型号任务性能指标
REBEL-QuadFP8 推理2,048 TFLOPS
REBEL-QuadFP16 训练1,024 TFLOPS

定价信息

型号参考价格备注
REBEL-Quad需询价企业级数据中心产品

快速安装

Linux

# 安装 Rebellions SDK
# 参考官方文档
pip install rebellions-sdk

代码示例

Python (Rebellions SDK)

import rebellions as rb

# 初始化设备
device = rb.Device(0)
x = rb.randn((1024, 1024), device=device)
y = rb.matmul(x, x)
print(f"REBEL-Quad matrix multiply: {y.shape}")

架构特色

  • UCIe-Advanced Chiplet: 4 个同构 chiplet 通过 UCIe 互联,1TB/s 双向带宽,11ns 延迟
  • 混合精度管线: FP8 和 FP16 在单一管线中执行,计算密度比 ATOM™ 高 2.8 倍
  • 预测性 DMA: 软件控制的 DMA 引擎,有效带宽 2.7TB/s,降低长上下文 LLM 延迟
  • 全网格同步: 256 个路由器的硬件加速全网格同步,稀疏或不平衡负载下保持高利用率

模型兼容性

模型/框架支持情况备注
PyTorch 2.x✅ 原生支持vLLM 和 Triton 兼容
vLLM推理优化
Llama 系列大规模部署
Transformer LLM前沿模型训练

相关产品

如果你在评估替代方案,以下产品可能也适合你的场景: