MetaX 沐曦曦云 C500 (2022)

产品概述

曦云 C500 是沐曦集成电路于 2022 年发布的首款训推一体通用 GPU，基于自研 XCORE 1.0 架构设计，配备 64GB HBM2e 显存，支持 FP64/FP32/TF32/FP16/BF16/INT8 多精度混合计算，FP16 算力 280 TFLOPS，INT8 算力 560 TOPS，接口支持 PCIe Gen5 和 MetaXLink 多卡互联，是沐曦"曦云"C 系列的首款产品。

定位：训推一体 GPU，兼顾 AI 训练和推理场景，性能优于 NVIDIA H20（据第三方评测）。

核心规格

项目	参数
架构	自研 XCORE 1.0（数十个核心 IP）
制程	未公开（推测 7nm）
FP32	54 TFLOPS（矢量 18 + 矩阵 36）
TF32	140 TFLOPS
FP16	280 TFLOPS
BF16	280 TFLOPS
INT8	560 TOPS
显存容量	64 GB HBM2e
显存带宽	未公开（推测 ~1.6 TB/s）
TDP	350 W（推测）
互联	MetaXLink（7 个高速互连接口，最多 64 卡互联）
接口	PCIe Gen5 + MetaXLink
FP64 支持	✅（科学计算/气象预测）
发布	2022 年
量产	2023 年起
软件栈	MXMACA（兼容 CUDA，迁移成本降低 90%）

⚠️ 规格说明：制程、TDP、显存带宽官方未完整公开，以沐曦后续官方数据表为准。

曦云C系列产品线

产品	架构	显存	FP16 TFLOPS	发布	状态
曦云C500	XCORE 1.0	64GB HBM2e	280 TFLOPS	2022	在售
曦云C550	XCORE 1.x	未公开	未公开	2024	在售
曦云C588	XCORE 1.x	未公开	未公开	2024+	在售
曦云C600	XCORE 1.5	144GB HBM3e	FP8 1000 TFLOPS	2025	风险量产

与 NVIDIA H20 对比

指标	曦云C500	NVIDIA H20	差异
FP16	280 TFLOPS	~300 TFLOPS	-7%（接近）
INT8	560 TOPS	~600 TOPS	-7%（接近）
显存	64GB HBM2e	96GB HBM3	-33%
互联	MetaXLink	NVLink	待对比
生态	MXMACA（CUDA 兼容）	CUDA	H20 成熟
价格	约 3.89 万元/卡	~20 万元/卡	C500 便宜 80%

第三方评测：据公开资料，曦云 C500 系列训推一体 GPU 性能优于 H20。

MXMACA 软件生态

层级	工具	说明
软件栈	MXMACA	沐曦统一计算架构
AI 框架	PyTorch	原生支持
分布式	DeepSpeed	分布式训练
CUDA 兼容	自动迁移工具	代码迁移成本降低 90% 以上
大模型	支持国产千卡集群	已验证全参数训练

适用场景

✅ 国产大模型训练（280 TFLOPS FP16，64GB 显存）
✅ AI 推理即服务（560 TOPS INT8）
✅ 科学计算（FP64 双精度支持）
✅ 气象预测（HPC 传统场景）
✅ 国产智算中心（性价比优势）
✅ CUDA 迁移场景（90%+ 迁移成本降低）
❌ FP8 推理（未直接支持 FP8 格式）
❌ 超大规模集群（MetaXLink 待验证 vs NVLink）

MetaX 沐曦曦云 C500 (2022)

产品概述

核心规格

曦云C系列产品线

与 NVIDIA H20 对比

MXMACA 软件生态

适用场景

相关卡

参考资料

产品概述​

核心规格​

曦云C系列产品线​

与 NVIDIA H20 对比​

MXMACA 软件生态​

适用场景​

相关卡​

参考资料​

产品概述

核心规格

曦云C系列产品线

与 NVIDIA H20 对比

MXMACA 软件生态

适用场景

相关卡

参考资料