2 posts tagged with "Blackwell"

NVIDIA Blackwell architecture

View all tags

2026年H1 AI芯片行业复盘：Blackwell Ultra、国产三强与推理新时代

July 1, 2026 · 12 min read

AI Compute Cards Wiki Editorial

Industry Research Team

2026年上半年，AI芯片产业发生了历史性转折——产业重心从"训练竞赛"转向"推理效率"，国产芯片市场份额首次突破40%，NVIDIA以Blackwell Ultra筑高壁垒，推理专用芯片赛道百花齐放。

一、算力再翻番：NVIDIA Blackwell Ultra 发布（6月1日）

2026年6月1日，NVIDIA CEO黄仁勋在**台北国际电脑展（Computex 2026）**上揭晓新一代AI芯片 Blackwell Ultra，为未来两年的AI基础设施竞赛划定新起跑线。

关键规格

指标	Blackwell Ultra	B200	提升
FP8算力	20 petaFLOPS	~10 petaFLOPS	100%
架构	Blackwell Ultra	Blackwell	升级
预计交付	2027年Q1	2026年Q1	—
定位	超大规模训练+推理	训练+推理	旗舰

产业意义

算力翻倍的直接影响：20 petaFLOPS FP8意味着千亿参数模型训练时间大幅缩短，万亿参数模型训练从"科学实验"走向"工程常态"
系统级平衡：Blackwell Ultra不仅是芯片，更是NVLink、HBM、散热、供电的系统级工程突破
路线图确定性：2027年Q1交付时间表，让云厂商和AI实验室可以提前18个月规划基础设施预算

挑战

能耗危机：性能翻倍伴随功耗大幅上升，数据中心供电和冷却设计面临极限挑战
可及性问题：顶级算力优先供应顶级云厂商，中小开发者和研究机构如何通过云服务以合理成本触达算力
软件栈适配：新硬件需要匹配的CUDA版本和框架支持，软件生态成熟度成为算力转化的关键瓶颈

二、国产AI芯片：从"可用"到"好用"的临界点

2026年6月16日，信创世界发布**《2026中国国产AI芯片厂商能力象限》**，清晰勾勒出国产AI芯片的整体格局。

2.1 能力象限排名

象限	代表厂商
领导者象限	华为昇腾、海光信息、寒武纪、阿里平头哥、摩尔线程
远见者象限	百度昆仑芯、壁仞科技、燧原科技、沐曦股份、瀚博半导体
竞争者象限	清微智能、黑芝麻智能、芯驰科技、砺算科技、后摩智能
挑战者象限	登临科技、知存科技、芯原股份、瑞芯微、云天励飞

2.2 华为昇腾：国产算力的定海神针

市场地位

2025年昇腾系列出货 81.2万张，占国产AI加速卡 49% 份额，稳居国产第一
昇腾950PR单卡FP8算力达 1P（PetaFLOPS）、FP4算力达 2P
推理性能约为NVIDIA H20的 2.87倍，定价仅 7.2-7.5万元，性价比优势显著

全栈优势

华为"端管云芯"一体化战略是昇腾的核心壁垒：

芯片设计：Da Vinci 3.0架构持续迭代
操作系统：鸿蒙/欧拉OS深度优化
网络通信：欧拉网络协议栈
云服务：华为云ModelArts平台无缝集成

2.3 寒武纪：率先盈利的国产AI芯片标杆

业绩爆发

指标	2025年全年	2026年Q1	同比增长
营收	64.97亿元	28.85亿元	+453% / +160%
净利润	20.59亿元（首次年度盈利）	10.13亿元	— / +185%

核心产品：思元590

在DeepSeek R1推理场景下，TPS可达 942，比H20高出约 50%
与字节跳动多年联合优化，具备短期最强的云端推理部署能力
2026年Q1营收28.85亿元中，思元590贡献超过70%

潜在风险

在2026年第2号《安全可靠测评结果公告》中缺席，原因尚未明确，将对其国内政企市场表现产生影响。

2.4 清微智能：可重构芯片的"第三路线"

技术路线

清微智能采用与Groq LPU同源的可重构数据流架构，在GPU通用性与ASIC极致效率之间找到了平衡点。

指标	清微智能 TX81	传统GPU方案	优势
推理成本	基准	+100%	降低50%
能效比	基准	基准	提升3倍
架构	可重构数据流	SIMT/SIMD	更适合推理

落地进展

可重构芯片累计出货量已超 3000万颗
在全国十余座千卡规模智算中心实现规模化落地
已启动A股IPO辅导，有望成为"可重构芯片第一股"

三、推理芯片赛道：产业重心转移的核心信号

2026年6月4日，TrendForce发布深度报告**《推理经济时代来临：AI芯片的规则正被重写》，指出AI产业的算力竞争重心正在从训练转向推理**。

3.1 为什么是现在？

成本结构改变

训练是一次性成本：模型训练完成后，边际成本趋近于零
推理是持续性成本：每一次API调用、每一个生成token，都代表算力消耗与毛利压力
单位推理成本与能效表现将直接影响毛利率与规模扩张能力

模型精简技术成熟

1.58-bit量化技术与权重剪枝，使模型可在极低内存占用下维持推理准确度
MoE（混合专家）架构通过"部分唤醒"机制，每次推理仅激活少数专家子网络，大幅降低实际运算量
精简模型的崛起，为硬式编码推理芯片提供了商业可行性

3.2 NVIDIA的百亿押注：收购Groq（2025年12月）

2025年12月24日，NVIDIA以 200亿美元取得Groq的Inference技术授权与核心团队，这是NVIDIA历史上最大规模的并购/技术收购之一。

战略意图：

补全推理短板：NVIDIA GPU在训练领域无可撼动，但推理效率一直不是最强
对抗专用推理芯片：Cerebras、Taalas、SambaNova等初创公司正在蚕食推理市场
布局Agentic AI：Agentic AI需要极低延迟、极高吞吐的推理能力

3.3 Taalas HC1：硬式编码推理的概念验证

2026年2月20日，加拿大AI芯片初创公司Taalas发布推理芯片 Taalas HC1，将Meta的开源AI模型Llama 3.1 8B直接刻印在芯片中。

关键指标

指标	Taalas HC1	NVIDIA B200（throughput optimized）	优势
推理速率	16,960 tokens/s/user	基准	~4-5x
每百万tokens成本	0.75 cents	3.79 cents	降低80%
功耗	~250W	~700W	降低64%
制程	TSMC N6	TSMC 4nm	更成熟
HBM	❌ 不使用	✅ HBM3e	成本更低

技术原理

Taalas HC1采用**存储内运算（Computing-in-Memory, CIM）**的激进实现：

将模型权重直接固化于Mask ROM中（完全硬体定义）
以片上SRAM处理动态资料（KV cache和LoRA微调权重）
仅需修改2层光罩就能产出另一个AI模型的专用芯片，将一个AI模型转化为实体芯片仅需2个月

局限性

缺乏弹性：硬式编码无法应对快速迭代的模型更新
生态壁垒：当前云端市场仍依赖通用平台，客户可能更偏好可随模型升级的弹性方案
NRE成本：一次性工程费用高，需要足够大规模的部署才能摊薄

3.4 Cerebras：晶圆级整合的上市之路

2026年5月14日，Cerebras Systems正式在纳斯达克挂牌上市，成为首家上市的晶圆级AI芯片公司。

核心技术：Wafer-Scale Integration（WSI）

WSE-3（第三代晶圆级引擎）：整片12英寸晶圆做成单一芯片
44GB片上SRAM：无需外部HBM，彻底消除内存带宽瓶颈
21 PB/s带宽：片上通信带宽，是GPU的千倍级别
与OpenAI合作：已签署逾200亿美元、规模750MW的三年算力合作协议

上市意义

Cerebras的上市是推理专用芯片赛道成熟的标志：

资本市场开始为这类公司定价
证明"非GPU"技术路线具备商业可行性
为其他推理芯片初创公司（Groq、SambaNova、Taalas等）提供了估值参照

3.5 推理芯片格局：多元技术路线并存

公司	技术路线	核心优势	代表产品
Taalas	硬式编码（Mask ROM）	极致推理效率、低成本	HC1
Cerebras	晶圆级整合（WSI）	超高带宽、大模型推理	WSE-3
Groq	SRAM-first架构	确定性延迟、高吞吐	LPU（已被NVIDIA收购）
d-Matrix	数字存储内运算（DIMC）	灵活性强于硬式编码	Corsair
Etched	Hard-wired Transformer	所有Transformer模型适用	Sohu
Axelera AI	数字存储内运算（D-IMC）+ RISC-V	高能效比	Metis AIPU

TrendForce预测：

通用GPU仍主导训练与多模型环境
但在成熟、可预测场景中，通用GPU的利润空间将受到压缩
产业格局从通用算力垄断，走向通用与专用并行的双轨结构

四、2026年H1国产AI芯片整体格局

4.1 行业进入放量期

指标	2025年	2026年Q1	趋势
国产AI加速卡出货量	165万张（占比41%）	—	持续上升
中国AI加速卡总出货量	~400万张	—	—
海光信息营收增速	—	翻倍增长	↑
寒武纪营收增速	—	+160%	↑
摩尔线程营收增速	—	翻倍增长	↑

头部厂商集体进入业绩兑现通道，行业从"技术验证"迈向"规模商用"。

4.2 三大核心发展趋势

趋势一：资本化浪潮重塑格局

2025年底至2026年初，摩尔线程、沐曦股份登陆科创板
壁仞科技登陆港股
燧原科技科创板IPO获受理
昆仑芯、平头哥启动上市进程
清微智能、瀚博半导体等推进IPO

资本化带来双重效应：

✅ 正面：为研发和生态建设提供支撑
⚠️ 负面：估值泡沫和业绩兑现压力

趋势二：产能成为最大制约变量

国产AI芯片爆发式需求与有限先进制程产能的矛盾日益尖锐：

厂商	先进制程产能需求	实际获得
华为昇腾	每月1.5万片（7nm级）	优先保障
中芯国际总产能	每月约2万片（7nm级）	—
其他厂商	合计约5000片/月	极度紧张

能否拿到稳定晶圆产能直接决定厂商生死。寒武纪75.4%的营收占比存货，本质是对产能的锁定。

趋势三：竞争从"可用"转向"好用"

早期竞争聚焦"能否跑通模型"，当前升级为"运行效率、部署成本"的比拼：

竞争维度	"可用"时代	"好用"时代
硬件性能	能否跑通模型	运行效率、能效比
软件栈	基本适配	成熟度、框架广度
生态	有无	开发者社区活跃度
部署成本	不敏感	核心竞争要素

五、2026年H2展望

5.1 即将到来的关键事件

时间	事件	影响
2026年Q3	NVIDIA Rubin架构详情公布	下一代旗舰规格揭晓
2026年Q3	华为昇腾950PR/950DT正式发布	国产推理芯片新标杆
2026年Q4	AMD MI350X规模化交付	NVIDIA Blackwell竞品
2026年Q4	寒武纪思元690发布（推测）	新一代训练芯片
2027年Q1	NVIDIA Blackwell Ultra交付	算力新标杆落地

5.2 未来三年关键竞争要素

晶圆产能获取能力：先进制程产能是稀缺资源，绑定中芯国际、TSMC的厂商具备先天优势
资本运作效率：IPO窗口期有限，能否在资本市场上融到足够资金决定研发持续性
软件生态建设深度：硬件性能只是入场券，软件栈成熟度、框架适配广度、开发者社区活跃度才是核心壁垒

六、结语：多元生态终将形成

2026年H1，AI芯片产业正在经历从"一家独大"到"多元并存"的历史性转变。

NVIDIA以Blackwell Ultra筑高训练壁垒，同时以收购Groq布局推理效率
华为昇腾以全栈能力守住国产算力的基本盘，950PR在推理性能上开始超越H20
寒武纪以率先盈利证明国产AI芯片的商业化可行性，思元590在特定场景超越国际竞品
Cerebras、Taalas等推理专用芯片公司开辟了"非GPU"的第三路线
清微智能的可重构架构为中国AI芯片提供了技术路线的多元化选择

未来三年，国产AI芯片终局将形成GPU、ASIC、可重构计算三大技术路线并存，云端与边缘协同发展的多元生态。"国产替代"不再是口号，而是正在发生的产业现实。

数据来源：

信创世界《2026中国国产AI芯片厂商能力象限》（2026-06-16）
TrendForce《推理经济时代来临：AI芯片的规则正被重写》（2026-06-04）
RayByte《算力再翻番！英伟达Blackwell Ultra芯片发布》（2026-06-02）
各公司官方财报和公告

相关阅读：

NVIDIA Vera Rubin 全面投产：智能体AI工厂时代正式开启

June 16, 2026 · 6 min read

AI Compute Cards Wiki Editorial

Industry Research Team

2026年6月1日，NVIDIA创始人兼首席执行官黄仁勋在COMPUTEX 2026（台北国际电脑展）上正式宣布：Vera Rubin平台全面投产。这标志着AI硬件从"离散加速器"向"整体化AI工厂"的根本性范式转变。

核心亮点

Rubin GPU：下一代AI计算芯片，FP4算力是Blackwell的3.6×
Vera CPU：88个自定义Arm核心（176线程），替代Grace CPU
NVLink 6：GPU间互联带宽达260 TB/s（相比Blackwell翻倍）
CX8 SuperNIC：800Gb/s网络，ConnectX-9链路达28.8 TB/s
HBM4显存：单芯片288GB，带宽13 TB/s
智能体吞吐量：相比Grace Blackwell提升10×

Vera Rubin 平台完整规格

Vera Rubin不是一个单独的GPU，而是一个完整的AI工厂平台，包含7款芯片：

芯片名称	类型	用途
Rubin GPU	主力AI计算芯片	训练+推理
Rubin Ultra GPU	旗舰版	超大尺度推理
Vera CPU	配合Rubin的CPU	Host CPU + 数据预处理
NVLink 6	互联芯片	GPU间高速互联（260 TB/s）
CX8 SuperNIC	网卡	800Gb/s网络
XDR 800G 交换机	数据中心网络	跨机架通信
Rubin平台POD	整机柜	预配置的AI工厂（144 GPU）

Rubin GPU 详细规格（推测）

参数	Rubin GPU	Rubin Ultra	Blackwell (B200)
架构	Rubin	Rubin Ultra	Blackwell
制程	TSMC 3nm（推测）	TSMC 3nm	TSMC 4NP
显存	288GB HBM4	288GB HBM4E（推测）	192GB HBM3e
显存带宽	13 TB/s	13+ TB/s	8 TB/s
FP4 算力	~3,600 TFLOPS（推测）	~5,000 TFLOPS（推测）	2,250 TFLOPS
TDP	1,000W（推测）	1,200W（推测）	700-1000W
互联	NVLink 6（260 TB/s）	NVLink 6	NVLink 5（1800 GB/s）
量产时间	2026 Q3	2027 下半年	2024 Q4

📌 注：Rubin具体规格尚未完全公开，上表部分为推测值。

Vera CPU：替代Grace的新一代Host CPU

Vera CPU是NVIDIA自研的Arm架构CPU，取代此前的Grace CPU：

参数	Vera CPU	Grace CPU
核心数	88核（176线程）	72核（144线程）
架构	自定义Armv9（推测）	Arm Neoverse V2
接口	NVLink 5.0（1.8 TB/s）	NVLink 4.0（900 GB/s）
TDP	~500W（推测）	350-500W
用途	AI工厂Host CPU	超算/AI Host

关键升级：Vera与Rubin GPU的协同设计，使其在计算、数据加载、预处理上实现端到端优化，对标Google TPU 8t的Arm Axion集成。

与Blackwell的性能对比

NVIDIA官方宣称，在相同POD配置（144个GPU芯片）下：

指标	Grace Blackwell (GB200 NVL72)	Vera Rubin NVL144	提升
FP4 算力	1.1 PFLOPS	3.6 PFLOPS	3.3×
显存容量	288GB×72 = 20.7TB	288GB×144 = 41.4TB	2×
显存带宽	8 TB/s×72	13 TB/s×144	~3.3×
NVLink 带宽	1800 GB/s×72	260 TB/s（全POD）	~2×
智能体吞吐量	基准	10×	10×
每瓦性能	基准	25×（与单独CPU比）	25×

💡 为何是"10×智能体吞吐量"？ 智能体AI（Agentic AI）工作负载与训练/推理不同：一个提示词可能触发包含推理、检索、工具调用、响应生成的多个环节，涉及数千个步骤。Rubin平台专为这种长链条、高并发工作负载优化。

MGX 第三代机架级系统

Vera Rubin采用MGX第三代开源机架级系统设计：

五机架协同：Vera Rubin NVL72系统 + Vera CPU + Groq 3 LPX + Vera BlueField-4 STX存储 + Spectrum-6 SPX以太网
全球供应链：30个国家、350+工厂、数百家合作伙伴（Dell、HPE、Lenovo、Supermicro、Asus、Foxconn等）
Spectrum-X 以太网硅光技术：全球首款基于CPO（光电一体化封装）、支持200Gb/s SerDes的交换机，现已量产

量产时间表

时间	事件
2026年1月	CES 2026首次公布Rubin平台
2026年6月1日	COMPUTEX 2026宣布全面投产
2026年秋季	Vera Rubin正式启动量产并开始出货
2027年下半年	Rubin Ultra发布（HBM4E升级）
2028年	Feynman架构（下一代）

AI工厂：从卖芯片到卖"智能生产线"

黄仁勋在发布会上说了一句让业界震动的话：

"Rubin的Agentic AI吞吐量，是Blackwell的10倍。Rubin是一个完整的AI工厂平台。"

这标志着NVIDIA商业模式的根本转变：

过去：卖GPU（H100/B200），客户自己搭建系统
现在：卖"AI工厂成套解决方案"（Vera Rubin POD），包含GPU、CPU、网络、存储、软件栈
未来：成为全球AI基础设施的"台积电"（提供智能生产能力）

与竞品对比

厂商	产品	定位	优势	劣势
NVIDIA	Vera Rubin	AI工厂整体方案	生态最完整、软件最成熟	价格昂贵、功耗极高
AMD	MI455X（MI400系列）	训练竞品	性价比、开放生态	软件生态差距
Google	TPU 8i/8t	云上训练/推理	与Gemini深度集成	仅Google Cloud
华为	昇腾910C/950	国产替代	中国本土化、昇思框架	受出口管制影响

行业影响

AI实验室：Frontier模型训练时间从"数月"缩短到"数周"
云服务商：必须决定是否采购Vera Rubin POD（与自研芯片战略冲突）
超大规模数据中心：AI工厂成为新的竞争维度（谁有最强算力，谁就能训练最强模型）
国产芯片：昇腾910C/950、寒武纪MLU590等必须在2026-2027年追上Blackwell，否则差距将扩大到Rubin时代

参考资料

本文基于NVIDIA官方公告及公开资料整理，部分规格为推测值，以官方最终发布为准。

一、算力再翻番：NVIDIA Blackwell Ultra 发布（6月1日）​

关键规格​

产业意义​

挑战​

二、国产AI芯片：从"可用"到"好用"的临界点​

2.1 能力象限排名​

2.2 华为昇腾：国产算力的定海神针​

市场地位​

全栈优势​

最新进展​

2.3 寒武纪：率先盈利的国产AI芯片标杆​

业绩爆发​

核心产品：思元590​

潜在风险​

2.4 清微智能：可重构芯片的"第三路线"​

技术路线​

落地进展​

三、推理芯片赛道：产业重心转移的核心信号​

3.1 为什么是现在？​

成本结构改变​

模型精简技术成熟​

3.2 NVIDIA的百亿押注：收购Groq（2025年12月）​

3.3 Taalas HC1：硬式编码推理的概念验证​

关键指标​

技术原理​

局限性​

3.4 Cerebras：晶圆级整合的上市之路​

核心技术：Wafer-Scale Integration（WSI）​

上市意义​

3.5 推理芯片格局：多元技术路线并存​

四、2026年H1国产AI芯片整体格局​

4.1 行业进入放量期​

4.2 三大核心发展趋势​

趋势一：资本化浪潮重塑格局​

趋势二：产能成为最大制约变量​

趋势三：竞争从"可用"转向"好用"​

五、2026年H2展望​

5.1 即将到来的关键事件​

5.2 未来三年关键竞争要素​

六、结语：多元生态终将形成​

核心亮点​

Vera Rubin 平台完整规格​

Rubin GPU 详细规格（推测）​

Vera CPU：替代Grace的新一代Host CPU​

与Blackwell的性能对比​

MGX 第三代机架级系统​

量产时间表​

AI工厂：从卖芯片到卖"智能生产线"​

与竞品对比​

行业影响​

相关芯片​

参考资料​