Skip to main content

2026年H1 AI芯片行业复盘:Blackwell Ultra、国产三强与推理新时代

· 12 min read
Industry Research Team

2026年上半年,AI芯片产业发生了历史性转折——产业重心从"训练竞赛"转向"推理效率",国产芯片市场份额首次突破40%,NVIDIA以Blackwell Ultra筑高壁垒,推理专用芯片赛道百花齐放。


一、算力再翻番:NVIDIA Blackwell Ultra 发布(6月1日)

2026年6月1日,NVIDIA CEO黄仁勋在**台北国际电脑展(Computex 2026)**上揭晓新一代AI芯片 Blackwell Ultra,为未来两年的AI基础设施竞赛划定新起跑线。

关键规格

指标Blackwell UltraB200提升
FP8算力20 petaFLOPS~10 petaFLOPS100%
架构Blackwell UltraBlackwell升级
预计交付2027年Q12026年Q1
定位超大规模训练+推理训练+推理旗舰

产业意义

  1. 算力翻倍的直接影响:20 petaFLOPS FP8意味着千亿参数模型训练时间大幅缩短,万亿参数模型训练从"科学实验"走向"工程常态"
  2. 系统级平衡:Blackwell Ultra不仅是芯片,更是NVLink、HBM、散热、供电的系统级工程突破
  3. 路线图确定性:2027年Q1交付时间表,让云厂商和AI实验室可以提前18个月规划基础设施预算

挑战

  • 能耗危机:性能翻倍伴随功耗大幅上升,数据中心供电和冷却设计面临极限挑战
  • 可及性问题:顶级算力优先供应顶级云厂商,中小开发者和研究机构如何通过云服务以合理成本触达算力
  • 软件栈适配:新硬件需要匹配的CUDA版本和框架支持,软件生态成熟度成为算力转化的关键瓶颈

二、国产AI芯片:从"可用"到"好用"的临界点

2026年6月16日,信创世界发布**《2026中国国产AI芯片厂商能力象限》**,清晰勾勒出国产AI芯片的整体格局。

2.1 能力象限排名

象限代表厂商
领导者象限华为昇腾、海光信息、寒武纪、阿里平头哥、摩尔线程
远见者象限百度昆仑芯、壁仞科技、燧原科技、沐曦股份、瀚博半导体
竞争者象限清微智能、黑芝麻智能、芯驰科技、砺算科技、后摩智能
挑战者象限登临科技、知存科技、芯原股份、瑞芯微、云天励飞

2.2 华为昇腾:国产算力的定海神针

市场地位

  • 2025年昇腾系列出货 81.2万张,占国产AI加速卡 49% 份额,稳居国产第一
  • 昇腾950PR单卡FP8算力达 1P(PetaFLOPS)、FP4算力达 2P
  • 推理性能约为NVIDIA H20的 2.87倍,定价仅 7.2-7.5万元,性价比优势显著

全栈优势

华为"端管云芯"一体化战略是昇腾的核心壁垒:

  • 芯片设计:Da Vinci 3.0架构持续迭代
  • 操作系统:鸿蒙/欧拉OS深度优化
  • 网络通信:欧拉网络协议栈
  • 云服务:华为云ModelArts平台无缝集成

最新进展

  • 2026年6月5日,深圳河套学院联合哈工大(深圳)、华为团队,依托昇腾910C集群完成 1.6万亿参数DeepSeek V4 Pro大模型全参数后训练
  • 这是国产AI芯片首次完成万亿参数级大模型训练,标志着"国产替代"从推理迈向训练

2.3 寒武纪:率先盈利的国产AI芯片标杆

业绩爆发

指标2025年全年2026年Q1同比增长
营收64.97亿元28.85亿元+453% / +160%
净利润20.59亿元(首次年度盈利)10.13亿元— / +185%

核心产品:思元590

  • DeepSeek R1推理场景下,TPS可达 942,比H20高出约 50%
  • 与字节跳动多年联合优化,具备短期最强的云端推理部署能力
  • 2026年Q1营收28.85亿元中,思元590贡献超过70%

潜在风险

在2026年第2号《安全可靠测评结果公告》中缺席,原因尚未明确,将对其国内政企市场表现产生影响。

2.4 清微智能:可重构芯片的"第三路线"

技术路线

清微智能采用与Groq LPU同源的可重构数据流架构,在GPU通用性与ASIC极致效率之间找到了平衡点。

指标清微智能 TX81传统GPU方案优势
推理成本基准+100%降低50%
能效比基准基准提升3倍
架构可重构数据流SIMT/SIMD更适合推理

落地进展

  • 可重构芯片累计出货量已超 3000万颗
  • 在全国十余座千卡规模智算中心实现规模化落地
  • 已启动A股IPO辅导,有望成为"可重构芯片第一股"

三、推理芯片赛道:产业重心转移的核心信号

2026年6月4日,TrendForce发布深度报告**《推理经济时代来临:AI芯片的规则正被重写》,指出AI产业的算力竞争重心正在从训练转向推理**。

3.1 为什么是现在?

成本结构改变

  • 训练是一次性成本:模型训练完成后,边际成本趋近于零
  • 推理是持续性成本:每一次API调用、每一个生成token,都代表算力消耗与毛利压力
  • 单位推理成本与能效表现将直接影响毛利率与规模扩张能力

模型精简技术成熟

  • 1.58-bit量化技术与权重剪枝,使模型可在极低内存占用下维持推理准确度
  • MoE(混合专家)架构通过"部分唤醒"机制,每次推理仅激活少数专家子网络,大幅降低实际运算量
  • 精简模型的崛起,为硬式编码推理芯片提供了商业可行性

3.2 NVIDIA的百亿押注:收购Groq(2025年12月)

2025年12月24日,NVIDIA以 200亿美元取得Groq的Inference技术授权与核心团队,这是NVIDIA历史上最大规模的并购/技术收购之一。

战略意图

  1. 补全推理短板:NVIDIA GPU在训练领域无可撼动,但推理效率一直不是最强
  2. 对抗专用推理芯片:Cerebras、Taalas、SambaNova等初创公司正在蚕食推理市场
  3. 布局Agentic AI:Agentic AI需要极低延迟、极高吞吐的推理能力

3.3 Taalas HC1:硬式编码推理的概念验证

2026年2月20日,加拿大AI芯片初创公司Taalas发布推理芯片 Taalas HC1,将Meta的开源AI模型Llama 3.1 8B直接刻印在芯片中

关键指标

指标Taalas HC1NVIDIA B200(throughput optimized)优势
推理速率16,960 tokens/s/user基准~4-5x
每百万tokens成本0.75 cents3.79 cents降低80%
功耗~250W~700W降低64%
制程TSMC N6TSMC 4nm更成熟
HBM❌ 不使用✅ HBM3e成本更低

技术原理

Taalas HC1采用**存储内运算(Computing-in-Memory, CIM)**的激进实现:

  • 将模型权重直接固化于Mask ROM中(完全硬体定义)
  • 以片上SRAM处理动态资料(KV cache和LoRA微调权重)
  • 仅需修改2层光罩就能产出另一个AI模型的专用芯片,将一个AI模型转化为实体芯片仅需2个月

局限性

  • 缺乏弹性:硬式编码无法应对快速迭代的模型更新
  • 生态壁垒:当前云端市场仍依赖通用平台,客户可能更偏好可随模型升级的弹性方案
  • NRE成本:一次性工程费用高,需要足够大规模的部署才能摊薄

3.4 Cerebras:晶圆级整合的上市之路

2026年5月14日,Cerebras Systems正式在纳斯达克挂牌上市,成为首家上市的晶圆级AI芯片公司

核心技术:Wafer-Scale Integration(WSI)

  • WSE-3(第三代晶圆级引擎):整片12英寸晶圆做成单一芯片
  • 44GB片上SRAM:无需外部HBM,彻底消除内存带宽瓶颈
  • 21 PB/s带宽:片上通信带宽,是GPU的千倍级别
  • 与OpenAI合作:已签署逾200亿美元、规模750MW的三年算力合作协议

上市意义

Cerebras的上市是推理专用芯片赛道成熟的标志

  1. 资本市场开始为这类公司定价
  2. 证明"非GPU"技术路线具备商业可行性
  3. 为其他推理芯片初创公司(Groq、SambaNova、Taalas等)提供了估值参照

3.5 推理芯片格局:多元技术路线并存

公司技术路线核心优势代表产品
Taalas硬式编码(Mask ROM)极致推理效率、低成本HC1
Cerebras晶圆级整合(WSI)超高带宽、大模型推理WSE-3
GroqSRAM-first架构确定性延迟、高吞吐LPU(已被NVIDIA收购)
d-Matrix数字存储内运算(DIMC)灵活性强于硬式编码Corsair
EtchedHard-wired Transformer所有Transformer模型适用Sohu
Axelera AI数字存储内运算(D-IMC)+ RISC-V高能效比Metis AIPU

TrendForce预测

  • 通用GPU仍主导训练与多模型环境
  • 但在成熟、可预测场景中,通用GPU的利润空间将受到压缩
  • 产业格局从通用算力垄断,走向通用与专用并行的双轨结构

四、2026年H1国产AI芯片整体格局

4.1 行业进入放量期

指标2025年2026年Q1趋势
国产AI加速卡出货量165万张(占比41%)持续上升
中国AI加速卡总出货量~400万张
海光信息营收增速翻倍增长
寒武纪营收增速+160%
摩尔线程营收增速翻倍增长

头部厂商集体进入业绩兑现通道,行业从"技术验证"迈向"规模商用"。

4.2 三大核心发展趋势

趋势一:资本化浪潮重塑格局

  • 2025年底至2026年初,摩尔线程、沐曦股份登陆科创板
  • 壁仞科技登陆港股
  • 燧原科技科创板IPO获受理
  • 昆仑芯、平头哥启动上市进程
  • 清微智能、瀚博半导体等推进IPO

资本化带来双重效应:

  • 正面:为研发和生态建设提供支撑
  • ⚠️ 负面:估值泡沫和业绩兑现压力

趋势二:产能成为最大制约变量

国产AI芯片爆发式需求与有限先进制程产能的矛盾日益尖锐:

厂商先进制程产能需求实际获得
华为昇腾每月1.5万片(7nm级)优先保障
中芯国际总产能每月约2万片(7nm级)
其他厂商合计约5000片/月极度紧张

能否拿到稳定晶圆产能直接决定厂商生死。寒武纪75.4%的营收占比存货,本质是对产能的锁定。

趋势三:竞争从"可用"转向"好用"

早期竞争聚焦"能否跑通模型",当前升级为"运行效率、部署成本"的比拼:

竞争维度"可用"时代"好用"时代
硬件性能能否跑通模型运行效率、能效比
软件栈基本适配成熟度、框架广度
生态有无开发者社区活跃度
部署成本不敏感核心竞争要素

五、2026年H2展望

5.1 即将到来的关键事件

时间事件影响
2026年Q3NVIDIA Rubin架构详情公布下一代旗舰规格揭晓
2026年Q3华为昇腾950PR/950DT正式发布国产推理芯片新标杆
2026年Q4AMD MI350X规模化交付NVIDIA Blackwell竞品
2026年Q4寒武纪思元690发布(推测)新一代训练芯片
2027年Q1NVIDIA Blackwell Ultra交付算力新标杆落地

5.2 未来三年关键竞争要素

  1. 晶圆产能获取能力:先进制程产能是稀缺资源,绑定中芯国际、TSMC的厂商具备先天优势
  2. 资本运作效率:IPO窗口期有限,能否在资本市场上融到足够资金决定研发持续性
  3. 软件生态建设深度:硬件性能只是入场券,软件栈成熟度、框架适配广度、开发者社区活跃度才是核心壁垒

六、结语:多元生态终将形成

2026年H1,AI芯片产业正在经历从"一家独大"到"多元并存"的历史性转变。

  • NVIDIA以Blackwell Ultra筑高训练壁垒,同时以收购Groq布局推理效率
  • 华为昇腾以全栈能力守住国产算力的基本盘,950PR在推理性能上开始超越H20
  • 寒武纪以率先盈利证明国产AI芯片的商业化可行性,思元590在特定场景超越国际竞品
  • Cerebras、Taalas等推理专用芯片公司开辟了"非GPU"的第三路线
  • 清微智能的可重构架构为中国AI芯片提供了技术路线的多元化选择

未来三年,国产AI芯片终局将形成GPU、ASIC、可重构计算三大技术路线并存,云端与边缘协同发展的多元生态。"国产替代"不再是口号,而是正在发生的产业现实。


数据来源

  • 信创世界《2026中国国产AI芯片厂商能力象限》(2026-06-16)
  • TrendForce《推理经济时代来临:AI芯片的规则正被重写》(2026-06-04)
  • RayByte《算力再翻番!英伟达Blackwell Ultra芯片发布》(2026-06-02)
  • 各公司官方财报和公告

相关阅读