晶圆级AI处理器挑战GPU霸权,或将重塑智能算力成本曲线

March 2026
归档:March 2026
AI产业对大规模GPU集群的基础性依赖首次出现重大裂痕。新一代专用晶圆级处理器正强势崛起,其承诺的不仅是渐进式改进,更是对AI计算架构的根本性重构。这场变革或将颠覆既有的经济与技术范式,开启大规模AI应用平民化的新纪元。

毫不夸张地说,当前的AI革命是建立在图形处理器(GPU)的基础之上的。英伟达凭借其CUDA生态与历代Tensor Core GPU,构筑了一个强大的计算“围墙花园”。然而,这一范式本身代表了一种深刻的妥协:将专为并行像素渲染设计的芯片,转而用于处理海量神经网络那迥然不同的计算模式。其结果是在大规模运算中暴露出惊人的低效——相当一部分能源与硅片面积并非用于计算,而是耗费在管理数千个独立芯片之间、跨越复杂且高延迟互连网络的数据搬运上。

正是这种低效,成为了堡垒城墙上的裂缝。创新者们正瞄准此处发起猛攻。以Cerebras、Tenstorrent、Groq为代表的新锐势力,正从物理形态、架构哲学到软件生态等多个维度,挑战着由GPU主导的单一计算范式。它们推出的晶圆级处理器、数据流架构或确定性张量流处理器,并非对现有方案的简单修补,而是旨在从根本上消除内存墙与通信墙带来的性能损耗。这场竞赛的核心,已从单纯的算力比拼,转向对AI工作负载(训练与推理)中特定瓶颈(如内存带宽、通信延迟、确定性)的深度优化。其潜在影响深远:若能成功,将大幅降低训练超大模型的硬件门槛与能源成本,并可能催生更敏捷、更开放的AI芯片生态,最终改写“智能”的定价曲线。

技术深度解析

GPU集群在训练大模型时的核心低效,根源于内存墙通信墙。例如,在一个由8000块H100 GPU组成的集群中训练万亿参数模型时,参数和梯度被分片存储于每块GPU的高带宽内存(HBM)中。每个训练步骤中,海量数据都必须通过NVLink和InfiniBand网络在所有设备间同步。这种通信开销可占总训练时间与能耗的30-50%,这是使用分立芯片所必须支付的“效率税”。

晶圆级工程(WSE) 直接攻击了这两堵墙。Cerebras基于5纳米工艺打造的WSE-3,是一块面积达46,225平方毫米的单片芯片——比旗舰GPU大50倍以上。它包含90万个针对AI优化的核心,以及44GB分布式部署在统一内存架构上的片上SRAM。由于所有核心和内存位于同一硅片上,数据搬运以片上速度进行(每秒数太字节),且延迟极低。该架构是一台稀疏线性代数计算机,极其擅长支撑Transformer模型的大规模稀疏矩阵乘法。关键在于,它将整个晶圆视为软件层面的单一逻辑处理器,从而消除了对复杂模型并行框架的需求。

其他架构路径:
* Tenstorrent的Ascalon: 采用基于数据流RISC-V的架构。其核心并非固定流水线,而是根据模型的计算图动态组网,旨在让数据直接在计算单元间流动,避免不必要的内存访问。
* Groq的LPU(语言处理单元): 采用确定性单核架构,并配备巨大的片上SRAM暂存器(GroqChip1上为230 MB)。它通过脉动阵列以可预测的亚毫秒级延迟流式处理张量,使其在超低延迟推理方面表现强悍。
* 开源与研究力量: 开放计算项目(OCP) 和学术实验室正在探索开放小芯片架构。加州大学伯克利分校在GitHub上提供的Chipyard框架,是一个开源的SoC设计环境,正被用于敏捷AI加速器的原型设计。

| 架构 | 核心创新 | 目标工作负载 | 主要优势 |
|---|---|---|---|
| 英伟达GPU(Hopper) | Tensor Cores、NVLink、CUDA生态 | 通用AI训练/推理 | 生态成熟度、多功能性 |
| Cerebras WSE-3 | 单片晶圆级集成 | 大模型训练 | 消除芯片间通信 |
| Tenstorrent Ascalon | 数据流、RISC-V核心 | 训练与推理 | 可编程性、稀疏工作负载效率 |
| Groq LPU | 确定性张量流 | 高吞吐、低延迟推理 | 可预测的微秒级延迟 |
| AMD MI300X | CDNA3、统一内存(CPU+GPU) | LLM推理 | 高内存带宽(5.3TB/s) |

数据启示: 竞争格局正从“一刀切”的GPU方案,转向多样化的专用架构谱系,每种架构针对AI工作负载管线(训练 vs. 推理)中的不同环节以及不同瓶颈(内存带宽、通信延迟、确定性)进行优化。

关键参与者与案例研究

该领域由资金雄厚、理念各异的挑战者领跑。

Cerebras Systems: 由Andrew Feldman和Sean Lie创立,Cerebras采取了最大胆的物理实现路径。其围绕WSE-3构建的CS-3系统,已部署于匹兹堡超级计算中心等主要超算中心,客户包括阿贡国家实验室和葛兰素史克。其标志性案例是从头开始训练一个1万亿参数模型,证明了其处理参数量的能力,而这在GPU上需要极端的模型并行策略。该公司的Cerebras Software Platform对晶圆级硬件进行了抽象,允许PyTorch和TensorFlow模型以最小修改运行。

Tenstorrent: 由行业资深人士Jim Keller(曾领导苹果A4/A5和AMD Zen架构设计)领导,Tenstorrent押注于开放性与敏捷性。其架构围绕RISC-V构建,旨在避免CUDA的专有锁定。公司采取双轨战略:既销售自研AI芯片(如Ascalon),也向其他芯片制造商授权其AI和RISC-V IP。这使其有望成为更广泛挑战者生态的赋能者。

Groq: 由前谷歌TPU工程师创立,Groq在超高速、确定性推理领域开辟了利基市场。其LPU推理引擎在MLPerf Inference v4.0等基准测试中创下纪录,在LLM token生成上展现了无与伦比的性能。其模式并非直接在训练领域竞争,而是旨在主导从聊天机器人到金融分析工具等实时应用的推理市场。

现有巨头的回应:
* 英伟达并未坐视。其持续迭代的GPU架构(如Hopper)通过更强的Tensor Core、更快的NVLink互连以及针对Transformer的软件优化(如Transformer Engine)来巩固地位。其庞大的CUDA软件生态和开发者社区,仍是其最深的护城河。
* AMD凭借MI300X系列强势进入,其CDNA 3架构和高达5.3TB/s的内存带宽,使其在LLM推理等内存密集型任务上成为有力竞争者,并积极构建ROCm软件生态以挑战CUDA。
* 英特尔通过Gaudi系列加速器,以及收购Habana Labs获得的技术,在AI训练市场寻求突破,强调更高的能效比。

市场影响预测: 短期内,GPU凭借其生态和通用性,仍将是AI基础设施的基石,尤其是在训练领域。但晶圆级和专用架构将在特定场景(如超大规模模型训练、超低延迟推理)中不断侵蚀其份额。长期看,AI硬件市场将走向分化:训练侧可能由少数几种高性能架构(GPU、WSE)主导,而推理侧将出现百花齐放的专用加速器。成本结构的变化可能最终传导至AI服务价格,使更多企业与研究机构能够负担得起前沿模型的开发与部署。

时间归档

March 20262347 篇已发布文章

延伸阅读

Anthropic 2000亿美元双架构豪赌:重塑AI硬件格局,从堆参数到拼效率Anthropic 同时租赁22万块NVIDIA GPU并承诺向Google TPU投入2000亿美元,标志着AI基础设施战略从“参数规模竞赛”向“计算效率优先”的彻底转向。这家公司并非单纯囤积算力,而是构建一个跨芯片架构的组合拳,旨在针对AI下一阶段:物理基础设施为何比算力更重要AI行业正从算力军备竞赛转向物理基础设施战争。DeepSeek V4与美团LongCat模型表明,下一轮竞争优势不再源于更大的GPU集群,而在于将智能嵌入物流、交通与制造业。DeepSeek-V4开源:算力受限如何成为其最大优势DeepSeek-V4以开源形式发布,拥有突破性的百万Token上下文窗口。然而,业界焦点已转向其“算力受限”的训练背景。AINews认为,这是一场大胆的生态实验,重新定义了AI进步的方向——从蛮力堆算力转向精密工程。DeepSeek-V4:1.6万亿参数、百万级上下文,以及可负担AI的黎明DeepSeek-V4携1.6万亿参数与百万级token上下文窗口震撼登场,成为最强开源模型,直逼闭源霸主。更关键的是,它完全运行于国产芯片之上,大幅削减推理成本,重塑竞争格局。

常见问题

这次公司发布“Wafer-Scale AI Processors Challenge GPU Dominance, Threatening to Reshape the Cost Curve of Intelligence”主要讲了什么?

The AI revolution has been built, quite literally, on a foundation of graphics processing units (GPUs). NVIDIA's architectural dominance, through its CUDA ecosystem and successive…

从“Cerebras WSE-3 vs NVIDIA B200 benchmark comparison 2024”看,这家公司的这次发布为什么值得关注?

The core inefficiency of GPU clusters for large model training stems from the memory wall and the communication wall. In a cluster of, say, 8,000 H100 GPUs training a trillion-parameter model, parameters and gradients ar…

围绕“Groq LPU inference cost per million tokens real-world data”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。