技术深度解析
本轮投资周期的核心叙事,正是对英伟达GPU架构的技术性背离。挑战者们并非在制造稍好一点的GPU;他们正在为特定的AI范式重新构想计算基底。
内存墙与专用数据流: 英伟达的GPU虽然极其强大,但其根本设计是针对训练中常见的密集、可预测的矩阵乘法(matmul)。而推理,特别是对于具有动态注意力模式和专家混合(MoE)路由的现代大语言模型(LLM),则呈现出“内存墙”问题。将模型参数从DRAM移动到计算单元所花费的时间和能量,常常远超实际计算时间。像 Groq 这样的初创公司通过确定性的单核 张量流处理器(TSP) 架构来攻克此难题。Groq芯片不使用复杂的缓存层次结构,而是通过软件编译器静态调度每一次内存移动和操作,从而保证可预测的超低延迟——这对实时应用至关重要。其开源编译器栈(可在 `groq/mlagility` 等代码库中查看)允许开发者针对这一独特架构分析和编译模型。
稀疏性与动态执行: 另一个前沿方向是挖掘训练模型中的固有稀疏性(许多权重接近零)以及智能体的动态执行路径。由Jim Keller领导的 Tenstorrent 架构,采用大规模并行、基于RISC-V的设计,并辅以细粒度电源门控,仅激活必要的计算单元,从而极大提升了稀疏工作负载的能效。类似地,Cerebras 的 晶圆级引擎(WSE-3) 是一块尺寸等同于整片硅晶圆的单一芯片,内含90万个AI优化核心和44GB片上SRAM。这种紧邻计算单元的巨量内存,几乎消除了模型运行时所有的片外内存流量,使其特别适合训练超大模型并对其进行推理,而无需受制于典型的数据移动瓶颈。
新范式的基准测试: 原始的峰值万亿次浮点运算(TFLOPS)正日益成为一个糟糕的指标。新的基准是每瓦特每秒生成的token数(推理效率)、第99百分位延迟(p99)以及特定工作负载的总拥有成本。
| 芯片架构 | 核心创新 | 目标工作负载 | 延迟优势(对比A100) | 能效宣称(Tokens/Watt) |
|---|---|---|---|---|
| Groq LPU | 确定性张量流处理 | LLM推理,实时应用 | p99延迟降低10-50倍 | 提升2-4倍 |
| Cerebras WSE-3 | 晶圆级片上内存 | LLM训练 & 大批次推理 | 不适用(面向批处理) | 训练性能/瓦特提升约5倍 |
| Tenstorrent | RISC-V多核 + 稀疏计算 | 稀疏模型,边缘AI | 延迟降低2-5倍 | 稀疏工作负载提升3-7倍 |
| SambaNova SN40L | 可重构数据流单元(RDU) | 全栈训练/推理 | 在特定模型上具有竞争力 | 吞吐量/瓦特提升高达4倍 |
数据启示: 上表揭示了明确的专业化趋势。没有一种架构能在所有指标上占优。Groq在确定性延迟上表现出色,Cerebras擅长内存受限的训练,Tenstorrent则精于高效的稀疏计算。这种碎片化正是投资者所押注的——不同的AI任务需要根本不同的硬件基底。
关键参与者与案例研究
竞争格局中不再只是充满希望的陪跑者,而是资金雄厚、技术独特且已有实际部署的强劲竞争者。
Groq: 或许是最激进的背离者,Groq将其未来押注在 语言处理单元(LPU) 上。其在公开演示中以每秒超过300个token的速度运行Llama 70B,展示了其确定性架构的原始速度潜力。该公司的战略是占领“AI推理引擎”市场,将其系统出售给云服务提供商和需要为面向客户的AI智能体保证响应时间的企业。
Cerebras Systems: Cerebras采取了相反的极端规模路径。其WSE-3是有史以来最大的芯片,瞄准最苛刻的训练和推理任务。它已获得 TotalEnergies(用于科学计算)和 G42(用于构建主权AI集群)等知名客户。Cerebras的案例证明,在最高端市场,非GPU解决方案存在可行市场,其集成化的简洁性(用少数WSE系统替代整机架的GPU)降低了复杂性。
SambaNova Systems: 定位为全栈AI平台,SambaNova不仅销售芯片,还提供完整的集成系统(数据流即服务)。其 SN40L 芯片采用可重构数据流单元(RDU),可在同一硅片上针对不同模型类型(从CNN到Transformer)进行动态重构。这种灵活性,结合其优化的软件栈(SambaFlow),吸引了运行多样化AI工作负载的企业,它们希望避免为每种新模型架构进行昂贵的硬件重新配置。
Tenstorrent: 凭借传奇芯片架构师Jim Keller的领导,Tenstorrent采取了一种开放和模块化的策略。其基于RISC-V的设计不仅针对AI,还瞄准更广泛的加速计算市场。公司通过授权其IP和销售芯片来商业化,这种双重模式使其能够渗透到从边缘设备到数据中心的各个层面,特别是在对能效和成本敏感的稀疏模型推理领域。
其他重要参与者: 这个领域还包括像 Graphcore(专注于IPU和图形神经网络)、Mythic(专注于模拟计算和边缘AI)以及众多专注于光子计算、存内计算等后冯·诺依曼架构的初创公司。每家公司都代表着对AI计算挑战的不同哲学和技术解答。
市场影响与未来展望
这场资本驱动的多元化运动将产生深远影响:
1. 削弱软件护城河: 随着专用芯片的崛起,CUDA的垄断地位将面临挑战。新的编译器栈和软件层(如Groq的软件定义调度、SambaNova的SambaFlow)正在创建替代性的生态系统,降低开发者的迁移门槛。
2. 催生新的商业模式: 从芯片销售(Tenstorrent)到系统销售(Cerebras, Groq),再到“计算即服务”(SambaNova),多样化的商业模式正在涌现。这反映了客户对灵活性、易用性和总拥有成本的不同优先级。
3. 重塑供应链与地缘政治: 对非英伟达解决方案的需求,部分源于对供应链集中风险和地缘政治不确定性的担忧。各国政府推动“主权AI”的努力,将进一步推动对多元化、可替代硬件基础的需求。
4. 加速AI应用创新: 当底层硬件针对特定任务优化时,此前因成本或延迟问题而不切实际的新AI应用将成为可能。例如,实时、高并发的对话AI、设备端的复杂模型推理、以及科学模拟中的大规模AI驱动发现。
然而,挑战依然存在。软件生态的成熟度、与现有基础设施的集成、以及证明其在真实世界大规模部署中的稳定性和成本效益,将是这些挑战者能否成功的关键。
结论: 风险资本正在积极资助一个后英伟达时代的AI计算图景。这并非要推翻现任王者,而是要构建一个更加多元、高效和专门化的硬件生态系统,以支撑AI下一阶段的发展。从追求通用算力到拥抱专用计算,这一根本性转变正在开启AI硬件的新纪元。未来的赢家可能不是某个单一的“英伟达挑战者”,而是一系列在各自细分领域占据主导地位的专业化架构。这场伟大的AI芯片分流,最终将决定AI技术以多快的速度、多低的成本渗透到我们经济和社会的每一个角落。