技术深度解析
推理成本的崩塌并非渐进式改良,而是针对推理工作负载可预测、延迟敏感和高吞吐特性,对计算堆栈进行的彻底重构。与训练阶段混乱的大规模并行线性代数运算不同,推理过程是在具有确定性模式的固定计算图中进行流式处理。这为极致的硬件专用化提供了可能。
此次变革的核心是多项架构创新:
1. 确定性单流处理: Groq的语言处理单元(LPU)是此路径的典范。它摒弃了GPU复杂的缓存、调度和上下文切换逻辑,采用确定性的单线程架构。整个模型被编译成静态的、已调度的指令流,流经庞大的片上SRAM内存(GroqChip1上为230 MB)和张量流处理器(TSP)网格。这消除了延迟波动和内存瓶颈,为基于Transformer的模型实现了前所未有的、可预测的吞吐量。Groq API演示中,以近每秒300个令牌的速度运行Llama 2 70B模型,便是该架构原始推理速度的公开证明。
2. 可重构数据流与空间架构: SambaNova的可重构数据流单元(RDU)和Tenstorrent的可扩展Tensix核心网状架构,代表了一种不同且更灵活的范式。这些架构将神经网络的计算图直接映射到处理元件的空间结构上,最大限度地减少了数据移动——这是现代计算中主要的能耗来源。数据直接在处理单元间流动,如同流水线,而非不断写入和读取共享内存层次结构。这对于专家混合模型(MoE)和动态工作负载尤为有效。
3. 硅层面的量化与稀疏性利用: 下一代芯片正将低精度计算(INT8、INT4甚至二进制/三元)和权重稀疏性的支持直接构建于硅片之中。拥有超过5.5万颗星的`llama.cpp` GitHub仓库,在推广用于CPU推理的4位和5位量化(GGUF格式)方面发挥了关键作用,证明了在消费级硬件上实现可行性能的可能性。专用推理芯片更进一步,其硬件可以完全跳过零权重的乘法运算,从而在每瓦特操作效率上实现巨大提升。
| 架构 | 核心创新 | 最佳适用工作负载 | 延迟特性 | 示例芯片/平台 |
|---|---|---|---|---|
| 确定性单流架构(如Groq LPU) | 静态调度,庞大的片上SRAM | 高吞吐、批处理的LLM推理 | 超低且可预测 | GroqChip1 |
| 可重构数据流架构(如SambaNova RDU) | 计算图的空间映射 | 动态模型、MoE、混合工作负载 | 低延迟,为数据流优化 | SN40L |
| 稀疏/张量核心GPU(如NVIDIA H100) | 通用计算 + 专用张量核心 | 训练与灵活推理 | 低(但有波动) | NVIDIA H100 NVL |
| 边缘NPU(如Qualcomm Hexagon) | 超低功耗,固定功能单元 | 设备端视觉/语音模型 | 实时,毫瓦级功耗 | Qualcomm Snapdragon 8 Gen 3 |
数据启示: 上表揭示了针对特定推理场景的硬件多样化趋势。确定性和数据流架构明显突破了通用GPU范式,在其目标工作负载上提供了更优的效率,这将迫使推理硬件市场走向分化。
关键参与者与案例研究
争夺推理经济主导权的竞赛中,既有行业巨头,也有资金雄厚的初创公司和开源硬件项目。
挑战者阵营:
- Groq: 采取了激进的以软件为中心、编译器优先的策略。其GroqCompiler将整个芯片视为一个单一的确定性函数。该公司的战略是在云端大规模LLM服务的原始速度和可预测性上取胜,如其与Anthropic合作托管Claude模型的案例所示。
- SambaNova: 定位为全栈“AI即服务”公司,同时提供硬件(DataScale系统)和预训练基础模型。其与阿贡国家实验室的案例研究——部署了一个用于科学研究的万亿参数模型——凸显了其对大规模、专业化企业部署的关注。
- Tenstorrent: 由Jim Keller领导,押注于可扩展的、基于RISC-V的架构,该架构可作为IP授权或作为芯片出售。其近期与LG合作开发智能电视和数据中心芯片的协议,印证了将高效推理嵌入到各处的战略。
- Cerebras: 虽然以其用于训练的晶圆级引擎闻名,但其CS-2系统对于最大规模的模型而言也是一个强大的推理平台,能够无需任何模型分割即可服务200亿参数模型。