技术深度解析
成本坍塌并非魔法,而是多种架构选择汇聚的结果,这些设计优先考虑推理效率,而非训练灵活性或通用计算能力。用于训练的主流方案——具备巨大内存带宽和高精度浮点单元(FPU)的大型单体GPU——在服务模型时显得过度设计且经济低效。新型推理芯片建立在几项关键原则之上。
首先是面向低精度计算的专门化。训练需要FP16或BF16精度以保证稳定性,但推理通常可在INT8、INT4甚至二进制/三进制精度下有效进行,且精度损失极小。例如Groq的LPU(语言处理单元)完全摒弃FPU,转而采用大规模确定性整数单元阵列,消除了调度开销,实现了可预测的超低延迟。SambaNova的可重构数据流架构(RDAU)能动态重构其数据流,以匹配模型精确的计算图,最大限度地减少了数据移动——这是现代计算中能耗与时间的主要消耗者。
其次是简化的内存层级。冯·诺依曼瓶颈(在计算单元与内存间搬运数据)是主要限制因素。近内存计算和晶圆级集成等创新直接针对此问题。Cerebras的晶圆级引擎(WSE-3)在单一硅晶圆上集成4万亿个晶体管,创造了一个拥有90万个核心、44GB片上SRAM的单片式芯片。这种庞大统一的内存消除了许多模型权重的片外数据传输,极大加速了推理。类似地,GroqChip采用单指令多任务(SIMT)架构,配合软件控制的顺序数据流,确保权重直接从内存流式传输至计算单元,避免了缓存未命中和复杂调度。
第三是软硬件协同设计。这些芯片并非孤立存在,其全部潜力需要通过紧密集成的编译器栈来释放。GroqWare Suite和SambaFlow编译器接收标准的PyTorch模型,并针对其各自硬件进行激进优化,自动执行层融合、内核优化和精度校准。这减轻了开发者负担,并确保了芯片的高利用率。
开源软件扮演着关键的赋能角色。llama.cpp(GitHub: `ggerganov/llama.cpp`, 6万+星标)及其衍生项目率先在消费级CPU和Apple Silicon上实现了高度优化的推理,利用GGUF等量化技术在笔记本电脑上运行70亿参数模型。vLLM仓库(GitHub: `vllm-project/vllm`, 1.5万+星标)为Hugging Face模型提供了高吞吐、内存高效的服务引擎,持续集成如PagedAttention和连续批处理等新优化技术以提升GPU利用率,这间接迫使专用芯片厂商必须超越甚至优化过的通用硬件。
| 芯片架构 | 核心创新 | 目标精度 | 峰值吞吐(Llama2-70B) | 延迟(毫秒/词元) |
|---|---|---|---|---|
| NVIDIA H100(Hopper) | 通用GPU,含Transformer引擎 | FP8, FP16 | ~3,000 词元/秒 | 15-30 |
| Groq LPU | 确定性张量流,无缓存 | INT8 | ~500 词元/秒(每芯片) | < 1 |
| Cerebras WSE-3 | 晶圆级,统一内存 | FP16, BF16 | ~20,000 词元/秒(密集模型预估) | 5-10(批处理) |
| SambaNova RDAU | 可重构数据流,软件定义 | INT4/INT8/FP16混合 | ~1,500 词元/秒 | 10-20 |
| Apple M3 Ultra(神经网络引擎) | 设备端,集成内存 | INT8/INT16 | ~100 词元/秒(针对70亿模型) | 20-50 |
数据启示: 上表揭示了一个清晰的权衡格局。Groq的架构牺牲了部分峰值吞吐量,换来了无与伦比且可预测的低延迟——这对交互式应用至关重要。Cerebras实现了适用于批处理的惊人吞吐量,而SambaNova则提供了灵活性。Apple Silicon的出现凸显了“消费级”与“服务器级”推理能力之间界限的模糊。
关键参与者与案例研究
竞争格局正分化为云服务无关的芯片供应商和自研芯片的云服务提供商。
云服务无关的挑战者:
- Groq: 由前谷歌TPU设计师Jonathan Ross创立,Groq采取了最激进的架构立场。其LPU专为序列模型(LLM)的确定性低延迟推理而从头设计。该公司战略是与数据中心运营商合作,以服务形式或本地部署方式提供其芯片。其公开演示——在单芯片上以每秒超过500词元的速度运行Mixtral 8x7B模型——已成为衡量速度的爆款基准。
- SambaNova: 由斯坦福大学教授Kunle Olukotun和Chris Ré联合创立,SambaNova销售面向训练和推理的全栈系统(硬件+软件),并高度专注于企业级微调与部署,其可重构架构旨在高效适应不断演变的模型架构与工作负载。