技术深度解析
价格暴跌并非单一突破,而是三个不同技术向量——硬件、算法和模型架构——的汇聚。
硬件优化: 从以训练为中心的GPU(NVIDIA H100)向推理优化芯片的转变是戏剧性的。Groq的LPU(语言处理单元)通过消除GPU架构固有的内存带宽瓶颈,实现了确定性延迟。Cerebras的晶圆级引擎在单个芯片上处理整个模型,避免了多GPU设置的通信开销。在商品化方面,量化技术——特别是通过`llama.cpp`仓库(现已在GitHub上获得65k+星标)实现的4位和2位量化——使Llama 3 70B等模型能在消费级硬件上运行,将每token成本降低8-16倍。`vLLM`库(50k+星标)引入了PagedAttention,一种通过消除内存碎片将GPU利用率从约30%提升至70%以上的内存管理技术。
算法突破: 由Google DeepMind 2023年论文推广并在`Medusa`和`SpecInfer`等框架中实现的推测解码,使用一个小型“草稿”模型并行预测多个token,然后由大型模型验证。这实现了2-3倍的加速,且输出质量无任何损失。由Noam Shazeer引入的多查询注意力(MQA)在注意力查询之间共享键值头,将仅解码器模型的内存带宽降低高达80%。FlashAttention(现已推出第3版,拥有15k+星标)将注意力计算分块以适应快速SRAM,在长序列上实现2-4倍的加速。这些技术的组合意味着,单个A100现在可以服务的推理请求量是两年前的10-20倍。
模型架构演进: 由Google Switch Transformer开创并在Mixtral 8x7B中精炼的混合专家(MoE)架构,每个token仅激活参数的一个子集。这将模型容量与推理成本解耦——一个100B参数的MoE模型每token成本可与12B密集模型相当。DeepSeek最新的V2模型(开源,40k+星标)采用了一种新颖的MoE设计,总参数为236B,但每个token仅激活21B,以极低的成本实现了GPT-4级别的性能。
| 技术 | 成本降低因子 | 实现复杂度 | 成熟度 |
|---|---|---|---|
| 4位量化 | 8x | 低 | 生产就绪 |
| 推测解码 | 2-3x | 中 | 生产就绪 |
| 多查询注意力 | 4-5x | 中 | 广泛采用 |
| FlashAttention-3 | 2-4x | 低 | 生产就绪 |
| MoE架构 | 5-10x | 高 | 日趋成熟 |
数据要点: 这些技术的综合效应是乘数级的,而非加性的。结合4位量化、推测解码和MoE的堆栈,与朴素部署相比,可将成本降低40-80倍。工程挑战在于集成——很少有组织具备优化组合所有技术的专业知识。
关键参与者与案例研究
开源生态系统: Meta于2024年7月发布的Llama 3.1 405B,为开放权重模型设立了新标杆,实现了与GPT-4竞争的性能。该模型在托管API上的每token成本约为每百万token 0.80美元——比GPT-4发布价格降低了96%。阿里巴巴的Qwen2-72B-Instruct,在Apache 2.0下完全开源,在优化硬件上自托管时,每百万token成本约为0.30美元。Mistral AI的Mixtral 8x22B,凭借其MoE架构,在推理成本降低40%的情况下实现了与Llama 3 70B相当的质量。
专有供应商: OpenAI已积极回应,将GPT-4o-mini的价格降至每百万输入token 0.15美元,每百万输出token 0.60美元。Anthropic的Claude 3 Haiku,针对速度优化,每百万输入token成本为0.25美元。Google的Gemini 1.5 Flash,专为高吞吐量场景设计,定价为每百万token 0.35美元。价格战显而易见:每家供应商在过去18个月内已降价3-5次。
硬件创新者: Groq已在Llama 3 70B上展示了每秒500 token的吞吐量,每token延迟低于10毫秒,但由于专用硬件,每token成本较高。Cerebras的CS-3系统在大型模型上实现了类似的吞吐量。在商品化方面,NVIDIA的TensorRT-LLM推理框架(20k+星标)针对Hopper和Blackwell架构优化了模型图,与默认PyTorch相比实现了2-3倍的吞吐量提升。
| 提供商 | 模型 | 每百万token价格(输入) | 延迟(平均) | 最大上下文 |
|---|---|---|---|---|
| OpenAI | GPT-4o-mini | $0.15 | 0.5s | 128K |
| Anthropic | Claude 3 Haiku | $0.25 | 0.8s | 200K |
| Google | Gemini 1.5 Flash | $0.35 | 0.6s | 1M |
| Meta(通过Together) | Llama 3.1 405B | $0.80 | 1.2s | 128K |
| 自托管(4位) | Llama 3 70B | ~$0.05 | 2.0s | 32K |
数据要点: 使用量化的自托管模型提供了最低的每token成本,但需要大量的工程投入。