技术深度解析
推理成本的暴跌并非简单的价格战——它是GPU供应动态与架构变革共同作用的结构性结果。超大规模服务商为训练过度投资了NVIDIA H100和B200集群,但随着企业意识到微调小型模型往往比从头训练效果更佳,训练需求增长已趋于平稳。据云服务商内部估算,GPU训练利用率已从2024年底的85%下降至2026年中期的约55%。这些闲置产能正以边际成本倾销至推理市场。
在架构层面,效率提升同样显著。从密集Transformer向混合专家(MoE)架构的转变——由Mixtral 8x7B和DeepSeek-V2等模型率先采用——在同等质量下将推理FLOPs降低了3至5倍。量化技术,尤其是FP8和INT4推理,已进入生产就绪阶段,将内存带宽需求削减了2至4倍。推测解码(由小型草稿模型为大型模型提议令牌以供验证)使许多工作负载的吞吐量翻倍。这些技术现已打包进开源推理引擎,如vLLM(GitHub星标:38k+),它通过PagedAttention实现近乎零浪费的内存管理;以及TensorRT-LLM(GitHub星标:12k+),为Hopper和Blackwell GPU提供NVIDIA优化内核。这些优化的组合意味着,一块H100如今可为70B参数模型服务10至20名并发用户,而两年前仅为2至3名用户。
| 推理基准 | GPT-4o(2025年6月) | GPT-4o(2026年6月) | 改进幅度 |
|---|---|---|---|
| 每百万令牌成本(输入) | $5.00 | $1.20 | 下降76% |
| 每百万令牌成本(输出) | $15.00 | $3.50 | 下降77% |
| 延迟(首个令牌,100B模型) | 350ms | 180ms | 提速49% |
| 吞吐量(令牌/秒/每块H100) | 120 | 320 | 提升167% |
数据要点: 推理成本的下降速度已超越摩尔定律的预测,这是硬件供应过剩与软件优化共同驱动的结果。这是一次性的结构性错位,而非可以无限持续的趋势。
对AI务实主义者而言,关键的技术洞见在于:推理规模扩展——即每位用户、每次会话、每天运行更多令牌——如今是提升产品质量最高效的方式。与其等待更好的基础模型,企业可以部署当前模型进入高吞吐循环:生成10个候选回复并通过奖励模型选出最佳方案,运行思维链推理以消耗5倍令牌,或使用自洽性解码采样多个输出并投票。这些技术此前过于昂贵;如今在经济上已变得可行。
关键玩家与案例研究
在这一窗口期胜出的公司并非模型构建者,而是应用层部署者。Anthropic自推出以来已将Claude 3.5 Sonnet的API价格大幅下调70%,押注于通过用量和数据收集锁定企业客户。OpenAI则推出批处理推理API,提供50%折扣,专门针对内容审核和客户支持等高吞吐工作负载。两者实质上都在补贴推理以构建使用量护城河。
在基础设施方面,Together AI和Fireworks AI已崛起为推理即服务专家,为Llama 3和DeepSeek-V2等开源模型提供每百万令牌低于1美元的价格。Together AI报告其客户群同比增长300%,平均每位客户每日消耗4000万令牌。Groq凭借其定制LPU(语言处理单元)硬件,实现了Llama 3 70B低于100ms的延迟,使大规模实时对话智能体成为可能。
| 推理服务商 | 模型 | 成本/百万令牌(输出) | 延迟(平均) | 最大吞吐量 | 关键差异化优势 |
|---|---|---|---|---|---|
| OpenAI | GPT-4o | $3.50 | 180ms | 500 req/s | 最佳质量,最广泛的工具使用 |
| Anthropic | Claude 3.5 Sonnet | $2.00 | 220ms | 300 req/s | 安全特性,长上下文 |
| Together AI | Llama 3 70B | $0.80 | 150ms | 800 req/s | 开源模型,低成本 |
| Groq | Llama 3 70B | $1.20 | 85ms | 1,200 req/s | 最快延迟,LPU硬件 |
数据要点: 高端与预算推理服务商之间的成本差距正在缩小,但延迟和吞吐量的差距却在扩大。对于需要低于100ms响应时间的智能体工作负载,Groq的LPU架构目前无可匹敌。
一个值得关注的案例是Replit,这款在线IDE部署了一个由微调后的Llama 3 70B模型驱动的AI代码补全智能体。通过使用GCP上的廉价竞价实例运行推理,Replit每天提供200万次补全,每次补全成本为0.0003美元——较一年前的0.002美元大幅下降。用户接受/拒绝补全所收集的数据被用于每月微调模型,从而形成一个飞轮:更多使用带来更优建议,进而驱动更多使用。