技术深度解析
AI领域的杰文斯悖论,是由一系列技术突破共同推动的,这些突破大幅削减了推理的边际成本。首要杠杆是从单一密集模型向混合专家(MoE)架构的转变。以Google的Gemini 1.5 Pro为例,它采用了MoE设计,每次推理仅激活总参数(估计为1.8万亿,但每次代币仅激活约300亿)中的一小部分。这在不牺牲输出质量的前提下,大幅降低了每次代币的计算量。同样,Mistral AI的开源模型Mixtral 8x22B也利用MoE,以极低的成本实现了GPT-4级别的性能。
另一个关键推动力是量化技术。由llama.cpp和bitsandbytes等库推广的4位和8位量化技术,使模型能够在消费级硬件上运行,且精度损失极小。例如,Meta的Llama 3 70B的量化版本可以在单块NVIDIA RTX 4090 GPU上运行,与全精度部署相比,推理成本降低了80%以上。这使本地推理变得大众化,进一步降低了那些能够承担前期硬件投资的企业每代币成本。
推测性解码也已成为一项关键优化技术。通过使用一个小型、快速的“草稿”模型生成候选代币,再由一个更大的“目标”模型进行验证,Together AI和Fireworks AI等公司在标准硬件上实现了2-3倍的吞吐量提升。这实际上将延迟敏感型应用的每代币成本降低了一半。
最后,基础设施层面的缓存和批处理策略的重要性不容低估。OpenAI和Anthropic等提供商现已实现提示缓存,即公共前缀(如系统提示)被存储并在多个请求中重复使用。对于具有重复上下文的应用程序(如客户支持机器人),这可以将代币成本降低50-70%。其净效应是一个良性循环:更低的成本促进了更广泛的使用,从而产生更多用于微调的数据,进而进一步提升效率。
数据表格:代币成本演变(前沿模型)
| 提供商 | 模型 | 每百万输入代币成本(2024年6月) | 每百万输入代币成本(2025年6月) | 价格降幅(%) |
|---|---|---|---|---|
| OpenAI | GPT-4o | $5.00 | $0.50 | 90% |
| Anthropic | Claude 3.5 Sonnet | $3.00 | $0.30 | 90% |
| Google | Gemini 1.5 Pro | $3.50 | $0.35 | 90% |
| Meta(通过第三方) | Llama 3 70B | $1.00 | $0.10 | 90% |
| Mistral | Mixtral 8x22B | $2.00 | $0.20 | 90% |
数据要点: 所有主要提供商的每代币成本均已统一下降了一个数量级。这并非价格战,而是由架构改进和规模效率驱动的结构性转变。降幅的一致性表明,成本底部尚未到来;硬件专业化(例如NVIDIA的下一代Blackwell GPU)带来的进一步收益,可能在18个月内将成本再降低50-70%。
关键参与者与案例研究
杰文斯悖论在领先AI基础设施公司的战略中最为明显。OpenAI在积极降低API价格的同时,也在扩展其模型的能力。GPT-4o mini的推出(每百万输入代币0.15美元)是一项深思熟虑的举措,旨在抢占实时翻译和内容审核等高容量、低利润率的用例。这已见成效:尽管每代币价格下降了90%,但OpenAI的API收入估计同比增长了400%。
Anthropic采取了不同但同样有效的方法。通过专注于安全性和可靠性,Claude已成为医疗和金融等受监管行业的默认选择。Anthropic的“宪法AI”训练方法减少了对昂贵的人工监督的需求,使他们能够在企业合同上提供有竞争力的价格,同时保持高利润率。他们最近推出的“Claude for Work”——一种能够在公司内部工具上执行多步骤任务的持久化智能体——是一个教科书式的代币消耗大户,旨在将每用户消耗量提高10-100倍。
Google凭借其庞大的云基础设施,利用其TPU v5p芯片以接近成本的价格提供Gemini 1.5 Pro。其目标并非立即盈利,而是抢占企业心智份额,并推动Google Cloud更广泛AI服务(包括Vertex AI和BigQuery)的采用。这种捆绑策略有效地补贴了代币成本,使企业能够在其整个数据堆栈中更便宜地使用AI。
在开源方面,围绕Hugging Face和GitHub的生态系统已经爆发。仓库vllm(超过40,000颗星)已成为开源模型高吞吐量服务的事实标准,使初创公司能够以专有API成本的一小部分部署定制模型。另一个值得注意的项目是NVIDIA的TensorRT-LLM,它优化了其硬件上的推理,并已被众多企业采用。