技术深度解析
Token泡沫根植于对Token本质的根本误解。Token不是智能,而是计算单元。行业对Token数量的执念——无论是模型参数数量还是推理时消耗的Token数——催生了一种扭曲的激励:构建更大的模型,生成更多的Token,而不管这些Token是否产生有用输出。
浪费的架构
现代大型语言模型(LLM),如GPT-4、Claude和百度的文心系列,均基于Transformer架构。其核心机制是注意力(Attention),计算序列中所有Token之间的关系。注意力的计算成本随序列长度呈二次方增长(O(n²))。这意味着将上下文窗口加倍会使计算成本翻四倍。然而,许多应用——如简单的文档摘要或客服查询——只使用了该上下文的一小部分。
李彦宏的批评直指这种低效。他认为,行业应优化“Token效率”——即有用输出Token与总输入Token的比率。这类似于信息论中的“每词比特数”概念,但应用于经济价值。
效率前沿
多种技术方法正在涌现,以打破Token成瘾:
1. 推测解码(Speculative Decoding):该技术不是一次生成一个Token,而是使用一个较小的“草稿”模型并行预测多个Token,再由主模型验证。这可将延迟降低2-3倍,且不牺牲质量。Google的Medusa和Meta在这方面的研究值得关注。
2. KV缓存优化:键值缓存是自回归生成的标准做法,但会消耗大量内存。Llama 2和Falcon中使用的多查询注意力(MQA)和分组查询注意力(GQA)等技术,通过跨注意力头共享键和值来减小缓存大小,将内存使用量降低30-50%。
3. 量化与剪枝:将模型精度从FP16降至INT4或INT8,可将模型大小缩小4倍,并在兼容硬件上将推理速度提升2-3倍。llama.cpp和AutoGPTQ等开源工具使其变得触手可及。llama.cpp的GitHub仓库已获得超过70,000颗星,是在消费级硬件上运行模型的首选工具。
4. 混合专家模型(MoE):像Mixtral 8x7B这样的模型,每个Token只激活一部分参数,以较低的每Token成本实现高性能。这是对“越大越好”谬论的直接架构回应。
新标尺下的基准测试
要在新的“每Token价值”框架下评估模型,我们需要衡量效率的指标,而不仅仅是原始能力。下表对比了领先模型在传统基准测试和拟议的“效率得分”(每美元有用输出Token数)上的表现:
| 模型 | 参数规模 | MMLU得分 | 延迟(毫秒/Token) | 每百万Token成本(美元) | 效率得分(每1美元对应的MMLU点数) |
|---|---|---|---|---|---|
| GPT-4o | 约200B(估计) | 88.7 | 15 | $5.00 | 17.7 |
| Claude 3.5 Sonnet | — | 88.3 | 12 | $3.00 | 29.4 |
| Gemini 1.5 Pro | — | 86.5 | 10 | $3.50 | 24.7 |
| 文心一言 4.0 Turbo | 约100B(估计) | 82.1 | 8 | $1.20 | 68.4 |
| Llama 3 70B(开源) | 70B | 82.0 | 20(在A100上) | $0.59(通过Groq) | 139.0 |
| Mixtral 8x7B(开源) | 46.7B(活跃12.9B) | 70.6 | 9 | $0.20 | 353.0 |
数据解读: 表格揭示了一个严酷的事实:像Mixtral 8x7B和Llama 3 70B这样更小、更高效的模型,以极低的成本提供了具有竞争力的MMLU得分。文心一言 4.0 Turbo虽然在原始基准测试中并非顶尖,但在闭源模型中提供了最佳的效率得分。“每Token价值”的视角彻底重塑了排行榜。
关键玩家与案例研究
百度:引领转向
李彦宏的“新标尺”并非空谈,它已嵌入百度的产品战略。百度旗舰LLM文心一言(ERNIE Bot)已针对推理速度和成本进行了积极优化。百度声称,文心一言 4.0 Turbo相比前代产品推理成本降低了50%,同时在关键任务上保持了95%的准确率。这是通过模型剪枝、量化以及运行在百度昆仑芯片上的定制推理栈共同实现的。
百度的策略是瞄准特定垂直领域——搜索、云、自动驾驶——在这些领域,Token效率直接转化为更低的运营成本和更快的响应时间。例如,在百度搜索中,使用更小、经过蒸馏的模型进行查询理解,而非完整的文心一言 4.0,每年可节省数百万美元的计算成本。
OpenAI与Anthropic:规模守成者
OpenAI和Anthropic历来倡导“规模即一切”的理念。GPT-4和Claude 3建立在庞大的计算集群之上,其定价也反映了这一点。然而,即使是这些领导者也在转向。OpenAI的GPT-4o mini和Anthropic的Claude 3 Haiku是更小、更便宜的模型,旨在以更低成本提供足够的性能。