技术深度解析
这场诉讼的核心在于广告宣传的“每代币”价格与LLM推理中实际成本驱动因素之间的脱节。代币并非一个稳定的价值单位。一个代币可以代表一个字符、一个单词或一个子词,而生成它的计算成本根据模型架构和输入上下文的不同可能相差数个数量级。
上下文窗口累积: 最显著的隐性成本是上下文窗口。当用户发送查询时,模型会处理整个对话历史——包括之前的轮次、系统提示和检索到的文档。这意味着会话中的每一次后续调用都会产生重新处理所有先前代币的成本。例如,一个用户发送10次查询,每次新增500个代币,他将被按每次查询500个代币计费,但模型实际处理的总代币数为500 + 1,000 + 1,500 + ... + 5,000 = 27,500个代币。因此,广告宣传的“每查询”价格只是真实成本的一小部分。
缓存机制与未命中惩罚: 与其他提供商一样,Anthropic使用提示缓存来减少重复前缀的延迟和成本。然而,缓存有大小限制和生存时间。当缓存未命中发生时——因为对话偏离或TTL到期——必须重新计算完整的上下文,从而产生完整的推理成本。诉讼称,这些缓存未命中惩罚的披露方式不足以让消费者预测其账单。缓存命中率是用户使用模式的函数,而使用模式本身是不可预测的。
输出长度变化: 生成成本与输出长度呈线性增长,但模型的输出长度是非确定性的。一个简单的“是”或“否”可能花费与一篇500字文章相同的代币价格。虽然用户可以设置`max_tokens`,但模型通常会在达到限制前停止,但成本仍然按生成的完整序列计算。广告宣传的“每代币成本”因此是一个下限,而非上限。
计费模型技术对比:
| 提供商 | 基本计费单位 | 隐性成本因素 | 透明度评分(1-10) |
|---|---|---|---|
| Anthropic (Claude) | 每代币(输入+输出) | 上下文窗口累积、缓存未命中、系统提示成本 | 3 |
| OpenAI (GPT-4o) | 每代币(输入+输出) | 上下文窗口累积、图像代币成本、函数调用开销 | 4 |
| Google (Gemini 1.5) | 每字符(含代币等价) | 上下文窗口累积、视频帧代币化 | 5 |
| Cohere (Command R+) | 每代币(输入+输出) | 生成端点与嵌入端点成本差异 | 6 |
| 开源(自托管) | 基础设施成本(GPU/小时) | 无隐性代币成本,但需前期硬件投资 | 9 |
数据要点: 该表揭示,所有主要基于API的提供商都存在相同的基本不透明性问题:他们按代币收费,但实际代币数量是用户使用模式的函数,而该模式对用户而言是不透明的。自托管模型提供了最高的透明度,但需要大量的前期投资。诉讼的核心论点是,这种不透明性并非偶然,而是一种将风险从提供商转移到消费者的设计选择。
相关开源项目: 对于对替代计费模型感兴趣的读者,GitHub仓库`llama.cpp`(超过60,000颗星)展示了如何在本地运行LLM,其成本可预测且直接与硬件使用挂钩。另一个项目`OpenRouter`(非仓库,而是一个平台)聚合了多个API提供商,并显示实时成本估算,突出了提供商之间的差异。`vLLM`仓库(超过30,000颗星)实现了PagedAttention,减少了内存浪费并可能降低推理成本,但其托管版本仍使用基于代币的计费。
关键参与者与案例研究
Anthropic: 被告,由前OpenAI研究人员创立,将Claude定位为安全优先、高质量的GPT-4替代品。其定价页面列出了Claude 3.5 Sonnet的每代币成本:每百万输入代币3.00美元,每百万输出代币15.00美元。然而,诉讼认为,如果没有上下文窗口和缓存行为的披露,这些数字毫无意义。Anthropic尚未对此诉讼公开发表评论。
原告: 由一个专注于消费者保护的律师事务所联盟代表,原告包括个人开发者和小型企业,他们声称自己被误导。一位原告,一名初创公司创始人,报告称一个月的中等Claude使用量账单为2,400美元,而按广告宣传的费率计算,预计应低于200美元。这一差异被归因于具有大上下文窗口的长时间对话。
竞争定价模型:
| 公司 | 模型 | 基础价格(每百万代币) | 最大上下文 | 隐性成本示例 |
|---|---|---|---|---|
| Anthropic | Claude 3.5 Sonnet | 输入3.00美元 / 输出15.00美元 | 200K代币 | 10轮对话,上下文100K:实际成本为广告价格的8倍 |
| OpenAI | GPT-4o | 输入5.00美元 / 输出15.00美元 | 128K代币 | 包含图像时,代币成本增加10倍 |
| Google | Gemini 1.5 Pro | 输入3.50美元 / 输出10.50美元 | 1M代币 | 视频帧代币化导致成本激增 |
| Cohere | Command R+ | 输入2.50美元 / 输出10.00美元 | 128K代币 | 嵌入端点成本仅为生成端点的1/10 |
| 开源 | Llama 3 70B(自托管) | 约0.50美元/小时(GPU) | 无限制 | 无隐性成本,但需8x A100 GPU |