Claude定价诉讼曝光AI的“隐性代币税”：AINews深度调查

一起针对Anthropic的集体诉讼指控其Claude AI定价存在根本性欺骗。原告声称，广告中宣传的按代币计费结构与实际收费大相径庭，实际费用因上下文窗口累积、缓存未命中惩罚和输出长度变化而不可预测地膨胀。诉讼认为，消费者被看似极低的每代币成本（常被引述为美分的一小部分）所吸引，却收到比预期高出数个数量级的账单。这不仅仅是合同纠纷，更是对大型语言模型公司服务货币化方式的系统性挑战。通过使用“代币”这一技术术语作为定价单位，Anthropic等公司制造了一种精确和公平的假象，同时将真正的成本驱动因素——上下文窗口、缓存行为和输出不确定性——隐藏在技术黑箱之中。该案的核心诉求是要求AI公司披露其定价模型的实际成本结构，包括上下文窗口处理、缓存命中率以及输出长度分布等关键指标。如果原告胜诉，可能开创先例，迫使整个行业从“每代币”定价转向更透明的“每查询”或“每会话”定价模式，甚至推动监管机构介入定义AI服务的公平计价标准。

技术深度解析

这场诉讼的核心在于广告宣传的“每代币”价格与LLM推理中实际成本驱动因素之间的脱节。代币并非一个稳定的价值单位。一个代币可以代表一个字符、一个单词或一个子词，而生成它的计算成本根据模型架构和输入上下文的不同可能相差数个数量级。

上下文窗口累积： 最显著的隐性成本是上下文窗口。当用户发送查询时，模型会处理整个对话历史——包括之前的轮次、系统提示和检索到的文档。这意味着会话中的每一次后续调用都会产生重新处理所有先前代币的成本。例如，一个用户发送10次查询，每次新增500个代币，他将被按每次查询500个代币计费，但模型实际处理的总代币数为500 + 1,000 + 1,500 + ... + 5,000 = 27,500个代币。因此，广告宣传的“每查询”价格只是真实成本的一小部分。

缓存机制与未命中惩罚： 与其他提供商一样，Anthropic使用提示缓存来减少重复前缀的延迟和成本。然而，缓存有大小限制和生存时间。当缓存未命中发生时——因为对话偏离或TTL到期——必须重新计算完整的上下文，从而产生完整的推理成本。诉讼称，这些缓存未命中惩罚的披露方式不足以让消费者预测其账单。缓存命中率是用户使用模式的函数，而使用模式本身是不可预测的。

输出长度变化： 生成成本与输出长度呈线性增长，但模型的输出长度是非确定性的。一个简单的“是”或“否”可能花费与一篇500字文章相同的代币价格。虽然用户可以设置`max_tokens`，但模型通常会在达到限制前停止，但成本仍然按生成的完整序列计算。广告宣传的“每代币成本”因此是一个下限，而非上限。

计费模型技术对比：

| 提供商 | 基本计费单位 | 隐性成本因素 | 透明度评分（1-10） |
|---|---|---|---|
| Anthropic (Claude) | 每代币（输入+输出） | 上下文窗口累积、缓存未命中、系统提示成本 | 3 |
| OpenAI (GPT-4o) | 每代币（输入+输出） | 上下文窗口累积、图像代币成本、函数调用开销 | 4 |
| Google (Gemini 1.5) | 每字符（含代币等价） | 上下文窗口累积、视频帧代币化 | 5 |
| Cohere (Command R+) | 每代币（输入+输出） | 生成端点与嵌入端点成本差异 | 6 |
| 开源（自托管） | 基础设施成本（GPU/小时） | 无隐性代币成本，但需前期硬件投资 | 9 |

数据要点： 该表揭示，所有主要基于API的提供商都存在相同的基本不透明性问题：他们按代币收费，但实际代币数量是用户使用模式的函数，而该模式对用户而言是不透明的。自托管模型提供了最高的透明度，但需要大量的前期投资。诉讼的核心论点是，这种不透明性并非偶然，而是一种将风险从提供商转移到消费者的设计选择。

相关开源项目： 对于对替代计费模型感兴趣的读者，GitHub仓库`llama.cpp`（超过60,000颗星）展示了如何在本地运行LLM，其成本可预测且直接与硬件使用挂钩。另一个项目`OpenRouter`（非仓库，而是一个平台）聚合了多个API提供商，并显示实时成本估算，突出了提供商之间的差异。`vLLM`仓库（超过30,000颗星）实现了PagedAttention，减少了内存浪费并可能降低推理成本，但其托管版本仍使用基于代币的计费。

关键参与者与案例研究

Anthropic： 被告，由前OpenAI研究人员创立，将Claude定位为安全优先、高质量的GPT-4替代品。其定价页面列出了Claude 3.5 Sonnet的每代币成本：每百万输入代币3.00美元，每百万输出代币15.00美元。然而，诉讼认为，如果没有上下文窗口和缓存行为的披露，这些数字毫无意义。Anthropic尚未对此诉讼公开发表评论。

原告： 由一个专注于消费者保护的律师事务所联盟代表，原告包括个人开发者和小型企业，他们声称自己被误导。一位原告，一名初创公司创始人，报告称一个月的中等Claude使用量账单为2,400美元，而按广告宣传的费率计算，预计应低于200美元。这一差异被归因于具有大上下文窗口的长时间对话。

竞争定价模型：

| 公司 | 模型 | 基础价格（每百万代币） | 最大上下文 | 隐性成本示例 |
|---|---|---|---|---|
| Anthropic | Claude 3.5 Sonnet | 输入3.00美元 / 输出15.00美元 | 200K代币 | 10轮对话，上下文100K：实际成本为广告价格的8倍 |
| OpenAI | GPT-4o | 输入5.00美元 / 输出15.00美元 | 128K代币 | 包含图像时，代币成本增加10倍 |
| Google | Gemini 1.5 Pro | 输入3.50美元 / 输出10.50美元 | 1M代币 | 视频帧代币化导致成本激增 |
| Cohere | Command R+ | 输入2.50美元 / 输出10.00美元 | 128K代币 | 嵌入端点成本仅为生成端点的1/10 |
| 开源 | Llama 3 70B（自托管） | 约0.50美元/小时（GPU） | 无限制 | 无隐性成本，但需8x A100 GPU |

时间归档

延伸阅读

常见问题

这次公司发布“Claude Pricing Lawsuit Exposes AI's Hidden Token Tax: AINews Investigation”主要讲了什么？

A class-action lawsuit filed against Anthropic alleges that its Claude AI pricing is fundamentally deceptive. The plaintiffs claim the advertised per-token billing structure bears…

从“Claude API pricing hidden costs context window”看，这家公司的这次发布为什么值得关注？

The core of the lawsuit revolves around the disconnect between the advertised 'per-token' price and the actual cost drivers in LLM inference. Tokens are not a stable unit of value. A single token can represent a characte…

围绕“Anthropic lawsuit token billing transparency”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。