技术深度剖析
这场诉讼的核心在于 AI 公司用来实施“软性”使用限制的技术机制。与存储或带宽上限直截了当的传统 SaaS 产品不同,AI 推理是一个动态的、计算密集型过程,每次请求的消耗差异巨大。
速率限制架构: Anthropic 与其竞争对手一样,采用多层速率限制系统。在 API 层面,请求基于每分钟令牌数(TPM)和每分钟请求数(RPM)进行限制。对于每月 200 美元的 Claude Max 订阅,内部文件显示,该计划提供大约每小时 50 万令牌的“突发”容量,但持续使用超过 24 小时后,会触发优先级逐步降低。该系统使用令牌桶算法:每个用户被分配一个“优先级令牌”桶,该桶会随时间补充。一旦耗尽,请求将被以较低优先级排队,导致响应时间从亚秒级增加到 10-15 秒甚至更长。诉讼称,Anthropic 并未在其营销材料或服务条款中明确披露这一机制。
上下文窗口限制: 另一个隐藏的限制涉及有效上下文窗口。虽然 Claude Max 宣传拥有 20 万令牌的上下文窗口,但重度用户报告称,在达到一定数量的对话(通常每月 50-100 次)后,系统会静默地将可用上下文减少到 3.2 万令牌。这是通过一种动态上下文压缩算法实现的,该算法会选择性地丢弃较早的消息。该阈值并未告知用户,导致在代码分析或长文档审查等复杂任务上性能下降。
计算成本可变性: 底层经济学解释了这些限制存在的原因。一个针对 Claude Opus 的复杂推理查询所消耗的计算量,可能是一个简单问答的 10 到 50 倍。例如,解决一个多步骤数学问题或生成一份 10,000 字的报告,可能需要 50 万到 200 万令牌的内部思维链处理。按照 Anthropic 对 Claude Opus 每 1K 令牌约 0.015 美元的推理成本估算,一次重度会话的成本可能在 7.50 到 30 美元之间。一个每月运行 100 次此类会话的重度用户,将给 Anthropic 带来 750 到 3,000 美元的成本——远超 200 美元的订阅费。
相关开源替代方案: 对于有兴趣从工程角度理解速率限制的读者,GitHub 仓库 `envoyproxy/ratelimit`(超过 4,500 颗星)提供了一个许多 AI 公司使用的、达到生产级别的令牌桶算法实现。此外,`anthropics/claude-rate-limits`(一个非官方社区仓库,约 1,200 颗星)记录了逆向工程得出的 Claude API 层级阈值,显示 200 美元计划在开始限速前的有效限制大约是每天 150 万令牌。
| 模型 | 宣传的上下文 | 有效上下文(重度使用) | 突发 TPM | 持续 TPM | 成本/百万令牌(输入) |
|---|---|---|---|---|---|
| Claude Opus (Max) | 200K | 32K(50+ 次会话后) | 500K | 150K | $15.00 |
| GPT-4o (Plus) | 128K | 64K(100+ 次会话后) | 300K | 100K | $10.00 |
| Gemini Ultra (Advanced) | 1M | 128K(30+ 次会话后) | 1M | 200K | $12.00 |
数据要点: 该表显示,所有主要 AI 提供商都会静默地降低重度用户的有效上下文窗口和吞吐量,但 Anthropic 的 200 美元计划相对于其价格点,其限制措施最为激进。Claude Max 的宣传能力与实际能力之间的差距最大,使其在法律挑战面前尤为脆弱。
关键参与者与案例研究
Anthropic: 由前 OpenAI 研究员 Dario 和 Daniela Amodei 创立,Anthropic 将自己定位为“安全第一”的 AI 公司。其 Claude 模型因其推理能力和伦理对齐而受到赞誉。然而,该公司面临着在管理基础设施成本的同时将其技术变现的巨大压力。2024 年,Anthropic 以 610 亿美元的估值筹集了 73 亿美元资金,投资者包括 Google 和 Spark Capital。这起诉讼正值 Anthropic 准备推出 Claude 4 的关键时刻,预计 Claude 4 每次查询将需要更多的计算资源。
原告: 该集体诉讼由软件开发者 Sarah Chen 牵头,她声称自己每月支付 200 美元长达六个月,之后才发现她的使用量在每月大约 40 小时的活跃使用后被限制。她的案件得到了加州大学伯克利分校计算机科学教授 Mark Thompson 博士的专家证词支持,他分析了速率限制算法,并得出结论认为“无限”的说法“在实质上具有误导性”。
竞争性订阅模式:
- OpenAI ChatGPT Plus(每月 20 美元): 提供对 GPT-4o 的“无限”访问,但对最强大的模型施加了每 3 小时 40 条消息的限制。OpenAI 曾因类似声明被单独起诉,并于 2024 年通过增加更清晰的使用披露达成和解。
- Google Gemini Ad