Claude定价诉讼曝光AI的“隐性代币税”:AINews深度调查

Hacker News June 2026
来源:Hacker NewsAI transparency归档:June 2026
Anthropic因Claude的基于代币的定价模式面临集体诉讼,原告指控其通过上下文窗口和缓存机制掩盖巨额隐性成本。此案可能迫使整个AI行业走向激进的定价透明化。

一起针对Anthropic的集体诉讼指控其Claude AI定价存在根本性欺骗。原告声称,广告中宣传的按代币计费结构与实际收费大相径庭,实际费用因上下文窗口累积、缓存未命中惩罚和输出长度变化而不可预测地膨胀。诉讼认为,消费者被看似极低的每代币成本(常被引述为美分的一小部分)所吸引,却收到比预期高出数个数量级的账单。这不仅仅是合同纠纷,更是对大型语言模型公司服务货币化方式的系统性挑战。通过使用“代币”这一技术术语作为定价单位,Anthropic等公司制造了一种精确和公平的假象,同时将真正的成本驱动因素——上下文窗口、缓存行为和输出不确定性——隐藏在技术黑箱之中。该案的核心诉求是要求AI公司披露其定价模型的实际成本结构,包括上下文窗口处理、缓存命中率以及输出长度分布等关键指标。如果原告胜诉,可能开创先例,迫使整个行业从“每代币”定价转向更透明的“每查询”或“每会话”定价模式,甚至推动监管机构介入定义AI服务的公平计价标准。

技术深度解析

这场诉讼的核心在于广告宣传的“每代币”价格与LLM推理中实际成本驱动因素之间的脱节。代币并非一个稳定的价值单位。一个代币可以代表一个字符、一个单词或一个子词,而生成它的计算成本根据模型架构和输入上下文的不同可能相差数个数量级。

上下文窗口累积: 最显著的隐性成本是上下文窗口。当用户发送查询时,模型会处理整个对话历史——包括之前的轮次、系统提示和检索到的文档。这意味着会话中的每一次后续调用都会产生重新处理所有先前代币的成本。例如,一个用户发送10次查询,每次新增500个代币,他将被按每次查询500个代币计费,但模型实际处理的总代币数为500 + 1,000 + 1,500 + ... + 5,000 = 27,500个代币。因此,广告宣传的“每查询”价格只是真实成本的一小部分。

缓存机制与未命中惩罚: 与其他提供商一样,Anthropic使用提示缓存来减少重复前缀的延迟和成本。然而,缓存有大小限制和生存时间。当缓存未命中发生时——因为对话偏离或TTL到期——必须重新计算完整的上下文,从而产生完整的推理成本。诉讼称,这些缓存未命中惩罚的披露方式不足以让消费者预测其账单。缓存命中率是用户使用模式的函数,而使用模式本身是不可预测的。

输出长度变化: 生成成本与输出长度呈线性增长,但模型的输出长度是非确定性的。一个简单的“是”或“否”可能花费与一篇500字文章相同的代币价格。虽然用户可以设置`max_tokens`,但模型通常会在达到限制前停止,但成本仍然按生成的完整序列计算。广告宣传的“每代币成本”因此是一个下限,而非上限。

计费模型技术对比:

| 提供商 | 基本计费单位 | 隐性成本因素 | 透明度评分(1-10) |
|---|---|---|---|
| Anthropic (Claude) | 每代币(输入+输出) | 上下文窗口累积、缓存未命中、系统提示成本 | 3 |
| OpenAI (GPT-4o) | 每代币(输入+输出) | 上下文窗口累积、图像代币成本、函数调用开销 | 4 |
| Google (Gemini 1.5) | 每字符(含代币等价) | 上下文窗口累积、视频帧代币化 | 5 |
| Cohere (Command R+) | 每代币(输入+输出) | 生成端点与嵌入端点成本差异 | 6 |
| 开源(自托管) | 基础设施成本(GPU/小时) | 无隐性代币成本,但需前期硬件投资 | 9 |

数据要点: 该表揭示,所有主要基于API的提供商都存在相同的基本不透明性问题:他们按代币收费,但实际代币数量是用户使用模式的函数,而该模式对用户而言是不透明的。自托管模型提供了最高的透明度,但需要大量的前期投资。诉讼的核心论点是,这种不透明性并非偶然,而是一种将风险从提供商转移到消费者的设计选择。

相关开源项目: 对于对替代计费模型感兴趣的读者,GitHub仓库`llama.cpp`(超过60,000颗星)展示了如何在本地运行LLM,其成本可预测且直接与硬件使用挂钩。另一个项目`OpenRouter`(非仓库,而是一个平台)聚合了多个API提供商,并显示实时成本估算,突出了提供商之间的差异。`vLLM`仓库(超过30,000颗星)实现了PagedAttention,减少了内存浪费并可能降低推理成本,但其托管版本仍使用基于代币的计费。

关键参与者与案例研究

Anthropic: 被告,由前OpenAI研究人员创立,将Claude定位为安全优先、高质量的GPT-4替代品。其定价页面列出了Claude 3.5 Sonnet的每代币成本:每百万输入代币3.00美元,每百万输出代币15.00美元。然而,诉讼认为,如果没有上下文窗口和缓存行为的披露,这些数字毫无意义。Anthropic尚未对此诉讼公开发表评论。

原告: 由一个专注于消费者保护的律师事务所联盟代表,原告包括个人开发者和小型企业,他们声称自己被误导。一位原告,一名初创公司创始人,报告称一个月的中等Claude使用量账单为2,400美元,而按广告宣传的费率计算,预计应低于200美元。这一差异被归因于具有大上下文窗口的长时间对话。

竞争定价模型:

| 公司 | 模型 | 基础价格(每百万代币) | 最大上下文 | 隐性成本示例 |
|---|---|---|---|---|
| Anthropic | Claude 3.5 Sonnet | 输入3.00美元 / 输出15.00美元 | 200K代币 | 10轮对话,上下文100K:实际成本为广告价格的8倍 |
| OpenAI | GPT-4o | 输入5.00美元 / 输出15.00美元 | 128K代币 | 包含图像时,代币成本增加10倍 |
| Google | Gemini 1.5 Pro | 输入3.50美元 / 输出10.50美元 | 1M代币 | 视频帧代币化导致成本激增 |
| Cohere | Command R+ | 输入2.50美元 / 输出10.00美元 | 128K代币 | 嵌入端点成本仅为生成端点的1/10 |
| 开源 | Llama 3 70B(自托管) | 约0.50美元/小时(GPU) | 无限制 | 无隐性成本,但需8x A100 GPU |

更多来自 Hacker News

Noema64国际象棋引擎:大模型推理能否以智取胜,挑战Stockfish的暴力计算?AINews独家获悉了Noema64——一款开源国际象棋引擎,它代表着人工智能在博弈领域的一次范式转变。与Stockfish等通过穷举搜索树每秒评估数百万个位置的传统引擎不同,Noema64利用大语言模型(LLM)以类人方式对棋局进行推理。Spaturzu SDKs:开源利器,终于让AI Agent的API成本无所遁形多Agent AI架构的快速普及引发了一场隐性危机:当数十个Agent共享一个API密钥时,财务团队根本无法判断哪个Agent在烧钱。新发布的开源项目Spaturzu SDKs直接瞄准了这一盲区。该工具的工作原理是,在每次向OpenAI和AToken清算时刻:CFO们要求每一笔API调用都要有ROI过去两年,企业一直把大语言模型当作一个“消防水带”:把所有问题都抛给GPT-4,付账单,然后宣布胜利。那个时代正在终结。一门新的学科——Token经济学——正在迫使企业核算每一次推理的成本。我们的调查显示,许多公司现在将超过20%的总IT预查看来源专题页Hacker News 已收录 4818 篇文章

相关专题

AI transparency49 篇相关文章

时间归档

June 20261654 篇已发布文章

延伸阅读

GPT-2 124M检查点:27.5B Token对AI黑箱的一记重拳一个完全开放、可复现的GPT-2 124M检查点正式发布,基于27.5B tokens的OpenWebText训练而成。它并未带来性能突破,却提供了一项关键科学资产:一个纯净、未经篡改的基线模型,用于严谨的AI研究,直面行业向不透明、专有系Neuron-DB 神经索引:终结大模型“失忆症”的革命性方案大语言模型(LLM)的“记忆”问题一直是其最大短板——每次对话都从零开始,用户不得不反复交代背景。开源项目 Neuron-DB 提出一个激进解法:可训练的神经索引层,通过模拟生物遗忘机制,让模型只保留真正重要的信息,有望终结“格式重启”式对本地SQLite击败GPT-4全上下文:79%准确率引爆AI记忆革命基于本地SQLite的检索系统在LongMemEval基准测试中达到79%准确率,超越GPT-4的全上下文方法。这一结果挑战了业界对不断扩大的上下文窗口的痴迷,表明结构化本地记忆或许能为长程推理提供更高效的路径。Git-LFS令牌大削减:版本控制如何将AI代理成本降低95%一种创新方法将AI代理工具输出视为版本控制对象而非文本字符串,实现了令牌消耗减少95%。通过利用Git和LFS,代理传递紧凑的哈希引用而非完整数据,大幅降低成本,并支持可扩展的多代理工作流。

常见问题

这次公司发布“Claude Pricing Lawsuit Exposes AI's Hidden Token Tax: AINews Investigation”主要讲了什么?

A class-action lawsuit filed against Anthropic alleges that its Claude AI pricing is fundamentally deceptive. The plaintiffs claim the advertised per-token billing structure bears…

从“Claude API pricing hidden costs context window”看,这家公司的这次发布为什么值得关注?

The core of the lawsuit revolves around the disconnect between the advertised 'per-token' price and the actual cost drivers in LLM inference. Tokens are not a stable unit of value. A single token can represent a characte…

围绕“Anthropic lawsuit token billing transparency”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。