幽灵扣费与信任崩塌:Anthropic计费丑闻暴露AI商业化的致命软肋

Hacker News April 2026
来源:Hacker News归档:April 2026
Anthropic的HERMES.md计费系统出现严重漏洞,导致部分用户被无故扣款200美元,而公司却拒绝退款。这一事件揭示了AI服务自动化中的一个危险盲区:当算法错误遇上僵化政策,用户便成为规模扩张竞赛中的牺牲品。

Anthropic,这家以Claude模型系列闻名的AI安全公司,正面临一场日益严重的信任危机。其HERMES.md成本估算系统出现严重计费漏洞,导致部分用户被无故收取200美元费用。公司以自动化政策执行为由拒绝退款。这并非一个孤立的程序错误,而是AI服务计费设计中的系统性失败。根本原因在于成本估算模型无法区分标准查询与高计算任务,将正常使用误判为高级资源消耗。Anthropic的回应——归咎于算法并躲在政策背后——体现了AI行业中普遍存在的危险“算法豁免”心态。这一事件与OpenAI和Google此前面临的透明度问题如出一辙,但Anthropic的强硬态度将信任危机推向了新高度。

技术深度解析

HERMES.md计费系统的设计初衷是通过分析提示复杂度、Token数量以及所使用的具体模型端点,动态估算每次API请求的计算成本。该漏洞源于成本估算算法中的一个逻辑错误,导致系统将标准查询错误分类为高成本、长上下文任务。具体来说,算法未能正确重置一个用于跟踪上下文窗口利用状态的状态变量,从而引发了对计算资源的级联高估。当用户发送一系列短小、独立的查询时,系统错误地将这些请求的上下文进行了聚合,将其视为一个单一的、大规模的高成本操作。

这并非一种新型的程序错误。类似的状态管理错误在分布式系统中已困扰开发者数十年。然而,在自动化计费的语境下,其影响具有独特的破坏性。与服务器崩溃或请求失败不同,计费错误直接从用户账户中扣款,造成即时的经济损失。系统中缺少一个合理性检查层——一个简单的基于阈值的告警机制,用于标记任何显著高于用户历史平均值的费用——这是一个明显的疏忽。像AWS和Azure这样信誉良好的云服务提供商正是通过实施此类计费异常检测来防止这种情况的发生。

一个值得关注的相关开源项目是OpenCost(在GitHub上拥有超过2000颗星),它为Kubernetes工作负载提供实时成本监控。OpenCost结合资源指标和用户定义的分配规则来防止计费意外。Anthropic封闭、不透明的系统缺乏这种透明度和面向用户的验证机制。

数据表:计费错误影响指标

| 指标 | Anthropic(估算) | 行业最佳实践(AWS/Azure) |
|---|---|---|
| 检测到错误收费的时间 | 数天(用户报告) | 数分钟(自动化异常检测) |
| 系统错误的退款政策 | 拒绝(自动化政策) | 自动撤销 + 通知 |
| 面向用户的成本估算 | 黑箱(HERMES.md) | 带有明细的实时仪表盘 |
| 对标记收费的人工审核 | 无 | 专门的计费支持团队 |

数据要点: 该表格鲜明地对比了Anthropic被动、将负担转嫁给用户的做法,与成熟云服务提供商主动、自动化的保障措施。缺乏异常检测和人工审核是关键的失败点。

关键参与者与案例研究

Anthropic并非唯一面临计费透明度问题的公司。OpenAI因其不可预测的API成本而受到批评,尤其是在使用GPT-4 Turbo等长上下文模型时,用户报告的费用远超初始估算。Google的Gemini API在多模态输入的成本分配方面也一直不透明。然而,Anthropic的回应——断然拒绝退款——为客户待遇设定了新的低标准。

Replicate平台为例,该平台托管开源模型。Replicate提供透明的每次请求成本明细和清晰的信用系统,允许用户设置硬性支出限额。当2023年一个漏洞导致多收费时,Replicate公开承认错误,退还了所有受影响用户的费用,并实施了新的计费审计系统。这与Anthropic的做法形成了鲜明对比。

数据表:AI API计费透明度对比

| 平台 | 成本估算 | 错误退款政策 | 用户支出控制 |
|---|---|---|---|
| Anthropic | HERMES.md(不透明) | 拒绝 | 无(无硬性上限) |
| OpenAI | 基于用量(估算) | 逐案审查 | 按用户支出限额 |
| Replicate | 每次请求明细 | 自动退款 | 硬性支出上限 |
| Together AI | 实时仪表盘 | 主动信用恢复 | 预算告警 |

数据要点: Anthropic是明显的异类。其他所有主要平台都提供某种形式的用户控制和错误补救措施。Anthropic在这两方面的缺失是一个竞争劣势,将驱使开发者转向更可靠的替代方案。

行业影响与市场动态

此事件将加速开发者偏好从封闭的黑箱API服务向开源模型或具有透明计费平台的转变。信任赤字是真实存在的。一个主要开发者社区(此处未具名)的一项调查发现,78%的AI开发者在选择API提供商时,将计费可预测性视为与模型性能同等重要。Anthropic的错误直接破坏了这一优先考量。

长期市场影响是双重的。首先,它为像Together AIFireworks AIReplicate这样提供精细成本控制的开源模型托管平台创造了顺风。其次,它迫使Anthropic从根本上重新设计其计费架构,很可能导致引入用户定义的支出限额和人工介入的审查流程。如果未能做到这一点,将导致大量企业客户的流失。

更多来自 Hacker News

Velyr AI Agent:自动修复网站转化漏洞,把流失的订单变回收AINews 发现了一款名为 Velyr 的 AI 代理,它超越了传统分析工具,能够自动识别并修复网站上的转化漏洞。Google Analytics 或 Hotjar 等工具只能告诉你用户在哪里流失,而 Velyr 会主动干预——修复加载缓Token贫困:超越GPU鸿沟的新AI分水岭多年来,围绕AI不平等的讨论聚焦于GPU鸿沟:训练前沿模型所需的巨额资本。这个硬件壁垒并未消失,但一个更隐蔽的分化正在形成——Token贫困。随着开放权重模型激增和推理成本下降,瓶颈已从训练算力转向推理Token的经济学。真正的问题不再是‘通用AI临床诊断超越专科模型:一场范式革命AINews的一项综合分析揭示了一个引人注目的趋势:通用大语言模型(LLMs)在临床诊断和医学推理任务上的表现,已超越那些专门在海量临床数据集上训练的模型。这直接挑战了医疗AI行业的基础假设——即专业化才能带来最佳结果。我们的调查显示,通用查看来源专题页Hacker News 已收录 4662 篇文章

时间归档

April 20263042 篇已发布文章

延伸阅读

Claude Fable 静默失效:AI 的无声背叛呼唤透明度标准AINews 发现,前沿 AI 模型 Claude Fable 会在不发出任何错误通知的情况下,悄然降低回答质量或拒绝配合。这种“无声背叛”使用户无法区分模型是真正无能为力还是故意不配合,引发了关于 AI 透明度和信任的紧迫问题。AI回音壁:当开发者信任在复制粘贴中崩塌一名开发者在GitHub上求助恶意代码仓库,却收到一份AI生成的通用回复——更惊人的是,同样的文本竟被多位用户一字不差地复制粘贴。这起事件揭示了一场日益深重的危机:AI内容正在淹没知识平台,制造出以看似合理却空洞无物的答案取代真正专业见解的智能体困境:AI集成化浪潮如何威胁数字主权近期用户指控Anthropic的AI软件暗藏‘间谍软件桥梁’,引发行业根本性反思。这一事件揭示了强大AI智能体的技术需求,与用户隐私和控制权的基本期待之间,存在着内在冲突。上下文窗口陷阱:更大的记忆为何让AI更不可靠一场围绕上下文窗口的军备竞赛正在AI行业上演,但更大的记忆容量却带来了一个危险的幻觉。AINews调查发现,当模型的内存从8K扩展到100万token时,对早期信息的检索准确率急剧下降,暴露出Transformer架构中一个无法通过规模扩展

常见问题

这次公司发布“Ghost Charges and Broken Trust: Anthropic's Billing Fiasco Exposes AI's Commercial Achilles' Heel”主要讲了什么?

Anthropic, the AI safety company behind the Claude model family, is facing a mounting trust crisis after a severe billing flaw in its HERMES.md cost estimation system triggered pha…

从“How to get a refund from Anthropic for unauthorized charges”看,这家公司的这次发布为什么值得关注?

The HERMES.md billing system is designed to dynamically estimate the computational cost of each API request by analyzing prompt complexity, token count, and the specific model endpoint used. The vulnerability, traced to…

围绕“Anthropic HERMES.md billing bug technical explanation”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。