Earned vs. Burned:Claude 新技能,终于让AI的商业价值有了量化标尺

Hacker News June 2026
来源:Hacker News归档:June 2026
Anthropic 为 Claude 推出了一项名为“Earned vs. Burned”的新技能,通过对比“产出价值”与“消耗资源”,为衡量 AI 的真实商业价值提供了实用框架。AINews 深度解析:这项工具如何将企业 AI 从“能力竞赛”拉回“净价值问责”的轨道。

AI 行业长期陷入“刷榜”与“参数膨胀”的循环,模型优劣往往取决于 MMLU 分数或参数量,而非对业务利润的实际贡献。Anthropic 为 Claude 推出的新技能“Earned vs. Burned”直接挑战了这一范式。它提供了一个结构化框架,让用户自行定义“产出”指标——如完成任务数、节省工时、创收金额——并与“消耗”成本(包括 API Token 消耗、算力资源、人工审核时间)进行对比。最终输出一份透明的价值账本,量化 AI 的净贡献。我们的分析显示,这个看似简单的工具,直击了企业部署 AI 时最顽固的痛点:难以计算投资回报率。

技术深度解析

'Earned vs. Burned' 技能作为 Claude 现有能力之上的一个元层运行。它并不修改底层模型架构,而是引入了一个结构化的提示模板和输出解析器,引导用户完成成本效益分析。其核心机制是一个两步流程:首先,用户定义一组“产出”指标——这些指标可以是量化的(例如“解决的客户支持工单数量”、“生成的代码行数”、“归因的销售额美元”)或定性的(例如“用户满意度评分提升”、“错误率降低”)。其次,用户指定“消耗”指标,通常包括 API Token 使用量(输入 + 输出 Token)、计算时间(秒或 GPU 小时),以及任何辅助成本,如人工审核时间或 API 调用失败。

在底层,该技能利用了 Claude 解析结构化数据和执行算术运算的能力。它很可能使用一个系统提示,指示模型提取用户定义的指标,计算总数,然后使用用户定义的权重系统计算净价值分数。例如,用户可能为每个已解决工单分配 10 美元的权重,为每 1,000 个消耗的 Token 分配 0.003 美元的权重。然后,该技能输出一个类似下面的汇总表:

| 指标 | 产出 | 消耗 | 净额 |
|---|---|---|---|
| 已解决工单 | 150 | — | 150 |
| Token 成本 | — | 45,000 | -$0.135 |
| 人工审核时间 | — | 2 小时 | -$40 |
| 净价值 | $1,500 | -$40.135 | $1,459.87 |

*数据洞察:此表展示了该技能的核心功能:将抽象的 AI 贡献转化为具体的财务账本。净价值数字成为评估 AI 部署是否值得继续的唯一指标。*

该技能的设计刻意保持极简,避免了复杂的集成。它不需要外部 API 或数据库;所有数据均由用户以自然语言提供。这降低了入门门槛,但也限制了其在自动化、实时监控方面的实用性。为此,开发者需要构建自定义管道,将使用日志输入到该技能中。开源社区已经开始探索这一点。一个名为 'claude-roi-tracker' 的 GitHub 仓库(近期获得 340 颗星)提供了一个 Python 封装器,用于记录 Claude API 调用并自动生成 'Earned vs. Burned' 报告。另一个仓库 'llm-cost-calculator'(1,200 颗星)提供了跨不同提供商的 Token 成本更细粒度的分解,可集成以增强该技能的准确性。

关键参与者与案例研究

'Earned vs. Burned' 技能是 Anthropic(Claude 背后的公司)的原创作品。这意义重大,因为它表明 Anthropic 正在积极思考企业采用障碍。虽然 OpenAI 专注于原始能力提升(例如 GPT-4o 的多模态速度),Google DeepMind 专注于研究突破(例如 Gemini 的长上下文窗口),但 Anthropic 正在以问责制和信任度作为差异化优势。该技能与其更广泛的“宪法 AI”理念保持一致,将其从安全性扩展到商业价值。

早期采用者包括一家中型电子商务公司,该公司使用该技能审计其客户服务聊天机器人。该公司将“产出”定义为成功解决的查询数量(满意度达到 90% 以上),将“消耗”定义为 API 成本加上人工升级时间。审计显示,虽然聊天机器人处理了 70% 的查询,但每个已解决查询的成本为 0.12 美元,而人工客服为 2.50 美元——成本降低了 95%。然而,审计还发现,涉及退款的查询有 40% 的升级率,表明需要针对该特定领域进行模型微调。

另一个案例涉及一个软件开发团队,使用 Claude 生成单元测试。他们将“产出”设置为首次运行通过的测试数量,将“消耗”设置为审查和修复生成测试所花费的时间。初始净价值为负,因为模型生成了许多误报。在调整提示以包含更多关于代码库的上下文后,净价值转为正数,节省的时间与审查时间之比为 3:1。

主要 AI 提供商在 ROI 衡量方面的比较:

| 提供商 | ROI 工具/方法 | 关键特性 | 局限性 |
|---|---|---|---|
| Anthropic (Claude) | 'Earned vs. Burned' 技能 | 用户定义指标,透明账本 | 手动输入,无实时追踪 |
| OpenAI | 使用仪表板 + 成本计算器 | 自动 Token 追踪,按模型成本 | 无产出指标;仅显示成本,不显示价值 |
| Google (Vertex AI) | Model Garden + 成本监控 | 与 GCP 账单集成,预制模板 | 设置复杂,需要云基础设施 |
| 开源 (LangChain) | 回调 + 自定义评估器 | 高度可定制,代码级控制 | 需要大量工程投入 |

*数据洞察:Anthropic 的技能是唯一一个直接要求用户定义“产出”并与之对比“消耗”的工具,从而真正将 AI 的价值与业务成果挂钩。*

更多来自 Hacker News

AI学会读手册:Yocto革命如何重塑嵌入式Linux开发长期以来,嵌入式Linux开发依赖部落知识——Yocto项目和BitBake的复杂层级结构、配方语法和变量覆盖规则,即便经验丰富的工程师也常常需要翻查手册。一套新的开源技能集通过嵌入专门针对Yocto文档优化的检索增强生成(RAG)层改变了TinyAgents:基于 Rust 的递归 AI 代理,重新定义工作流架构TinyAgents 代表了构建 AI 代理系统的根本性转变。与开发者预先定义线性或基于图的工作流(如 LangChain 或 LangGraph)不同,TinyAgents 将架构的缰绳交给了 LLM 本身。其核心创新是一个递归循环:LL开放记忆协议OMP:终结AI碎片化,让ChatGPT、Claude与Cursor共享用户上下文AINews独家发现,一项名为“开放记忆协议”(Open Memory Protocol,简称OMP)的变革性倡议正在AI社区悄然获得关注。这一开放标准旨在解决现代AI最顽固且代价高昂的效率瓶颈之一——记忆碎片化。当前,各大主流AI助手——查看来源专题页Hacker News 已收录 5438 篇文章

时间归档

June 20263046 篇已发布文章

延伸阅读

AI学会读手册:Yocto革命如何重塑嵌入式Linux开发一场静默的革命正在嵌入式Linux开发领域展开:一套全新的开源技能集强制AI代理在生成构建代码前查阅官方Yocto项目文档,大幅减少幻觉现象,为复杂工具链提供可靠的AI辅助。这标志着从模式匹配到文档推理的关键转变。TinyAgents:基于 Rust 的递归 AI 代理,重新定义工作流架构TinyAgents 是一个完全基于 Rust 的递归 LLM 代理框架,它让 AI 能够自主定义并动态生成子代理,通过内置转译器实时构建计算图。这超越了 LangChain 等静态工作流,将代理从工具调用者转变为自我组织的架构师。基于Rust的AI代理防火墙将延迟降至5毫秒,终结幻觉噩梦一款基于Rust的新型AI代理防火墙摒弃了“以AI监管AI”的缺陷模式,通过“计划-执行”架构与数据流污点追踪,实现了亚5毫秒的行为验证。它有望解决困扰代理安全的幻觉与延迟危机。AMA2:为AI代理重写聊天架构,而非人类一位独立开发者推出了AMA2,一个从零开始为AI代理设计的消息运行时。通过将消息视为确定性执行单元而非人类对话片段,AMA2揭示了以人为中心的聊天平台与自主代理需求之间的根本设计错配。

常见问题

这次模型发布“Earned vs Burned: The Claude Skill That Finally Quantifies AI's True Business Value”的核心内容是什么?

The AI industry has long been trapped in a cycle of benchmark chasing and parameter inflation, where a model's worth is measured by its MMLU score or parameter count rather than it…

从“How to implement Earned vs Burned for Claude API cost optimization”看,这个模型发布为什么重要?

The 'Earned vs. Burned' skill operates as a meta-layer on top of Claude's existing capabilities. It does not modify the underlying model architecture but instead introduces a structured prompt template and output parser…

围绕“Earned vs Burned vs traditional ROI calculators for AI projects”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。