Earned vs. Burned：Claude 新技能，终于让AI的商业价值有了量化标尺

2026年6月30日 10:13 AINews Hacker News June 2026

Anthropic 为 Claude 推出了一项名为“Earned vs. Burned”的新技能，通过对比“产出价值”与“消耗资源”，为衡量 AI 的真实商业价值提供了实用框架。AINews 深度解析：这项工具如何将企业 AI 从“能力竞赛”拉回“净价值问责”的轨道。

AI 行业长期陷入“刷榜”与“参数膨胀”的循环，模型优劣往往取决于 MMLU 分数或参数量，而非对业务利润的实际贡献。Anthropic 为 Claude 推出的新技能“Earned vs. Burned”直接挑战了这一范式。它提供了一个结构化框架，让用户自行定义“产出”指标——如完成任务数、节省工时、创收金额——并与“消耗”成本（包括 API Token 消耗、算力资源、人工审核时间）进行对比。最终输出一份透明的价值账本，量化 AI 的净贡献。我们的分析显示，这个看似简单的工具，直击了企业部署 AI 时最顽固的痛点：难以计算投资回报率。

技术深度解析

'Earned vs. Burned' 技能作为 Claude 现有能力之上的一个元层运行。它并不修改底层模型架构，而是引入了一个结构化的提示模板和输出解析器，引导用户完成成本效益分析。其核心机制是一个两步流程：首先，用户定义一组“产出”指标——这些指标可以是量化的（例如“解决的客户支持工单数量”、“生成的代码行数”、“归因的销售额美元”）或定性的（例如“用户满意度评分提升”、“错误率降低”）。其次，用户指定“消耗”指标，通常包括 API Token 使用量（输入 + 输出 Token）、计算时间（秒或 GPU 小时），以及任何辅助成本，如人工审核时间或 API 调用失败。

在底层，该技能利用了 Claude 解析结构化数据和执行算术运算的能力。它很可能使用一个系统提示，指示模型提取用户定义的指标，计算总数，然后使用用户定义的权重系统计算净价值分数。例如，用户可能为每个已解决工单分配 10 美元的权重，为每 1,000 个消耗的 Token 分配 0.003 美元的权重。然后，该技能输出一个类似下面的汇总表：

| 指标 | 产出 | 消耗 | 净额 |
|---|---|---|---|
| 已解决工单 | 150 | — | 150 |
| Token 成本 | — | 45,000 | -$0.135 |
| 人工审核时间 | — | 2 小时 | -$40 |
| 净价值 | $1,500 | -$40.135 | $1,459.87 |

*数据洞察：此表展示了该技能的核心功能：将抽象的 AI 贡献转化为具体的财务账本。净价值数字成为评估 AI 部署是否值得继续的唯一指标。*

该技能的设计刻意保持极简，避免了复杂的集成。它不需要外部 API 或数据库；所有数据均由用户以自然语言提供。这降低了入门门槛，但也限制了其在自动化、实时监控方面的实用性。为此，开发者需要构建自定义管道，将使用日志输入到该技能中。开源社区已经开始探索这一点。一个名为 'claude-roi-tracker' 的 GitHub 仓库（近期获得 340 颗星）提供了一个 Python 封装器，用于记录 Claude API 调用并自动生成 'Earned vs. Burned' 报告。另一个仓库 'llm-cost-calculator'（1,200 颗星）提供了跨不同提供商的 Token 成本更细粒度的分解，可集成以增强该技能的准确性。

关键参与者与案例研究

'Earned vs. Burned' 技能是 Anthropic（Claude 背后的公司）的原创作品。这意义重大，因为它表明 Anthropic 正在积极思考企业采用障碍。虽然 OpenAI 专注于原始能力提升（例如 GPT-4o 的多模态速度），Google DeepMind 专注于研究突破（例如 Gemini 的长上下文窗口），但 Anthropic 正在以问责制和信任度作为差异化优势。该技能与其更广泛的“宪法 AI”理念保持一致，将其从安全性扩展到商业价值。

早期采用者包括一家中型电子商务公司，该公司使用该技能审计其客户服务聊天机器人。该公司将“产出”定义为成功解决的查询数量（满意度达到 90% 以上），将“消耗”定义为 API 成本加上人工升级时间。审计显示，虽然聊天机器人处理了 70% 的查询，但每个已解决查询的成本为 0.12 美元，而人工客服为 2.50 美元——成本降低了 95%。然而，审计还发现，涉及退款的查询有 40% 的升级率，表明需要针对该特定领域进行模型微调。

另一个案例涉及一个软件开发团队，使用 Claude 生成单元测试。他们将“产出”设置为首次运行通过的测试数量，将“消耗”设置为审查和修复生成测试所花费的时间。初始净价值为负，因为模型生成了许多误报。在调整提示以包含更多关于代码库的上下文后，净价值转为正数，节省的时间与审查时间之比为 3:1。

主要 AI 提供商在 ROI 衡量方面的比较：

| 提供商 | ROI 工具/方法 | 关键特性 | 局限性 |
|---|---|---|---|
| Anthropic (Claude) | 'Earned vs. Burned' 技能 | 用户定义指标，透明账本 | 手动输入，无实时追踪 |
| OpenAI | 使用仪表板 + 成本计算器 | 自动 Token 追踪，按模型成本 | 无产出指标；仅显示成本，不显示价值 |
| Google (Vertex AI) | Model Garden + 成本监控 | 与 GCP 账单集成，预制模板 | 设置复杂，需要云基础设施 |
| 开源 (LangChain) | 回调 + 自定义评估器 | 高度可定制，代码级控制 | 需要大量工程投入 |

*数据洞察：Anthropic 的技能是唯一一个直接要求用户定义“产出”并与之对比“消耗”的工具，从而真正将 AI 的价值与业务成果挂钩。*

常见问题

这次模型发布“Earned vs Burned: The Claude Skill That Finally Quantifies AI's True Business Value”的核心内容是什么？

The AI industry has long been trapped in a cycle of benchmark chasing and parameter inflation, where a model's worth is measured by its MMLU score or parameter count rather than it…

从“How to implement Earned vs Burned for Claude API cost optimization”看，这个模型发布为什么重要？

The 'Earned vs. Burned' skill operates as a meta-layer on top of Claude's existing capabilities. It does not modify the underlying model architecture but instead introduces a structured prompt template and output parser…

围绕“Earned vs Burned vs traditional ROI calculators for AI projects”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

Earned vs. Burned：Claude 新技能，终于让AI的商业价值有了量化标尺

技术深度解析

关键参与者与案例研究

更多来自 Hacker News

时间归档

延伸阅读

常见问题