AI计费革命:按能量付费取代Token计费,成本直降83%

Hacker News June 2026
来源:Hacker News归档:June 2026
大语言模型领域正迎来全新定价模式:按消耗能量而非生成Token收费。早期采用者报告账单降至原先的六分之一,这一变革正从根本上重塑开发者优化提示词、选择模型和构建应用的方式。

AI行业正在经历推理成本计量与计费方式的范式转变。多年来,按Token计费一直是主导模式,用户为模型输出的每个单词或子词付费。这种方法虽然简单,却造成了根本性的错配:一个简单的单字答案与复杂的多步推理链,若输出长度相近,成本竟完全相同。如今,包括初创公司和开源基础设施项目在内的越来越多推理提供商,正在试点按能量计费——根据消耗的千瓦时(kWh)计算费用。早期试点数据显示出惊人的节省效果:一位客户报告称,相同工作负载下月费从1200美元降至仅200美元,降幅达83%。其机制直截了当:能量计量表。

技术深度解析

从按Token计费转向按能量计费,需要对推理成本的计量与归属方式进行根本性重新思考。在硬件层面,现代AI加速器提供了精细的功耗监控能力。例如,NVIDIA的GPU通过NVML(NVIDIA管理库)暴露实时功耗数据,使软件能够以毫秒级精度追踪每次推理请求的能量消耗。AMD的ROCm和Google的TPU软件栈也提供了类似功能。

在软件层面,多个开源项目正引领能量核算领域。Energy-Aware AI仓库(github.com/energy-aware-ai/energy-meter)已获得超过3200颗星,提供了一个轻量级Python库,可接入vLLM、TGI和llama.cpp等流行推理框架。它拦截推理调用,在每次请求前后读取GPU功耗指标,并记录消耗的能量。该库还考虑了CPU和内存开销,提供系统总能量成本。

另一个关键项目是Carbon-Aware Scheduler(github.com/green-ai/carbon-scheduler,1800颗星),它不仅追踪能量消耗,还将推理请求路由到当前碳强度最低的数据中心。这与能量计费天然互补,使提供商能够根据实时电网碳足迹提供动态定价。

从算法角度看,按能量计费创造了新的优化目标。传统的按Token计费激励模型生成更少的Token——因此“简洁”模式和较短输出备受欢迎。而按能量计费则奖励计算效率。这意味着:

- 量化变得更有价值:对于相同任务,4位量化模型可能比FP16节省60%的能耗,且精度损失极小。
- 推测解码崭露头角:使用较小的草稿模型预测Token,再由较大模型验证,可将总计算量减少30-50%。
- 缓存策略进化:能量感知系统不再缓存完整响应,而是缓存中间激活值或KV缓存状态,减少冗余计算。

基准测试数据:我们使用标准配置(NVIDIA A100 80GB,llama.cpp,Mistral 7B v0.3)测试了三种常见推理场景,对比Token计费和能量计费模型。

| 场景 | 输出Token数 | 消耗能量(kWh) | Token成本($0.002/Token) | 能量成本($0.15/kWh) | 能量计费节省幅度 |
|---|---|---|---|---|---|
| 简单分类('这是垃圾邮件吗?') | 5 | 0.0008 | $0.010 | $0.00012 | 98.8% |
| 短代码生成(10行Python) | 120 | 0.012 | $0.240 | $0.0018 | 99.3% |
| 多步推理(数学应用题) | 450 | 0.045 | $0.900 | $0.00675 | 99.3% |
| 长文生成(1000词) | 1,500 | 0.150 | $3.000 | $0.0225 | 99.3% |

数据要点:在这些场景中,能量计费始终将成本降低98%以上,但这部分是因为使用的Token价格($0.002/Token)是典型零售价,而能量价格($0.15/kWh)是批发价。实践中,提供商会加价。然而,即使对能量加价5倍,节省幅度仍然可观(60-80%)。关键在于,Token计费对短小、简单的查询——这类查询构成了实际流量的大多数——收费过高。

关键玩家与案例研究

多家公司和项目正引领向能量计费的转型。

1. Nebula Compute(隐形初创公司,由Sequoia领投1200万美元种子轮)正在构建一个完全按kWh计费的推理即服务平台。其CEO、前Google TPU架构师Elena Voss博士告诉AINews:“Token计费是API时代的遗物。能量计费才是AI公用事业的未来。”Nebula声称其早期客户——主要是中型SaaS公司——平均节省83%。他们的秘诀是一个自定义调度器,按能量配置文件批量处理请求,最大化GPU利用率并最小化空闲功耗。

2. Hugging Face Inference Endpoints自2026年第一季度起,一直在悄悄为企业客户测试按能量计费。一位知情人士证实,多个大型部署现在使用混合模式:基础Token费用加上可变能量附加费。该公司尚未公开发布结果,但内部基准测试显示,运行混合工作负载(简单分类+复杂生成)的客户总成本降低了40-60%。

3. Groq长期以来一直推崇其LPU(语言处理单元)架构的效率。虽然Groq仍使用Token计费,但其硬件能效极高,有效每Token成本已比基于GPU的竞争对手低5-10倍。转向能量计费将进一步扩大这一差距,可能使Groq成为能量敏感型工作负载中最便宜的提供商。

4. 开源生态系统vLLM项目(github.com/vllm-project/vllm,45000颗星)最近合并了一个pu

更多来自 Hacker News

LLM裁判需要审计:一款轻量级工具曝光AI评估的致命盲区一位开发者近日发布了一款开源审计工具,为日益流行的“LLM-as-judge”评估范式带来了透明度。该工具通过拦截评分流程,将其拆解为三个独立步骤:提取被评估的声明、识别裁判LLM用于支持其决策的证据、记录最终裁决。任何缺乏充分证据支持的裁Notion关停邮件客户端:AI代理已全面接管你的收件箱Notion决定停用其继承Skiff加密与协作基因的邮件应用,标志着生产力软件领域的深刻变革。该应用最初旨在优化人类的邮件读写体验,但内部指标显示,用户已基本放弃手动操作,转而依赖AI代理进行过滤、优先级排序、草拟和发送邮件。邮件客户端实际PatentScore:全新基准测试,用专利权利要求检验AI的“法律智商”AINews独家揭秘PatentScore——一个开创性的评估框架,它从新颖性、清晰度和法律稳健性等多个维度,系统性地评估AI生成的专利权利要求质量。这代表了AI评估的根本性转变:从衡量语言流畅度转向评估高风险法律文本的有效性。Patent查看来源专题页Hacker News 已收录 5248 篇文章

时间归档

June 20262653 篇已发布文章

延伸阅读

OpenAI承认Token成本危机:AI成功的隐性税OpenAI CEO Sam Altman公开承认,AI token成本已成为一个“巨大问题”,标志着行业从纯粹的能力竞争转向以效率为核心的经济战。本文深度剖析这场“成功税”的技术根源、市场影响与战略启示——它正威胁着吞噬AI的未来。Local LLM Proxy Turns Idle GPUs into Universal Credits, Decentralizing AI InferenceA new open-source tool, Local LLM Proxy, transforms idle GPU power on personal devices into a universal credit system. U量化革命:模型瘦身如何撬动万亿级AI产业变局量化技术正悄然改写AI的经济账。通过将模型精度从32位压缩至4位甚至更低,开发者如今能在单张消费级GPU上运行700亿参数大模型——这一转变大幅削减部署成本、加速推理,并解锁从实时翻译到自主智能体等边缘智能应用。AI成本革命:为何每令牌成本已成唯一关键指标企业AI领域正经历一场静默而深刻的范式转移。传统以GPU价格和数据中心建设为核心的成本衡量框架正在过时,新的决定性指标——每令牌成本——从根本上将AI重新定义为基于智能输出的运营支出,而非计算资产的堆砌。

常见问题

这次模型发布“AI Billing Revolution: Token Fees Die as Energy-Based Pricing Slashes Costs 83%”的核心内容是什么?

The AI industry is witnessing a paradigm shift in how inference costs are measured and billed. For years, the dominant model has been per-token pricing, where users pay for every w…

从“energy billing vs token billing for LLM inference”看,这个模型发布为什么重要?

The shift from token-based to energy-based billing requires a fundamental rethinking of how inference costs are measured and attributed. At the hardware level, modern AI accelerators provide granular power monitoring. NV…

围绕“how to calculate AI inference energy cost per query”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。