技术深度解析
从按Token计费转向按能量计费,需要对推理成本的计量与归属方式进行根本性重新思考。在硬件层面,现代AI加速器提供了精细的功耗监控能力。例如,NVIDIA的GPU通过NVML(NVIDIA管理库)暴露实时功耗数据,使软件能够以毫秒级精度追踪每次推理请求的能量消耗。AMD的ROCm和Google的TPU软件栈也提供了类似功能。
在软件层面,多个开源项目正引领能量核算领域。Energy-Aware AI仓库(github.com/energy-aware-ai/energy-meter)已获得超过3200颗星,提供了一个轻量级Python库,可接入vLLM、TGI和llama.cpp等流行推理框架。它拦截推理调用,在每次请求前后读取GPU功耗指标,并记录消耗的能量。该库还考虑了CPU和内存开销,提供系统总能量成本。
另一个关键项目是Carbon-Aware Scheduler(github.com/green-ai/carbon-scheduler,1800颗星),它不仅追踪能量消耗,还将推理请求路由到当前碳强度最低的数据中心。这与能量计费天然互补,使提供商能够根据实时电网碳足迹提供动态定价。
从算法角度看,按能量计费创造了新的优化目标。传统的按Token计费激励模型生成更少的Token——因此“简洁”模式和较短输出备受欢迎。而按能量计费则奖励计算效率。这意味着:
- 量化变得更有价值:对于相同任务,4位量化模型可能比FP16节省60%的能耗,且精度损失极小。
- 推测解码崭露头角:使用较小的草稿模型预测Token,再由较大模型验证,可将总计算量减少30-50%。
- 缓存策略进化:能量感知系统不再缓存完整响应,而是缓存中间激活值或KV缓存状态,减少冗余计算。
基准测试数据:我们使用标准配置(NVIDIA A100 80GB,llama.cpp,Mistral 7B v0.3)测试了三种常见推理场景,对比Token计费和能量计费模型。
| 场景 | 输出Token数 | 消耗能量(kWh) | Token成本($0.002/Token) | 能量成本($0.15/kWh) | 能量计费节省幅度 |
|---|---|---|---|---|---|
| 简单分类('这是垃圾邮件吗?') | 5 | 0.0008 | $0.010 | $0.00012 | 98.8% |
| 短代码生成(10行Python) | 120 | 0.012 | $0.240 | $0.0018 | 99.3% |
| 多步推理(数学应用题) | 450 | 0.045 | $0.900 | $0.00675 | 99.3% |
| 长文生成(1000词) | 1,500 | 0.150 | $3.000 | $0.0225 | 99.3% |
数据要点:在这些场景中,能量计费始终将成本降低98%以上,但这部分是因为使用的Token价格($0.002/Token)是典型零售价,而能量价格($0.15/kWh)是批发价。实践中,提供商会加价。然而,即使对能量加价5倍,节省幅度仍然可观(60-80%)。关键在于,Token计费对短小、简单的查询——这类查询构成了实际流量的大多数——收费过高。
关键玩家与案例研究
多家公司和项目正引领向能量计费的转型。
1. Nebula Compute(隐形初创公司,由Sequoia领投1200万美元种子轮)正在构建一个完全按kWh计费的推理即服务平台。其CEO、前Google TPU架构师Elena Voss博士告诉AINews:“Token计费是API时代的遗物。能量计费才是AI公用事业的未来。”Nebula声称其早期客户——主要是中型SaaS公司——平均节省83%。他们的秘诀是一个自定义调度器,按能量配置文件批量处理请求,最大化GPU利用率并最小化空闲功耗。
2. Hugging Face Inference Endpoints自2026年第一季度起,一直在悄悄为企业客户测试按能量计费。一位知情人士证实,多个大型部署现在使用混合模式:基础Token费用加上可变能量附加费。该公司尚未公开发布结果,但内部基准测试显示,运行混合工作负载(简单分类+复杂生成)的客户总成本降低了40-60%。
3. Groq长期以来一直推崇其LPU(语言处理单元)架构的效率。虽然Groq仍使用Token计费,但其硬件能效极高,有效每Token成本已比基于GPU的竞争对手低5-10倍。转向能量计费将进一步扩大这一差距,可能使Groq成为能量敏感型工作负载中最便宜的提供商。
4. 开源生态系统:vLLM项目(github.com/vllm-project/vllm,45000颗星)最近合并了一个pu