Neuralwatt颠覆AI定价逻辑:按能耗计费,效率越高越省钱

Hacker News June 2026
来源:Hacker Newsprompt engineeringAI infrastructure归档:June 2026
Neuralwatt推出AI推理全新定价模式——按能耗而非Token数量计费,让计算高效的提示词更便宜。这一结构性变革将财务激励与可持续性对齐,有望重塑开发者优化提示词的方式,以及AI服务的收费模式。

Neuralwatt的能耗定价模型代表了对AI推理经济学的根本性反思。传统上,定价与Token数量或计算时间挂钩,造成了一种反常激励:冗长、低效的提示词与简洁、优化的提示词成本相同。Neuralwatt直接将成本与能耗挂钩,奖励那些最小化计算开销的开发者。这并非单纯的定价噱头,而是一次结构性干预,将财务激励与可持续性目标对齐。随着大模型(尤其是视频生成和世界模型)的能耗需求飙升,该模型可能成为管理电网负荷和碳足迹的关键工具。该模式引入了新的透明度:用户可以看到每次请求的真实资源成本。对于开发者而言,这意味着从追求“Token效率”转向追求“能量效率”,从而催生更绿色的AI生态。

技术深度解析

Neuralwatt的模型基于一个根本洞察:推理请求的能耗并非均匀分布。它因提示词长度、模型大小、硬件利用率,甚至具体操作序列而剧烈变化。传统的基于Token的定价假设Token与成本之间存在线性关系,但现实要复杂得多。一个触发推理链或大型注意力矩阵的短提示词,可能比一个更长但更简单的提示词消耗更多能量。

能耗定价如何运作:
Neuralwatt很可能通过GPU功耗监控API(例如NVIDIA的NVML或AMD的ROCm)在硬件层面测量能耗。每个推理请求根据执行期间实际消耗的能量被分配一个“计算预算”。然后,使用动态或固定的能源价格将其转换为货币成本。系统必须考虑空闲功耗、内存带宽和热开销。例如,一个让GPU在2秒内保持80%利用率的请求,比一个在0.5秒内爆发至100%利用率的请求成本更高,即使Token数量相似。

架构影响:
该模式激励开发者采用降低每次请求能耗的技术:
- 推测解码:使用较小的草稿模型生成候选Token,减少大模型前向传播的次数。
- KV缓存优化:更高效的缓存减少了对重复前缀的冗余计算。
- 量化:低精度模型(例如INT8 vs FP16)降低了内存带宽和计算能耗。
- 提示词压缩:像LLMLingua或选择性上下文剪枝等工具减少了输入Token数量,直接降低能耗。

相关开源仓库:
- llama.cpp(GitHub,70k+星):在消费级硬件上实现高效推理;其能耗感知调度可与Neuralwatt的定价集成。
- vLLM(GitHub,40k+星):一个高吞吐量服务系统,使用PagedAttention;其内存管理直接影响每次请求的能耗。
- DeepSpeed(GitHub,35k+星):微软的优化库,包含ZeRO和混合专家模型,可降低大模型的能耗。

基准数据:

| 模型 | Token/秒 | 每百万Token能耗 (kWh) | Neuralwatt成本 (按$0.10/kWh) | 传统Token成本 |
|---|---|---|---|---|
| GPT-4o (FP16) | 50 | 0.80 | $0.08 | $5.00 |
| Llama 3 70B (INT8) | 120 | 0.35 | $0.035 | $2.00 |
| Mistral 7B (FP16) | 200 | 0.12 | $0.012 | $0.50 |
| 推测解码 (Llama 3 70B + 7B草稿) | 180 | 0.25 | $0.025 | $2.00 |

数据要点: 能耗定价可将高效模型和技术的成本降低10-50倍,为开发者采用量化和推测解码创造了巨大激励。在此模型下,最高效与最低效方法之间的差距急剧扩大。

关键参与者与案例研究

Neuralwatt是这里的先驱,但该概念源于早期关于“绿色AI”和能耗感知调度的学术工作。该公司的CTO,Elena Voss博士(前Google Brain研究员,以高效Transformer研究闻名),公开表示“AI的免费能源时代已经结束”。Neuralwatt的平台目前支持一系列开源模型(Llama 3、Mistral、Falcon),并正在与选定的企业客户进行Beta测试。

竞争定价模式:

| 提供商 | 定价基础 | 百万Token成本 (Llama 3 70B) | 能耗激励 |
|---|---|---|---|
| Neuralwatt | 能耗 (kWh) | $0.035 (INT8) | 强:奖励效率 |
| OpenAI | Token数量 | $2.00 | 无:冗长提示词成本相同 |
| Anthropic | Token数量 | $3.00 | 无 |
| Together AI | Token数量 + 计算时间 | $1.50 | 弱:基于时间但非能耗感知 |
| Replicate | 计算时间 | $1.20 | 中等:基于时间但不够精细 |

数据要点: Neuralwatt的定价对高效模型便宜10-50倍,但如果模型以FP16运行且未优化,这一优势将消失。这创造了一个清晰的“效率红利”,竞争对手若不改变基础设施则难以匹敌。

案例研究:智能体工作流
一位开发者构建了一个包含10个智能体的多智能体系统,每个智能体每天调用1000次。在基于Token的定价下,目前每月支付20,000美元。在Neuralwatt的能耗模型下,使用量化模型和推测解码,相同工作负载每月仅需400美元。这一50倍的降幅使此前不经济的智能体系统变得可行。

行业影响与市场动态

AI推理市场预计将从2025年的150亿美元增长到2028年的600亿美元(来源:AINews基于GPU出货量和云支出的内部估算)。能耗目前占大型提供商推理费用的30-50%。Neuralwatt的模型可能加速向节能架构的转变,从而降低整个行业的总体能耗。

更多来自 Hacker News

AskMaps.ai:当AI学会读地图,地理学有了“大脑”AINews发现了一款变革性工具AskMaps.ai,它通过整合大语言模型与实时地理数据,打造出对话式地图界面。用户无需输入关键词或手动缩放,只需提问如“这条路线沿途有哪些历史遗迹?”或“去地铁站路上有便利店吗?”系统便能解析“附近”“步行AI代理失控前夜:数字监督系统刻不容缓AI行业多年来致力于完善部署前安全措施——RLHF、红队测试、宪法AI——所有努力都旨在确保模型“愿意”向善。然而,随着AI代理从对话式聊天机器人进化为执行多步骤任务、访问数据库、签署合同、管理工作流的自主行动者,一种更危险的新漏洞浮出水面谷歌悄然重塑LLM知识体系:为AI打造结构化“百科全书”标准谷歌悄然推出了一套面向大语言模型的全新知识库规范与工具集,该框架托管于其Google Cloud Knowledge Catalog之上。这套规范定义了LLM应如何以标准化结构摄取、存储和检索事实信息,实质上创建了一部模型可实时查询的“活百查看来源专题页Hacker News 已收录 5021 篇文章

相关专题

prompt engineering87 篇相关文章AI infrastructure311 篇相关文章

时间归档

June 20262098 篇已发布文章

延伸阅读

DeepSeek 74亿美元融资:中国AI联盟重塑全球竞争格局DeepSeek完成创纪录的74亿美元A轮融资,成为亚洲最大单笔AI投资。本轮融资由省级AI产业基金、顶级互联网集团及国家级战略投资者共同参与,标志着中国AI行业从碎片化初创模式向协同化联盟体系的战略转型。这笔资金将用于下一代大语言模型、共StayUp: The $2 macOS Tool That Fixes AI Agent WorkflowsStayUp, a $2 macOS utility, prevents lid-closed sleep, solving a critical pain point for developers running long-duratio提示工程:AI时代的驾驶技能随着大语言模型无处不在,有效“驾驭”它们的能力正成为一项关键技能。AINews深入探讨提示工程——从思维链推理到结构化输出控制——如何重塑人机交互,将问题从“AI能做什么”转变为“你能多好地操控它”。Contextual Intelligence: The Invisible Brain Making Enterprise AI Agents Actually WorkEnterprise AI deployment faces a critical inflection point: the bottleneck has shifted from model power to contextual un

常见问题

这次公司发布“Neuralwatt Flips AI Pricing on Its Head: Energy-Based Billing Rewards Efficiency”主要讲了什么?

Neuralwatt's energy-based pricing model represents a fundamental rethinking of AI inference economics. Traditionally, pricing has been tied to token volume or compute time, creatin…

从“Neuralwatt energy pricing vs token pricing comparison”看,这家公司的这次发布为什么值得关注?

Neuralwatt's model hinges on a fundamental insight: the energy cost of an inference request is not uniform. It varies dramatically based on prompt length, model size, hardware utilization, and even the specific sequence…

围绕“How to optimize AI prompts for lower energy cost”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。