阿里QoderWork掀AI定价革命：夜间Token打两折，动态电价模式颠覆算力市场

阿里云Qoder生态——涵盖云端IDE产品QoderWork与本地客户端Qoder Desktop——为其Qwen 3.7模型引入了创新的「峰谷Token」定价机制。根据该方案，在本地时间晚上10点至早上8点之间，用于代码生成、调试和重构的API调用仅按白天高峰时段费率的20%计费。这并非简单的折扣，而是将电力市场中长期应用的动态定价概念战略性地应用于AI推理。其核心洞察在于：GPU集群，尤其是那些专用于交互式编程任务的集群，在夜间时段存在严重的利用率不足。固定定价无法激励用户转移工作负载，导致算力浪费并推高所有人的平均成本。通过提供高达80%的折扣，阿里云希望将非紧急的编码任务（如代码审查、后台linting）转移到夜间，从而更有效地利用其GPU基础设施。此举不仅降低了开发者的成本，还可能重塑整个AI编码助手市场的定价格局。

技术深度解析

「峰谷Token」模型是需求侧管理在AI推理中的直接应用。其核心在于解决GPU集群利用率的一个根本性低效问题。像Qwen 3.7这样的交互式编程助手产生的请求具有高度波动性：工作时间繁忙，夜间稀疏。没有价格信号，用户没有理由改变行为，因此集群必须按峰值需求进行配置，导致昂贵的硬件每天闲置12小时以上。

运作机制：
- 定价层级： 白天（上午8点至晚上10点）按标准费率收费（例如，Qwen 3.7-70B每百万Token 0.15美元）。夜间（晚上10点至早上8点）降至该费率的20%（每百万Token 0.03美元）。
- 调度灵活性： 用户可以通过API提交带有`scheduled_delivery`参数的批处理作业，或者系统可以自动将非紧急请求（例如，代码审查评论、后台linting）排队等待非高峰时段执行。
- 资源池化： 阿里云很可能在QoderWork和Qoder Desktop之间使用共享推理池，根据当前负载和时段定价，将请求动态路由到最具成本效益的GPU节点。

技术影响：
- 延迟权衡： 由于批处理和较低优先级的调度，非高峰请求可能会经历稍高的延迟（例如，2-5秒 vs. 0.5-1秒）。对于非交互式任务，这是可以接受的。
- 模型服务架构： 为支持这一点，Qwen 3.7很可能使用多层推理栈提供服务。高优先级的白天请求获得专用GPU实例（例如，NVIDIA A100/H100）。非高峰请求可以批处理到同一硬件上，或通过量化（例如，FP8或INT4）重定向到更便宜、功耗更低的GPU（例如，NVIDIA L40S甚至消费级的RTX 4090）。
- 开源参考： Qwen 3.7模型本身在GitHub的Qwen仓库（github.com/QwenLM/Qwen2.5，拥有超过15k星标）中可用。该模型采用混合专家（MoE）架构，总参数量为70B，但每个Token仅激活约20B，使其推理效率很高。用于服务和量化的代码是开源的，使第三方能够复制类似的定价模型。

基准性能：

| 模型 | HumanEval Pass@1 | MBPP Pass@1 | LiveCodeBench (Hard) | 延迟 (ms/token, A100) |
|---|---|---|---|---|
| Qwen 3.7-70B (MoE) | 85.2% | 78.9% | 62.1% | 12.3 |
| GPT-4o (估计) | 87.1% | 82.0% | 65.0% | 10.5 |
| Claude 3.5 Sonnet | 84.8% | 79.5% | 61.8% | 11.8 |
| DeepSeek Coder V2 | 83.5% | 76.4% | 58.9% | 14.1 |

数据要点： Qwen 3.7-70B在编程基准测试中与顶级专有模型高度竞争，尤其是考虑到其MoE架构减少了活跃计算量。在非高峰定价（每百万Token 0.03美元）下，它成为最具成本效益的编程模型，甚至低于像DeepSeek Coder V2这样的开源替代品。

关键参与者与案例研究

阿里云（Qoder生态）：
- 产品： QoderWork（云端IDE）+ Qoder Desktop（本地客户端）+ Qwen 3.7模型。
- 策略： 利用动态定价吸引价格敏感的开发者（学生、自由职业者、初创公司）和企业批处理工作负载。
- 过往记录： 阿里云在AI定价方面一直很激进，此前在2024年5月将Qwen API成本降低了85%。Qoder生态相对较新（2024年底推出），但已迅速获得关注，尤其是在亚洲。

竞争对手：

| 产品 | 定价模式 | 成本（每百万Token，编程模型） | 非高峰折扣 | 关键差异化优势 |
|---|---|---|---|---|
| QoderWork (Qwen 3.7) | 峰谷Token | $0.15（高峰），$0.03（非高峰） | 80% | 动态定价，MoE效率 |
| GitHub Copilot | 按席位（$10-39/月） | ~$0.10（隐含，无限使用） | 无 | 深度IDE集成，庞大用户群 |
| Amazon CodeWhisperer | 按席位（$19/月） | ~$0.08（隐含） | 无 | AWS生态系统，安全扫描 |
| Google Gemini Code Assist | 按席位（$19.99/月） | ~$0.12（隐含） | 无 | Google Cloud集成，Gemini 2.0 |
| DeepSeek Coder V2 (API) | 按Token | $0.14（标准） | 无 | 开源，强劲基准 |

数据要点： QoderWork的非高峰定价（每百万Token 0.03美元）比基于订阅的竞争对手的隐含每Token成本便宜3-5倍。对于一个每月处理5000万Token（大约10,000次代码审查）的开发者来说，成本从7,500美元（高峰）降至1,500美元（非高峰），而Copilot每月10-39美元（有使用限制）。这使得QoderWork对于高容量、非紧急任务极具吸引力。

案例研究：独立开发者
一位构建大型开源项目的独立开发者现在可以使用Qwen 3.7以每百万Token 0.03美元的价格运行夜间自动化代码审查。以前，他们要么支付每百万Token 0.15美元，要么依赖免费但较弱的模型。这使得在不破产的情况下，将AI驱动的代码质量检查持续集成成为可能。

行业影响与市场动态

峰谷模型是一个潜在的行业变革者。它解决了AI服务中一个长期存在的问题：GPU资源在非高峰时段的浪费。通过将电力市场的定价逻辑引入AI，阿里云不仅降低了成本，还创建了一个更高效的市场。竞争对手可能会被迫做出反应。GitHub Copilot和Amazon CodeWhisperer等基于订阅的服务可能难以匹敌这种灵活性，因为它们按席位收费，与使用量无关。然而，它们可以引入自己的分层定价或使用限制。开源模型提供商如DeepSeek可能面临压力，需要提供类似的动态定价或进一步降低价格。最终，峰谷模型可能会成为AI推理的标准做法，特别是对于交互式编码助手等延迟容忍型工作负载。它还可能鼓励更多开发者将AI用于非紧急任务，如夜间代码审查和批量重构，从而扩大整个市场。

时间归档

延伸阅读

常见问题

这次公司发布“Alibaba's QoderWork Shakes Up AI Pricing With Off-Peak Token Discounts”主要讲了什么？

Alibaba's Qoder ecosystem, encompassing QoderWork (the cloud-based IDE) and Qoder Desktop (the local client), has introduced a novel 'peak-valley token' pricing mechanism for its Q…

从“How does QoderWork peak-valley token pricing compare to GitHub Copilot per-seat pricing?”看，这家公司的这次发布为什么值得关注？

The 'peak-valley token' model is a direct application of demand-side management to AI inference. At its core, it addresses a fundamental inefficiency in GPU cluster utilization. Interactive coding assistants like Qwen 3.…

围绕“Can I use Qwen 3.7 off-peak pricing for non-coding tasks?”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。