网易智企弃用Token计价：AI价值从算力转向结果

多年来，企业AI市场一直遵循一个简单的逻辑：卖Token、按查询收费，让客户自己琢磨价值。作为网易的B2B业务板块，网易智企打破了这一模式。该公司不再按Token定价AI，而是将大语言模型集成到其通信平台的核心——语音通话、消息传递、客服工作流——使得每一次交互都成为智能代理的执行触发器。定价模式彻底翻转：客户现在为完成的任务、改进的解决率和可量化的业务成果付费，而非为原始算力消耗买单。

这并非一次微小的定价调整。它代表了对企业AI本质的根本性反思。在旧模式下，供应商从低效中获利——查询越多、Token消耗越多，收入越高。网易智企的新模式则激励效率：AI代理越快、越准确地完成任务，客户成本越低，供应商则通过更高的采用率和长期合约获利。这种利益对齐可能重塑整个企业AI市场，迫使竞争对手重新思考其定价策略。

技术深度解析

网易智企的架构变革在概念上看似简单，但技术上极具挑战。该公司将其现有的实时通信（RTC）和客户互动平台——该平台大规模处理语音、视频和消息——与推理引擎直接嵌入数据平面。平台不再将音频或文本路由到单独的AI服务以获取响应，而是在管理通信流的同一基础设施上运行轻量级LLM推理。

架构细节： 该系统采用混合方法。对于实时语音转录和意图检测等延迟敏感型任务，它使用经过蒸馏的开源模型（Qwen2.5-7B 和 Llama-3.1-8B）的量化版本，精度为4-bit，运行在网易边缘节点的定制ASIC上。对于复杂推理任务——多轮谈判、合规检查、升级决策——平台回退到托管在专用GPU集群上的更大模型（Qwen2.5-72B）。关键创新在于一个“智能路由器”，它在5毫秒内对每次交互的复杂度进行分类，并将其分派到相应的推理层级。这种分层方法将95%交互的平均延迟控制在200毫秒以下，同时控制成本。

开源贡献： 网易智企已在GitHub上发布了一个名为“InferEdge”的相关优化工具包（目前拥有3,200颗星），提供量化感知训练脚本和用于边缘设备高效注意力计算的自定义CUDA内核。该仓库在过去一个季度内活跃开发，发布了12个版本，团队声称对于7B类模型，其吞吐量比标准vLLM部署提升了2.3倍。

性能基准测试： 内部测试显示，在包含10,000个客服场景的专有基准测试中，分层系统的任务完成率达到94.7%，而使用GPT-4o-mini的单模型方法为91.2%。由于GPU使用时间减少，每次交互成本下降了47%。

| 指标 | 网易智企分层系统 | 单模型 (GPT-4o-mini) | 单模型 (Llama-3.1-70B) |
|---|---|---|---|
| 任务完成率 | 94.7% | 91.2% | 93.1% |
| 平均延迟 (p95) | 180ms | 420ms | 650ms |
| 每百万次交互成本 | $1,240 | $2,340 | $3,100 |
| GPU利用率 | 68% | 55% | 42% |

数据要点： 与GPT-4o-mini基线相比，分层架构实现了47%的成本降低和57%的延迟改善，同时实际提升了任务完成率。这验证了对于许多企业用例，在优化基础设施上运行的较小、专业化模型可以胜过单体云解决方案，尤其是在延迟和成本至关重要的情况下。

关键参与者与案例研究

网易智企并非唯一尝试基于成果定价的公司，但它是第一家全面承诺采用此模式的中国主要B2B供应商。其母公司网易带来了独特优势：在消费者AI（网易有道用于教育，网易云音乐用于推荐）和企业通信（网易云通信，为10万+企业客户提供服务）方面拥有深厚经验。

竞争方法：
- Zendesk 推出了“AI代理”定价，每个代理每月99美元，但仍按解决次数收费，形成混合模式。
- Intercom 为其Fin AI代理按解决次数收费，但解决定义较窄（工单关闭）。
- Salesforce Einstein GPT 仍采用按用户许可模式，没有基于成果的组件。
- Twilio 为其CustomerAI按API调用收费，仍与Token相关。

网易智企的差异化在于其深度集成：由于AI嵌入在通信层，它可以追踪整个客户旅程中的成果——从首次联系到解决再到后续跟进——而不仅仅是单次交互。

| 公司 | 定价模式 | 成果指标 | 集成深度 |
|---|---|---|---|
| 网易智企 | 基于成果 | 任务完成率、客户满意度、解决时间 | 全栈（语音、聊天、邮件） |
| Zendesk | 混合（代理+解决） | 工单关闭 | 仅聊天+邮件 |
| Intercom | 按解决次数 | 工单关闭 | 仅聊天+邮件 |
| Salesforce | 按用户许可 | 无（基于许可） | CRM生态系统 |
| Twilio | 按API调用 | 无（基于用量） | 通信API |

数据要点： 网易智企是唯一提供真正基于成果模式并实现全栈集成的供应商。竞争对手要么使用仍保护用量收入的混合模式，要么缺乏跨渠道衡量成果的基础设施。这使网易智企在成果定价领域获得先发优势，但也意味着如果成果不及预期，它将承担更多风险。

案例研究：平安保险
早期采用者之一是平安保险，该公司部署了网易智企的平台用于理赔处理。该系统每月处理230万次交互，AI代理负责处理第一层

时间归档

延伸阅读

常见问题

这次公司发布“Why NetEase Zhiqi Ditched Token Pricing: AI Value Shifts From Compute To Outcomes”主要讲了什么？

For years, the enterprise AI market has operated on a simple premise: sell tokens, charge per query, and let customers figure out the value. NetEase Zhiqi, the B2B arm of NetEase…

从“NetEase Zhiqi outcome-based AI pricing explained”看，这家公司的这次发布为什么值得关注？

NetEase Zhiqi's architectural shift is deceptively simple in concept but technically demanding. The company has taken its existing real-time communication (RTC) and customer engagement platform—which handles voice, video…

围绕“how does NetEase Zhiqi measure AI task completion”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。