网易智企弃用Token计价:AI价值从算力转向结果

June 2026
归档:June 2026
网易智企打破行业惯例,不再按Token收费,而是将大语言模型直接嵌入通信基础设施。企业现在为可衡量的业务成果付费——任务完成率、客户满意度评分——这标志着从销售AI算力到销售AI结果的重大转变。

多年来,企业AI市场一直遵循一个简单的逻辑:卖Token、按查询收费,让客户自己琢磨价值。作为网易的B2B业务板块,网易智企打破了这一模式。该公司不再按Token定价AI,而是将大语言模型集成到其通信平台的核心——语音通话、消息传递、客服工作流——使得每一次交互都成为智能代理的执行触发器。定价模式彻底翻转:客户现在为完成的任务、改进的解决率和可量化的业务成果付费,而非为原始算力消耗买单。

这并非一次微小的定价调整。它代表了对企业AI本质的根本性反思。在旧模式下,供应商从低效中获利——查询越多、Token消耗越多,收入越高。网易智企的新模式则激励效率:AI代理越快、越准确地完成任务,客户成本越低,供应商则通过更高的采用率和长期合约获利。这种利益对齐可能重塑整个企业AI市场,迫使竞争对手重新思考其定价策略。

技术深度解析

网易智企的架构变革在概念上看似简单,但技术上极具挑战。该公司将其现有的实时通信(RTC)和客户互动平台——该平台大规模处理语音、视频和消息——与推理引擎直接嵌入数据平面。平台不再将音频或文本路由到单独的AI服务以获取响应,而是在管理通信流的同一基础设施上运行轻量级LLM推理。

架构细节: 该系统采用混合方法。对于实时语音转录和意图检测等延迟敏感型任务,它使用经过蒸馏的开源模型(Qwen2.5-7B 和 Llama-3.1-8B)的量化版本,精度为4-bit,运行在网易边缘节点的定制ASIC上。对于复杂推理任务——多轮谈判、合规检查、升级决策——平台回退到托管在专用GPU集群上的更大模型(Qwen2.5-72B)。关键创新在于一个“智能路由器”,它在5毫秒内对每次交互的复杂度进行分类,并将其分派到相应的推理层级。这种分层方法将95%交互的平均延迟控制在200毫秒以下,同时控制成本。

开源贡献: 网易智企已在GitHub上发布了一个名为“InferEdge”的相关优化工具包(目前拥有3,200颗星),提供量化感知训练脚本和用于边缘设备高效注意力计算的自定义CUDA内核。该仓库在过去一个季度内活跃开发,发布了12个版本,团队声称对于7B类模型,其吞吐量比标准vLLM部署提升了2.3倍。

性能基准测试: 内部测试显示,在包含10,000个客服场景的专有基准测试中,分层系统的任务完成率达到94.7%,而使用GPT-4o-mini的单模型方法为91.2%。由于GPU使用时间减少,每次交互成本下降了47%。

| 指标 | 网易智企分层系统 | 单模型 (GPT-4o-mini) | 单模型 (Llama-3.1-70B) |
|---|---|---|---|
| 任务完成率 | 94.7% | 91.2% | 93.1% |
| 平均延迟 (p95) | 180ms | 420ms | 650ms |
| 每百万次交互成本 | $1,240 | $2,340 | $3,100 |
| GPU利用率 | 68% | 55% | 42% |

数据要点: 与GPT-4o-mini基线相比,分层架构实现了47%的成本降低和57%的延迟改善,同时实际提升了任务完成率。这验证了对于许多企业用例,在优化基础设施上运行的较小、专业化模型可以胜过单体云解决方案,尤其是在延迟和成本至关重要的情况下。

关键参与者与案例研究

网易智企并非唯一尝试基于成果定价的公司,但它是第一家全面承诺采用此模式的中国主要B2B供应商。其母公司网易带来了独特优势:在消费者AI(网易有道用于教育,网易云音乐用于推荐)和企业通信(网易云通信,为10万+企业客户提供服务)方面拥有深厚经验。

竞争方法:
- Zendesk 推出了“AI代理”定价,每个代理每月99美元,但仍按解决次数收费,形成混合模式。
- Intercom 为其Fin AI代理按解决次数收费,但解决定义较窄(工单关闭)。
- Salesforce Einstein GPT 仍采用按用户许可模式,没有基于成果的组件。
- Twilio 为其CustomerAI按API调用收费,仍与Token相关。

网易智企的差异化在于其深度集成:由于AI嵌入在通信层,它可以追踪整个客户旅程中的成果——从首次联系到解决再到后续跟进——而不仅仅是单次交互。

| 公司 | 定价模式 | 成果指标 | 集成深度 |
|---|---|---|---|
| 网易智企 | 基于成果 | 任务完成率、客户满意度、解决时间 | 全栈(语音、聊天、邮件) |
| Zendesk | 混合(代理+解决) | 工单关闭 | 仅聊天+邮件 |
| Intercom | 按解决次数 | 工单关闭 | 仅聊天+邮件 |
| Salesforce | 按用户许可 | 无(基于许可) | CRM生态系统 |
| Twilio | 按API调用 | 无(基于用量) | 通信API |

数据要点: 网易智企是唯一提供真正基于成果模式并实现全栈集成的供应商。竞争对手要么使用仍保护用量收入的混合模式,要么缺乏跨渠道衡量成果的基础设施。这使网易智企在成果定价领域获得先发优势,但也意味着如果成果不及预期,它将承担更多风险。

案例研究:平安保险
早期采用者之一是平安保险,该公司部署了网易智企的平台用于理赔处理。该系统每月处理230万次交互,AI代理负责处理第一层

时间归档

June 20261727 篇已发布文章

延伸阅读

银联的静默革命:构建中国数字支付的汪洋大海当微信支付和支付宝将中国数字支付版图切割成一座座孤岛时,银联正绘制一条截然不同的航路。它没有选择建造一条更强大的河流,而是成为容纳百川的海洋。代币资本 vs 人力资本:你的公司大脑正在被外包微软CEO萨提亚·纳德拉抛出一个极具挑衅性的框架,将“代币资本”与传统“人力资本”对立,警告企业正悄无声息地将智力资产拱手让给AI平台。AINews深度剖析这一关乎存亡的战略抉择,并勾勒出通往主权AI基础设施的路径。AI十字路口:OpenAI失血,Anthropic崛起,世界模型独角兽诞生AI行业正站在一个关键的转折点上。AINews调查发现,OpenAI日益加剧的财务压力暴露了其脆弱的商业模式,而Anthropic则巧妙利用监管审查的浪潮抢占市场份额。与此同时,GPT-5.4实现了首个完全自主的AI药物发现闭环,世界模型初酒店机器人迎来盈利拐点:每千次服务多赚4.30美元酒店服务机器人已跨越关键经济拐点。最新运营数据显示,每千次服务产生的净利润比人力高出4.30美元,标志着其从成本中心向利润中心的转变。这一转变由三项技术改进共同驱动:SLAM导航精度提升40%、轻量级大语言模型优化宾客交互、以及预测性维护降

常见问题

这次公司发布“Why NetEase Zhiqi Ditched Token Pricing: AI Value Shifts From Compute To Outcomes”主要讲了什么?

For years, the enterprise AI market has operated on a simple premise: sell tokens, charge per query, and let customers figure out the value. NetEase Zhiqi, the B2B arm of NetEase…

从“NetEase Zhiqi outcome-based AI pricing explained”看,这家公司的这次发布为什么值得关注?

NetEase Zhiqi's architectural shift is deceptively simple in concept but technically demanding. The company has taken its existing real-time communication (RTC) and customer engagement platform—which handles voice, video…

围绕“how does NetEase Zhiqi measure AI task completion”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。