技术深度解析
向代币计费的转变并非随意之举;它反映了大型语言模型中的基本计算单位。代币是一段文本——在英语中大约相当于0.75个单词,但根据语言和编码方式有所不同。运营商现在正在其网络中部署设备,以在数据包层面识别AI流量,并应用代币级计量。
代币计量架构
核心挑战在于区分AI流量和人类生成的流量。运营商部署了深度包检测(DPI),并辅以基于主要AI API流量模式训练的机器学习分类器。例如,与用户浏览维基百科相比,发往OpenAI API端点的流量显示出独特的数据包大小、时间间隔和TLS握手特征。一旦识别,一个中间件层——通常部署在网络边缘,使用基于FPGA的加速器——会实时统计代币数量。这并非易事:分词需要使用LLM所使用的相同模型特定分词器(例如GPT-4的cl100k_base分词器)。像SK Telecom这样的运营商已与分词器提供商合作,将这一逻辑直接嵌入网络路由器中。
延迟与开销
代币计数为每个请求增加了2-5毫秒的延迟,这对大多数AI交互来说可以接受,但对实时语音代理来说却是个问题。为了缓解这一问题,一些运营商使用概率计数:对一小部分数据包进行采样,并推断代币数量。代价是计费准确性:概率方法可能存在1-3%的误差,对于高流量用户(例如AI呼叫中心)来说,每月可能转化为数千美元的差异。
开源工具
一些开源项目正在涌现,以帮助开发者理解和优化代币消耗。`tiktoken`仓库(由OpenAI开发,10k+星标)为GPT模型提供快速分词。`langchain`项目(42k+星标)现在包含代币跟踪中间件,可记录每一步的代币使用情况。对于运营商,`p4lang`(P4语言)社区开发了在可编程交换机上进行网络内代币计数的参考设计,实现了亚微秒级的计量。
性能基准测试
| 指标 | 传统数据计费 | 代币计费 | 差异 |
|---|---|---|---|
| 粒度 | 每MB(1,000,000字节) | 每1,000个代币(约750个单词) | 精细约1,333倍 |
| 增加延迟 | <0.1ms | 2–5ms(带DPI) | 增加20–50倍 |
| 计费准确性 | 100%(字节精确) | 97–99%(概率方法) | 1–3%误差 |
| 基础设施成本 | $0.001/GB | $0.05/GB(估算) | 增加50倍 |
数据要点: 代币计费提供了前所未有的粒度,但代价是显著的延迟和基础设施成本。每GB运营成本增加50倍意味着运营商必须收取溢价才能证明投资的合理性,这可能会限制其在高价值AI用例中的采用。
关键参与者与案例研究
SK Telecom(韩国)
SK Telecom在2025年第一季度启动了一项名为“AI Data Pass”的试点项目,对进出主要LLM API的流量按每1,000个代币收费。定价分档:标准AI(例如客服机器人)每1,000个代币收费0.002美元,高级AI(例如具有延迟保证的实时代码生成)每1,000个代币收费0.008美元。早期结果显示,由于用户更加注意代币使用量,AI流量导致的网络拥塞减少了40%。然而,小型开发者抱怨这种模式惩罚了冗长的AI回复,迫使他们重写提示词以使其更简洁。
Deutsche Telekom(欧洲)
Deutsche Telekom正在测试一种“代币钱包”概念,用户可以预先购买代币包,类似于移动数据充值。代币包分档:100万个代币5欧元(基础版),1000万个代币40欧元(专业版),1亿个代币300欧元(企业版)。该公司已将代币计数集成到其网络API中,允许第三方开发者查询实时代币余额。一个值得注意的案例是一家使用AI进行医疗转录的德国医疗保健初创公司;与统一费率数据套餐相比,在代币计费下其月度账单下降了60%,因为AI流量具有高度突发性但总量较低。
中国移动(中国)
中国移动采取了不同的方法:它对AI生成的短信和消息流量按字符(而非代币)收费。费率为每个字符0.001元人民币(约合0.00014美元)。此举旨在遏制生成数百万条消息的垃圾AI代理。该政策在三个月内将AI生成的垃圾邮件减少了70%,但也影响了AI驱动的客户支持等合法服务。中国移动目前正在为经过验证的AI代理开发白名单系统。
运营商方法对比
| 运营商 | 计费单位 | 价格(美元) | 目标用例 | 早期影响 |
|---|---|---|---|---|
| SK Telecom | 每1,000个代币 | $0.002–$0.008 | AI API流量 | 拥塞减少40% |
| Deutsche Telekom | 代币包 | 每1,000个代币约$0.005 | 通用AI消费 | 6