中国AI的710亿月活账单：谁在为免费智能买单？

中国AI产业跨越了一个惊人里程碑：7.1亿月活跃用户。但增长背后隐藏着残酷的经济现实：推理成本的下降速度远不及使用量的攀升。运营抖音并深耕AI视频生成的字节跳动正面临严重GPU短缺。内部估算显示，其当前GPU集群仅能满足视频生成与推荐引擎约60%的实时推理需求。这迫使公司在自研芯片与高价购买稀缺英伟达GPU之间做出痛苦抉择。相比之下，腾讯采取多模型策略，通过整合百度文心、智谱AI等多家模型来分散风险。在微信内轻量级助手场景中，腾讯部署高效小模型；在复杂企业任务中则调用百亿参数大模型。这种架构创新使每token成本降低近半，但同时也引入了路由延迟等新挑战。

技术深度解析

核心瓶颈并非模型训练，而是大规模推理服务。对字节跳动而言，问题尤为尖锐。其视频生成模型——用于抖音AI特效及新视频创作工具——依赖大规模Transformer扩散模型。这些模型通常拥有10亿至30亿参数，每次生成都需要高带宽内存（HBM）和张量核心吞吐。一段10秒视频片段根据分辨率和帧率，可能需要50-100万亿次浮点运算。字节跳动的推荐引擎每天处理数十亿次请求，使用内存带宽受限的深度学习推荐模型（DLRM），进一步增加了实时推理负载。内部估算显示，字节跳动当前约10万块英伟达A100/H100等效GPU的集群，仅能覆盖约60%的峰值实时推理需求。剩余40%要么排队等待，要么由低质量小模型提供服务，导致用户体验下降。

腾讯的架构截然不同。它采用模型路由层，根据任务复杂度动态选择调用哪个模型。对于微信中“今天天气如何？”这类简单查询，一个蒸馏后的5亿参数Transformer模型运行在CPU或低端GPU上。对于腾讯云上合同分析等复杂企业任务，路由器则调用运行在专用H100集群上的千亿参数模型。这种“级联推理”架构相比“一刀切”的单模型方案，平均每次查询成本降低约40-60%。然而，它引入了路由器本身的延迟开销，并需要精细的负载均衡。

一个值得关注的开源项目是vLLM（GitHub: vllm-project/vllm，4万+星标）。它利用PagedAttention高效管理键值缓存内存，相比朴素实现可实现2-4倍的吞吐量提升。据报字节跳动已fork vLLM用于内部，而腾讯将其集成到Angel-PTM框架中。另一个相关仓库是TensorRT-LLM（英伟达，1.5万+星标），为Transformer模型提供优化的推理引擎。两家公司都使用这些工具，但定制深度不同。

| 推理方案 | 每百万Token平均成本（美元） | 延迟（p50，毫秒） | 吞吐量（Token/秒/GPU） | 模型规模范围 |
|---|---|---|---|---|
| 字节跳动（单一大型模型） | 8.50 | 450 | 1,200 | 100B+ |
| 腾讯（级联，小+大） | 4.20 | 320 | 2,800 | 500M-100B |
| 行业平均（中国，2025） | 6.10 | 380 | 1,900 | 不等 |

数据要点： 腾讯的级联架构相比字节跳动的单模型方案，每Token成本降低近半，同时吞吐量更高。这表明，在当前阶段，推理路由的架构创新对成本削减的影响比原始模型优化更为显著。

关键玩家与案例研究

字节跳动是风险敞口最大的玩家。其核心业务——短视频与直播——为推荐、内容审核和实时视频效果产生了巨大的推理需求。该公司通过子公司字节跳动AI芯片（字节跳动半导体） 大力投资自研AI芯片，但进展缓慢。第一代芯片代号“山海”，专为推理设计，但据报在实际工作负载中性能比英伟达A100低30%。第二代芯片已进入流片阶段，但大规模量产预计要到2026年底。在此期间，字节跳动在灰色市场以高于官方定价40-60%的价格购买英伟达H100，进一步挤压了利润空间。

腾讯采取截然相反的做法。它没有押注单一模型或芯片，而是在其云平台内构建了一个“模型市场”。合作伙伴包括百度（文心一言）、智谱AI（GLM-4）、百川智能和MiniMax。对于微信内置AI助手，它使用智谱GLM-4-9B的精调版本，该模型足够小，可在设备端运行基本任务。对于腾讯云的企业客户，它提供百度文心4.0和智谱GLM-4-130B的访问权限。这种多供应商策略减少了对任何单一模型提供商的依赖，并让腾讯能谈判更优价格。它还允许腾讯在高峰期将推理负载转移到合作伙伴的基础设施上，从而将部分GPU成本外包。

阿里巴巴是第三个值得关注的玩家。其通义千问模型家族深度集成到阿里云和淘宝电商平台。阿里巴巴的优势在于通过平头哥拥有自己的芯片设计，后者生产含光800推理芯片。虽然性能不及英伟达最新产品，但它为阿里巴巴的内部工作负载提供了高性价比的替代方案。阿里巴巴声称，在切换至含光800处理某些任务后，淘宝推荐系统的每次查询推理成本下降了35%。

| 公司 | GPU策略 |
|---|---|

时间归档

延伸阅读

常见问题

这次公司发布“China's AI Billions: Who Pays for 710 Million Monthly Active Users?”主要讲了什么？

China's AI industry has crossed a staggering milestone: 710 million monthly active users. But beneath the growth lies a brutal economic reality: the cost of inference is not declin…

从“ByteDance GPU shortage impact on Douyin AI features”看，这家公司的这次发布为什么值得关注？

The core bottleneck is not model training but inference serving at scale. For ByteDance, the problem is acute. Its video generation models—used for Douyin's AI-powered effects and its new video creation tools—require mas…

围绕“Tencent multi-model strategy vs single-model approach cost comparison”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。