技术深度解析
核心瓶颈并非模型训练,而是大规模推理服务。对字节跳动而言,问题尤为尖锐。其视频生成模型——用于抖音AI特效及新视频创作工具——依赖大规模Transformer扩散模型。这些模型通常拥有10亿至30亿参数,每次生成都需要高带宽内存(HBM)和张量核心吞吐。一段10秒视频片段根据分辨率和帧率,可能需要50-100万亿次浮点运算。字节跳动的推荐引擎每天处理数十亿次请求,使用内存带宽受限的深度学习推荐模型(DLRM),进一步增加了实时推理负载。内部估算显示,字节跳动当前约10万块英伟达A100/H100等效GPU的集群,仅能覆盖约60%的峰值实时推理需求。剩余40%要么排队等待,要么由低质量小模型提供服务,导致用户体验下降。
腾讯的架构截然不同。它采用模型路由层,根据任务复杂度动态选择调用哪个模型。对于微信中“今天天气如何?”这类简单查询,一个蒸馏后的5亿参数Transformer模型运行在CPU或低端GPU上。对于腾讯云上合同分析等复杂企业任务,路由器则调用运行在专用H100集群上的千亿参数模型。这种“级联推理”架构相比“一刀切”的单模型方案,平均每次查询成本降低约40-60%。然而,它引入了路由器本身的延迟开销,并需要精细的负载均衡。
一个值得关注的开源项目是vLLM(GitHub: vllm-project/vllm,4万+星标)。它利用PagedAttention高效管理键值缓存内存,相比朴素实现可实现2-4倍的吞吐量提升。据报字节跳动已fork vLLM用于内部,而腾讯将其集成到Angel-PTM框架中。另一个相关仓库是TensorRT-LLM(英伟达,1.5万+星标),为Transformer模型提供优化的推理引擎。两家公司都使用这些工具,但定制深度不同。
| 推理方案 | 每百万Token平均成本(美元) | 延迟(p50,毫秒) | 吞吐量(Token/秒/GPU) | 模型规模范围 |
|---|---|---|---|---|
| 字节跳动(单一大型模型) | 8.50 | 450 | 1,200 | 100B+ |
| 腾讯(级联,小+大) | 4.20 | 320 | 2,800 | 500M-100B |
| 行业平均(中国,2025) | 6.10 | 380 | 1,900 | 不等 |
数据要点: 腾讯的级联架构相比字节跳动的单模型方案,每Token成本降低近半,同时吞吐量更高。这表明,在当前阶段,推理路由的架构创新对成本削减的影响比原始模型优化更为显著。
关键玩家与案例研究
字节跳动是风险敞口最大的玩家。其核心业务——短视频与直播——为推荐、内容审核和实时视频效果产生了巨大的推理需求。该公司通过子公司字节跳动AI芯片(字节跳动半导体) 大力投资自研AI芯片,但进展缓慢。第一代芯片代号“山海”,专为推理设计,但据报在实际工作负载中性能比英伟达A100低30%。第二代芯片已进入流片阶段,但大规模量产预计要到2026年底。在此期间,字节跳动在灰色市场以高于官方定价40-60%的价格购买英伟达H100,进一步挤压了利润空间。
腾讯采取截然相反的做法。它没有押注单一模型或芯片,而是在其云平台内构建了一个“模型市场”。合作伙伴包括百度(文心一言)、智谱AI(GLM-4)、百川智能和MiniMax。对于微信内置AI助手,它使用智谱GLM-4-9B的精调版本,该模型足够小,可在设备端运行基本任务。对于腾讯云的企业客户,它提供百度文心4.0和智谱GLM-4-130B的访问权限。这种多供应商策略减少了对任何单一模型提供商的依赖,并让腾讯能谈判更优价格。它还允许腾讯在高峰期将推理负载转移到合作伙伴的基础设施上,从而将部分GPU成本外包。
阿里巴巴是第三个值得关注的玩家。其通义千问模型家族深度集成到阿里云和淘宝电商平台。阿里巴巴的优势在于通过平头哥拥有自己的芯片设计,后者生产含光800推理芯片。虽然性能不及英伟达最新产品,但它为阿里巴巴的内部工作负载提供了高性价比的替代方案。阿里巴巴声称,在切换至含光800处理某些任务后,淘宝推荐系统的每次查询推理成本下降了35%。
| 公司 | GPU策略 |
|---|---|