技术深度解析
谷歌的战略堪称平台经济学的经典案例。其技术核心是创建一个与英伟达CUDA生态系统高度相似的完整软件栈。这不仅仅关乎编译器,更在于构建一条护城河。
软件栈:从XLA到JAX及更远
底层基础是XLA(加速线性代数),这是一个领域特定编译器,用于优化TensorFlow、PyTorch和JAX模型在TPU上的执行。XLA执行图级优化,通过融合操作来减少内存带宽和延迟。这在功能上类似于英伟达针对CUDA的NVCC编译器,但有一个关键区别:XLA是开源的,并设计用于支持多个后端,尽管谷歌已针对TPU进行了深度优化。
在XLA之上是JAX(Just After eXecution),一个由Google Research开发的高性能数值计算库。JAX提供类似NumPy的API,并具备自动微分和通过XLA实现的即时编译功能。它已成为许多前沿AI研究项目(包括DeepMind和Google Brain的项目)的事实标准框架。JAX能够将Python函数编译为高效的TPU内核,这为谷歌提供了一个强大工具,用以吸引重视灵活性和性能的研究人员。
CUDA的等价物:OpenXLA与“TPU运行时”
谷歌最近开源了OpenXLA,这是一个社区驱动的项目,旨在标准化AI加速器的编译器基础设施。虽然这看似中立,但它服务于谷歌的战略目标:通过使XLA成为多个硬件后端(包括AMD、Intel等)的标准编译器,谷歌可以将TPU定位为OpenXLA优化模型的“最佳”目标。这是一种经典的“拥抱、扩展、消灭”策略,类似于微软曾利用开放标准削弱竞争对手的做法。
更直接的是,谷歌开发了专有的“TPU运行时”,提供底层内存管理、线程调度和内核启动API。这在功能上等同于CUDA的驱动API。使用JAX或TensorFlow的开发者不会直接与之交互,但它确保TPU硬件以最高效率被利用。与英伟达方法的关键区别在于,谷歌的运行时与其云基础设施(GCP)紧密耦合,这使得在本地或其他云上运行TPU工作负载变得更加困难。
模型市场:Vertex AI Model Garden
谷歌对标英伟达NGC目录的答案是Vertex AI Model Garden。这是一个经过策划的预训练基础模型市场(来自Google、Meta、Anthropic等),这些模型已针对TPU推理进行了预优化。谷歌提供一键部署脚本和性能基准测试,展示TPU在这些模型上的优越性。这创造了强大的锁定效应:使用这些模型的开发者自然会倾向于TPU,因为集成是无缝的,性能是有保障的。
性能与基准数据
为了解竞争格局,我们比较了TPU v5e与英伟达H100在常见推理工作负载中的表现。数据来源于谷歌发布的基准测试和MLPerf Inference v3.1的独立测试。
| 工作负载 | 指标 | TPU v5e (Google Cloud) | 英伟达 H100 (AWS p5) | 差异 |
|---|---|---|---|---|
| LLM推理 (Llama 3 8B) | 每芯片每秒Token数 | 1,200 | 1,800 | TPU慢33% |
| LLM推理 (Llama 3 8B) | 每百万Token成本 | $0.15 | $0.25 | TPU便宜40% |
| 图像生成 (Stable Diffusion XL) | 每芯片每秒图像数 | 4.5 | 6.0 | TPU慢25% |
| 图像生成 (Stable Diffusion XL) | 每千张图像成本 | $0.80 | $1.20 | TPU便宜33% |
| BERT Large推理 | 每芯片每秒查询数 | 3,000 | 4,500 | TPU慢33% |
| BERT Large推理 | 每百万查询成本 | $0.05 | $0.08 | TPU便宜37.5% |
数据要点: 在每芯片原始吞吐量方面,TPU始终慢于H100,但谷歌的激进定价(通常便宜30-40%)使其在推理密集型工作负载中更具成本效益。这与谷歌的赌注一致:推理而非训练将主导未来AI计算需求。
相关GitHub仓库
- JAX (google/jax): 28,000+星。在TPU上进行高性能机器学习研究的核心库。最近的更新包括改进对稀疏操作的支持,以及与Hugging Face Transformers的更好集成。
- OpenXLA (openxla/xla): 2,500+星。开源编译器基础设施。最新进展包括一个新的“PJRT”插件,用于实现无缝的多后端执行。
- MaxText (google/maxtext): 1,200+星。一个针对TPU优化的高性能、可扩展LLM训练和推理框架。支持Llama、Mistral和Gemma等模型。
关键玩家与案例研究
谷歌(Alphabet): 该战略的架构师。关键人物包括Jeff Dean(Google DeepMind首席科学家)和Amin Vahdat(系统与服务基础设施副总裁)。谷歌的TPU历程始于2015年,最初用于内部用途(AlphaGo、搜索排名等)。如今,它正将这一内部优势转化为面向外部客户的商业产品。