苹果用谷歌芯片训练AI：一场新的硅冷战悄然开启

苹果公司据称使用了谷歌的Tensor Processing Unit（TPU）集群来训练其自有的大语言模型，这一举动在半导体行业引发了巨大震动。对于一家以垂直整合为傲的公司——从A系列和M系列芯片到自有操作系统——来说，将训练外包给竞争对手的云基础设施，无异于公开承认：即便是苹果这样资源雄厚的企业，也无法跟上前沿AI对算力的需求。这一消息曝光之际，英伟达CEO黄仁勋公开训斥那些囤积token的工程师，要求实现GPU利用率最大化。“如果你不烧token，我会非常愤怒，”他在最近一次内部会议上表示，凸显了英伟达推动每一枚浮点运算都变现的决心。

技术深度解析

苹果使用谷歌TPU v4和v5p集群训练其基础模型的消息，堪称技术领域的重磅炸弹。苹果自研的M系列芯片虽然在设备端推理方面表现出色，但缺乏训练大语言模型（LLM）所需的大规模并行浮点吞吐能力。相比之下，TPU是专为矩阵运算——Transformer模型的核心——设计的定制ASIC。谷歌于2023年底发布的TPU v5p，每枚芯片可提供超过400 teraflops的性能，并能以8,960枚芯片组成一个pod，提供总计3.6 exaflops的bfloat16性能。苹果很可能利用这种pod架构来训练拥有数千亿参数的模型。

从工程角度看，选择TPU而非英伟达的H100或B200 GPU，本身就意味深长。TPU的精度较低（bfloat16 vs. H100的FP8），但由于谷歌专有的互连技术（ICI），在大规模集群上具有更优的扩展效率。英伟达的NVLink和InfiniBand同样出色，但谷歌的内部网络针对自身工作负载进行了优化。苹果选择TPU表明，单芯片的原始性能不如集群级吞吐量和成本效率重要。谷歌研究团队近期的一篇论文显示，TPU v5p在8,960枚芯片规模下实现了95%的扩展效率，而英伟达H100集群在类似规模下约为85%。

| 训练基础设施 | 峰值FLOPs（bfloat16） | 集群规模 | 扩展效率 | 预估每小时成本 |
|---|---|---|---|---|
| Google TPU v5p Pod | 3.6 exaflops | 8,960枚芯片 | 95% | ~120万美元 |
| Nvidia H100 DGX SuperPOD | 1.8 exaflops | 4,096块GPU | 85% | ~150万美元 |
| Apple M3 Ultra（理论值） | 0.2 exaflops | 1,024枚芯片 | 70% | ~80万美元 |

数据要点： TPU v5p的峰值FLOPs是同等H100集群的2倍，成本低20%，且扩展效率更优。这解释了苹果的选择——但也使其对直接竞争对手产生了危险的依赖。

对于开发者而言，TPU的开源生态系统不如英伟达的CUDA成熟。不过，谷歌的JAX框架（GitHub: google/jax，3万+星标）提供了一种以Python为先的TPU编程方式，支持自动微分和XLA编译。苹果可能使用了JAX来移植其基于PyTorch的训练流程。值得关注的GitHub仓库包括：用于TPU原生训练的`google/jax`，以及用于推理优化的`apple/ml-aim`（苹果自有的开源模型库，8千+星标）。

关键玩家与案例研究

苹果是这里的核心玩家，但其策略充满矛盾。一方面，它是全球市值最高的硬件公司，自主设计CPU、GPU甚至调制解调器。另一方面，它无力自建大规模训练基础设施。苹果2024年的研发总支出为300亿美元，但建造一个TPU级别的集群需要50至100亿美元的初期投入。通过租用谷歌云TPU，苹果避免了资本支出，却放弃了战略控制。这类似于苹果此前使用英特尔调制解调器、随后收购英特尔调制解调器业务的决策——一种依赖后垂直整合的模式。

谷歌是沉默的赢家。通过向苹果提供TPU容量，谷歌获得了三重优势：（1）云服务收入；（2）通过使用模式洞察苹果的模型架构；（3）在未来谈判中的筹码。谷歌自家的Gemini模型就是在TPU上训练的，如今苹果的模型也是如此。这创造了一种奇妙的动态：两家公司在移动、搜索和AI助手领域是竞争对手，在云基础设施上却是合作伙伴。

英伟达是潜在的输家。如果全球市值最高的公司苹果选择TPU而非英伟达GPU，这标志着英伟达在AI训练领域的垄断地位可能正在松动。不过，英伟达的H100和B200在推理领域仍占主导地位，而苹果的端侧芯片在此表现出色。黄仁勋关于token燃烧的愤怒言论，正是对这一威胁的直接回应。他需要每一块GPU都被充分利用，以支撑英伟达2万亿美元的估值。

Anthropic则采取了不同的路径，通过招聘流程聚焦价值观对齐。该公司现在将“价值观面试”置于招聘核心，筛选那些将安全置于原始能力之上的候选人。这是对“燃烧token”心态的直接反驳。Anthropic联合创始人Dario Amodei曾表示：“最危险的AI是那些在没有伦理约束下训练的AI。”该公司的Claude 3.5模型虽然与GPT-4o竞争，但训练算力仅为后者的十分之一——10^24 FLOPs vs. 10^25 FLOPs——这表明价值观驱动的训练可以做到算力高效。

| 公司 | 训练基础设施 | 模型规模（参数） | 训练算力（FLOPs） | 价值观筛选 |
|---|---|---|---|---|
| Apple | Google TPU v5p | ~200B（估计） | 5 x 10^24 | 无公开信息 |
| Google | TPU v5p | Gemini 1.5: 1.5T | 2 x 10^25 | 有限 |
| Anthropic | Nvi

时间归档

延伸阅读

常见问题

这次公司发布“Apple Trains AI on Google Chips: A New Silicon Cold War Begins”主要讲了什么？

In a move that has sent shockwaves through the semiconductor industry, Apple has allegedly used Google's Tensor Processing Unit (TPU) clusters to train its own large language model…

从“Apple Google TPU training cost comparison”看，这家公司的这次发布为什么值得关注？

The revelation that Apple used Google's TPU v4 and v5p clusters to train its foundational models is a technical bombshell. Apple's own M-series chips, while excellent for inference on device, lack the massive parallel fl…

围绕“Jensen Huang token burning quote context”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。