技术深度解析
苹果使用谷歌TPU v4和v5p集群训练其基础模型的消息,堪称技术领域的重磅炸弹。苹果自研的M系列芯片虽然在设备端推理方面表现出色,但缺乏训练大语言模型(LLM)所需的大规模并行浮点吞吐能力。相比之下,TPU是专为矩阵运算——Transformer模型的核心——设计的定制ASIC。谷歌于2023年底发布的TPU v5p,每枚芯片可提供超过400 teraflops的性能,并能以8,960枚芯片组成一个pod,提供总计3.6 exaflops的bfloat16性能。苹果很可能利用这种pod架构来训练拥有数千亿参数的模型。
从工程角度看,选择TPU而非英伟达的H100或B200 GPU,本身就意味深长。TPU的精度较低(bfloat16 vs. H100的FP8),但由于谷歌专有的互连技术(ICI),在大规模集群上具有更优的扩展效率。英伟达的NVLink和InfiniBand同样出色,但谷歌的内部网络针对自身工作负载进行了优化。苹果选择TPU表明,单芯片的原始性能不如集群级吞吐量和成本效率重要。谷歌研究团队近期的一篇论文显示,TPU v5p在8,960枚芯片规模下实现了95%的扩展效率,而英伟达H100集群在类似规模下约为85%。
| 训练基础设施 | 峰值FLOPs(bfloat16) | 集群规模 | 扩展效率 | 预估每小时成本 |
|---|---|---|---|---|
| Google TPU v5p Pod | 3.6 exaflops | 8,960枚芯片 | 95% | ~120万美元 |
| Nvidia H100 DGX SuperPOD | 1.8 exaflops | 4,096块GPU | 85% | ~150万美元 |
| Apple M3 Ultra(理论值) | 0.2 exaflops | 1,024枚芯片 | 70% | ~80万美元 |
数据要点: TPU v5p的峰值FLOPs是同等H100集群的2倍,成本低20%,且扩展效率更优。这解释了苹果的选择——但也使其对直接竞争对手产生了危险的依赖。
对于开发者而言,TPU的开源生态系统不如英伟达的CUDA成熟。不过,谷歌的JAX框架(GitHub: google/jax,3万+星标)提供了一种以Python为先的TPU编程方式,支持自动微分和XLA编译。苹果可能使用了JAX来移植其基于PyTorch的训练流程。值得关注的GitHub仓库包括:用于TPU原生训练的`google/jax`,以及用于推理优化的`apple/ml-aim`(苹果自有的开源模型库,8千+星标)。
关键玩家与案例研究
苹果是这里的核心玩家,但其策略充满矛盾。一方面,它是全球市值最高的硬件公司,自主设计CPU、GPU甚至调制解调器。另一方面,它无力自建大规模训练基础设施。苹果2024年的研发总支出为300亿美元,但建造一个TPU级别的集群需要50至100亿美元的初期投入。通过租用谷歌云TPU,苹果避免了资本支出,却放弃了战略控制。这类似于苹果此前使用英特尔调制解调器、随后收购英特尔调制解调器业务的决策——一种依赖后垂直整合的模式。
谷歌是沉默的赢家。通过向苹果提供TPU容量,谷歌获得了三重优势:(1)云服务收入;(2)通过使用模式洞察苹果的模型架构;(3)在未来谈判中的筹码。谷歌自家的Gemini模型就是在TPU上训练的,如今苹果的模型也是如此。这创造了一种奇妙的动态:两家公司在移动、搜索和AI助手领域是竞争对手,在云基础设施上却是合作伙伴。
英伟达是潜在的输家。如果全球市值最高的公司苹果选择TPU而非英伟达GPU,这标志着英伟达在AI训练领域的垄断地位可能正在松动。不过,英伟达的H100和B200在推理领域仍占主导地位,而苹果的端侧芯片在此表现出色。黄仁勋关于token燃烧的愤怒言论,正是对这一威胁的直接回应。他需要每一块GPU都被充分利用,以支撑英伟达2万亿美元的估值。
Anthropic则采取了不同的路径,通过招聘流程聚焦价值观对齐。该公司现在将“价值观面试”置于招聘核心,筛选那些将安全置于原始能力之上的候选人。这是对“燃烧token”心态的直接反驳。Anthropic联合创始人Dario Amodei曾表示:“最危险的AI是那些在没有伦理约束下训练的AI。”该公司的Claude 3.5模型虽然与GPT-4o竞争,但训练算力仅为后者的十分之一——10^24 FLOPs vs. 10^25 FLOPs——这表明价值观驱动的训练可以做到算力高效。
| 公司 | 训练基础设施 | 模型规模(参数) | 训练算力(FLOPs) | 价值观筛选 |
|---|---|---|---|---|
| Apple | Google TPU v5p | ~200B(估计) | 5 x 10^24 | 无公开信息 |
| Google | TPU v5p | Gemini 1.5: 1.5T | 2 x 10^25 | 有限 |
| Anthropic | Nvi