谷歌限制Meta调用Gemini：AI基础设施战争正式打响

在一项史无前例的行动中，谷歌限制了Meta调用其Gemini AI模型的能力，强制执行硬性用量上限，这已打乱了Meta的产品开发时间线。据两家公司内部多位消息人士证实，这一决定源于谷歌无法调配足够的NVIDIA H100和B200 GPU集群，以满足来自外部客户以及内部Search、YouTube和Google Cloud团队激增的需求。依赖Gemini为其社交平台提供部分内容审核和生成式AI功能的Meta，被迫缩减自身服务并寻找替代供应商。这一事件暴露了当前AI生态系统中的一个根本性结构缺陷：模型复杂性和推理需求的指数级增长，正在压垮整个供应链。

技术深度剖析

这场冲突的核心在于AI推理的物理限制。每一次Gemini API调用，无论是用于文本生成、图像分析还是视频理解，都会消耗固定量的算力，以FLOPs（浮点运算次数）衡量。谷歌的Gemini模型，尤其是Ultra和Pro版本，是庞大的混合专家（MoE）架构。虽然与同等能力的密集模型相比，MoE降低了每个token的算力消耗，但像Meta这样的客户——每天处理数十亿次请求——总需求仍然需要专用的GPU集群。

谷歌的基础设施严重依赖其自研TPU（张量处理单元）v5p和v5e集群，并辅以NVIDIA H100和更新的Blackwell B200 GPU。瓶颈不仅在于原始芯片数量，还在于互连架构（例如谷歌的ICI、NVIDIA的NVLink）和内存带宽（HBM3e）。当Meta的使用量激增时——例如在新功能上线期间——它可能会占满一个集群的容量，导致谷歌自身高优先级服务（如Google Search的AI Overviews或YouTube的推荐引擎）的延迟恶化。

配给机制： 谷歌实施了一套分层访问系统。Meta被置于“标准”层级，而谷歌自家产品以及一组精选的高收入云客户（例如，月消费超过1000万美元的客户）则位于“优先”层级。在负载高峰时，优先层级获得有保障的算力，而标准层级的请求则被排队或拒绝。这并非技术故障，而是一种刻意的算力优先分配策略。

| 模型 | 估计参数量 | 推理成本（每100万token） | 峰值吞吐量（token/秒/GPU） | 处理每日10亿token所需GPU数 |
|---|---|---|---|---|
| Gemini Ultra | ~1.5T (MoE) | $15.00 | 45 (H100) | ~260 |
| Gemini Pro 1.5 | ~500B (MoE) | $3.50 | 120 (H100) | ~100 |
| GPT-4o | ~200B (Dense) | $5.00 | 85 (H100) | ~135 |
| Claude 3.5 Sonnet | ~175B (Dense) | $3.00 | 100 (H100) | ~115 |

数据要点： 表格显示，仅为一个模型变体服务Meta这样的大客户就需要数百块GPU。当需求扩展到每天数十亿token，并涉及多个模型时，总的GPU需求可能超过一个数据中心区域的全部容量，从而迫使做出配给决定。

一个凸显这一挑战的相关开源项目是vLLM（GitHub: vllm-project/vllm，40k+星标）。它使用PagedAttention技术更高效地管理GPU内存，将吞吐量提升了2-4倍。然而，即使有此类优化，根本的供应限制依然存在。谷歌自己的内部服务基础设施，虽然是专有的，也面临着同样的内存墙。

关键参与者与案例研究

谷歌（Alphabet）： 守门人。谷歌的策略是利用其TPU优势作为护城河。通过限制Meta的访问，它保护了自己AI驱动的产品（Workspace中的Gemini、Cloud AI），并迫使竞争对手要么自研芯片（昂贵且缓慢），要么在同样受限的公开市场上为NVIDIA GPU支付溢价。

Meta： 依赖者。Meta向AI的转型虽然激进，但其在特定工作负载（尤其是那些需要大规模、突发性推理的任务）上对外部云提供商的依赖是一个弱点。Meta拥有自研芯片Meta Training and Inference Accelerator (MTIA)，但在通用AI推理方面，它比谷歌的TPU和NVIDIA的GPU落后几代。Meta的开源Llama模型是一种对冲策略：它们允许Meta在自己的基础设施上运行推理，但对于最先进的能力（如Gemini Ultra级别的推理），它们仍然依赖第三方。

NVIDIA： 沉默的造王者。NVIDIA是唯一一家能够以所需规模生产GPU的公司。其H100和B100是AI领域事实上的货币。这些芯片的供应是整个行业最大的单一瓶颈。NVIDIA的分配决策——谁获得多少GPU以及何时获得——比任何模型发布都更具影响力。

| 公司 | 自研AI芯片 | 主要云依赖 | 预估GPU机队（H100等效） |
|---|---|---|---|
| 谷歌 | TPU v5p, v5e | 内部 (TPU) + NVIDIA | 250万+ |
| Meta | MTIA v2 | 外部 (Azure, GCP) + 内部 | 60万 |
| 微软 | Maia 100 | 内部 (Maia) + NVIDIA | 180万+ |
| 亚马逊 | Trainium2, Inferentia2 | 内部 (Trainium) + NVIDIA | 120万+ |

数据要点： 表格揭示了一个清晰的层级。谷歌和微软凭借其庞大的内部芯片项目和巨大的GPU机队，与仍然严重依赖外部云提供商的Meta处于不同的竞争级别。这种算力差距现在正转化为产品能力的鸿沟。

行业影响与市场动态

这一事件标志着AI行业从“以模型为中心”向“以算力为中心”的根本性转变。价值链正在被重新排序：

1. 算力即服务（CaaS）成为高端产品： 云提供商将越来越多地销售“算力保障”，而非仅仅是API访问。谷歌对Meta的限制预示着未来合同将包含严格的SLA，对优先访问收取溢价，并可能将客户锁定在特定硬件生态系统中。
2. 自研芯片不再是可选项，而是生存必需品： 任何没有强大自研芯片计划的AI公司都将处于战略劣势。Meta的MTIA、微软的Maia和亚马逊的Trainium都是对NVIDIA垄断的防御性举措。然而，追赶的代价是高昂的：据估计，谷歌在TPU研发上已投入超过300亿美元。
3. 开源模型获得新的战略重要性： 像Meta的Llama这样的开源模型，通过允许公司在自己的硬件上运行推理，提供了一条摆脱供应商锁定的途径。然而，它们仍然需要GPU。开源并不能解决算力短缺问题；它只是将选择权从模型提供商转移到了基础设施所有者手中。
4. 地缘政治维度： 美国对先进AI芯片的出口管制（例如，对中国的NVIDIA A100/H100禁令）加剧了供应紧张。谷歌限制Meta的决定发生在一个算力已成为国家战略资产的世界里。控制芯片供应链的国家将决定AI创新的步伐。

未来预测与编辑评论

谷歌限制Meta访问Gemini的决定是一个分水岭时刻。它正式宣告了AI的“蛮荒西部”时代已经结束，那时初创公司和科技巨头可以几乎无限制地访问最先进的模型。我们正在进入一个“算力封建主义”时代，在这个时代，计算资源的所有者制定规则。

短期影响（6-12个月）： 预计将出现一波类似的限制措施。微软可能会限制OpenAI对Azure GPU的访问，转而支持Copilot。亚马逊可能会优先考虑其内部AI模型（如Amazon Q），而非第三方API。小型AI初创公司将受到最严重的打击，因为它们缺乏谈判优先访问权的筹码。

中期影响（1-3年）： 我们将看到“算力经纪人”的兴起——专门谈判大规模GPU分配的公司。云提供商将推出“AI主权”产品，允许公司在自己的数据中心内运行模型，但使用云提供商的芯片。这将模糊公共云和私有云之间的界限。

长期影响（3-5年）： 如果当前的趋势持续，AI行业可能会整合为少数几个垂直整合的巨头：谷歌、微软、亚马逊，可能还有NVIDIA本身。每个巨头都将控制从芯片设计到模型训练再到最终用户应用程序的整个堆栈。Meta，尽管规模庞大，但如果不能确保其算力独立，可能会发现自己被降级为二线参与者。

编辑评论： 谷歌的决定在商业上是理性的，但在战略上是短视的。通过限制对Gemini的访问，谷歌正在加速其竞争对手的自研芯片努力，并推动他们采用开源模型。从长远来看，一个更加碎片化的AI格局对谷歌不利。然而，在短期内，谷歌的股东将受益于更高的利润率和对关键资源的控制。真正的输家是更广泛的AI生态系统，因为创新将因算力瓶颈而放缓。

对读者的启示： 如果您正在构建AI产品，请立即实现基础设施多元化。不要将您的业务绑定在单一的云提供商或模型API上。投资于针对您工作负载的推理优化（量化、蒸馏、vLLM）。并密切关注NVIDIA的GPU分配公告——它们比任何模型发布都更能预示AI的未来。

时间归档

延伸阅读

常见问题

这次模型发布“Google Caps Meta's Gemini Access: AI's Infrastructure War Begins”的核心内容是什么？

In an unprecedented move, Google has restricted Meta's ability to call its Gemini AI models, enforcing hard usage limits that have disrupted Meta's product development timelines. T…

从“Why did Google limit Meta's Gemini access?”看，这个模型发布为什么重要？

The core of this conflict lies in the physics of AI inference. Each Gemini API call, whether for text generation, image analysis, or video understanding, consumes a fixed amount of compute measured in FLOPs (Floating Poi…

围绕“What is AI compute rationing and how does it work?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。