技术深度剖析
AI 聊天机器人的“慢”感很少是简单的网络延迟问题。它是模型架构、推理引擎、硬件配置和负载均衡之间复杂的相互作用。要理解为什么 Gemini 感觉更慢,需要剖析其部署堆栈。
模型架构:MoE vs. 密集 Transformer
Google 的 Gemini 模型(Ultra、Pro、Nano)基于混合专家(MoE)架构。理论上,MoE 允许模型拥有庞大的总参数量(例如 Gemini Ultra 的 1.5 万亿参数),同时每个 token 只激活一部分参数(“专家”)。这应该使推理更便宜、更快。实际上,MoE 引入了路由开销:对于每个 token,一个门控网络必须决定激活哪些专家。这个路由决策增加了延迟,尤其是当模型部署在多个 TPU pod 上,且专家之间的通信需要高带宽互连时。在突发流量下,路由逻辑可能成为瓶颈,导致排队延迟。
相比之下,OpenAI 的 GPT-4o 被认为使用了密集 Transformer 架构(尽管 OpenAI 未确认)。密集模型为每个 token 激活所有参数,每次前向传递的计算量更大,但避免了路由开销。OpenAI 通过使用多查询注意力、FlashAttention-2 和推测解码等技术,高度优化了其推理堆栈。结果是,GPT-4o 对于短提示可以实现 200–400ms 的中位首 token 时间(TTFT),而 Gemini Pro 在类似条件下 TTFT 通常超过 600ms。
Anthropic 的 Claude 3.5 Sonnet 使用了一种专有架构,强调提示缓存和前缀缓存。通过缓存重复提示前缀的键值(KV)缓存,Claude 可以显著减少常见场景(如代码补全、文档摘要)的 TTFT。这使得 Claude 在迭代任务中感觉更敏捷,即使其原始生成速度与 GPT-4o 相当。
推理硬件与服务
Google 在其定制的 TPU v5p pod 上部署 Gemini,这些 pod 专为高吞吐量训练设计,但历史上相比 OpenAI 和 Anthropic 使用的 NVIDIA H100 集群,显示出更高的每请求延迟方差。来自开源项目 `llm-latency-bench`(GitHub:5200 星)的最新基准测试测量了各提供商在 500 token 生成中的第 95 百分位延迟:
| 提供商 | 模型 | 中位 TTFT (ms) | 中位 Tokens/s | 第 95 百分位延迟 (s) |
|---|---|---|---|---|
| OpenAI | GPT-4o | 280 | 42 | 3.1 |
| Anthropic | Claude 3.5 Sonnet | 310 | 38 | 2.8 |
| Google | Gemini Pro 1.5 | 620 | 29 | 5.4 |
| Meta | Llama 3 70B (Together AI) | 410 | 35 | 4.2 |
数据要点: Gemini Pro 的中位 TTFT 是 GPT-4o 的两倍多,其第 95 百分位延迟高出 70%。这不仅表明平均性能较慢,还表明方差更高,这对语音助手等实时应用尤其有害。
缺失的仪表盘
没有主要提供商发布实时延迟指标。OpenAI 的状态页面显示正常运行时间,但不显示响应时间。Google Cloud 的 Vertex AI 仪表盘显示延迟,但仅限于客户进行的 API 调用,而非所有用户的聚合数据。这种信息不对称意味着,在提供商之间进行选择的开发者必须运行自己的基准测试,而这些测试往往因测试条件和样本量而产生偏差。一个公开、独立的仪表盘——类似于 Speedtest.net 或 Cloudflare 的 Radar——将聚合来自数千个用户会话的延迟数据,按地区、模型、任务类型和一天中的时间进行细分。这将揭示,例如,Gemini 的延迟在美国工作时间飙升,但在非高峰时段具有竞争力,这表明是配置问题而非根本性的架构缺陷。
关键参与者与案例研究
Google:延迟的负担
Google 的 Gemini 团队已在内部文件中承认延迟问题,但尚未公开承诺具体的延迟目标。该公司的重点一直放在模型能力上——在 MMLU 和 MATH 上取得最先进分数——而非推理速度。这是一个战略风险。随着 AI 进入实时领域,如语音助手(Google Assistant 集成)和实时代码补全(Project IDX),缓慢的响应将驱使用户流失。Google 自身关于“推测解码”和“Medusa 头”的研究表明他们意识到了问题,但这些技术尚未在 Gemini 的生产环境中部署。
OpenAI:速度作为护城河
OpenAI 已将推理速度作为核心差异化因素。该公司发布的“GPT-4o”强调了“实时”能力,音频和文本的响应时间低于 300ms。由 Greg Brockman 领导的 OpenAI 工程团队公开表示,他们将延迟视为产品特性,而不仅仅是工程指标。这体现在他们对定制推理硬件的投资上(据报道