技术深度解析
此次公告背后的架构变革远比简单的API替换更为深刻。苹果构建了一套双路径推理系统,根据复杂度将Siri请求路由至两个不同的通道。
路径1:设备端苹果LLM(隐私优先)
对于简单、对延迟敏感的任务——设置计时器、发送信息、控制HomeKit设备——Siri仍使用苹果自有小型语言模型(SLM),很可能是2024年首次公布的3B参数模型的变体。该模型完全在A19和M5芯片的神经引擎上运行,零数据离开设备。苹果在此的关键优势是差分隐私和设备端学习,这是任何基于云的竞争对手都无法比拟的。
路径2:云端Gemini(复杂推理)
当Siri检测到复杂查询——多步骤规划、代码生成、文档摘要或开放式创意任务——请求会被加密并发送至一个由苹果运营的专用推理集群,该集群运行谷歌的Gemini 2.0 Ultra模型。苹果构建了一个私有计算中继,在请求到达Gemini前剥离所有用户标识符,且谷歌已同意严格的“无日志、无训练”条款。这是首个在如此隐私优先的服务水平协议下部署的主流云端AI模型。
“AI协处理器”类比
苹果工程团队将此描述为类似于M1芯片统一内存架构的引入。正如M1在CPU和GPU之间移动数据而无需复制,新的Siri架构在设备端模型和云端模型之间移动上下文,而不暴露原始用户数据。该系统使用一个上下文蒸馏层——一个小型Transformer,在将对话历史发送至Gemini之前将其压缩为隐私安全的嵌入向量。这减少了攻击面,并确保即使云端模型被攻破,攻击者也只会看到抽象化的向量,而非原始文本。
基准性能
苹果分享的内部早期基准测试显示了显著提升:
| 基准测试 | 旧Siri(苹果LLM) | 新Siri(苹果+Gemini) | 提升幅度 |
|---|---|---|---|
| 多轮对话连贯性(BLEU-4) | 12.3 | 34.7 | +182% |
| 代码生成准确率(HumanEval) | 28.1% | 78.4% | +179% |
| 复杂推理(GSM8K) | 42.5% | 91.2% | +115% |
| 平均响应延迟(复杂查询) | 4.2秒 | 2.1秒 | -50% |
数据要点: 这些数字证实了许多人的猜测:苹果的设备端模型在基本任务之外根本不具竞争力。Gemini集成在每一项关键指标上都带来了2-3倍的性能飞跃,同时将延迟减半——这直接得益于谷歌优化的TPU基础设施。
相关开源工作
对于希望探索类似混合架构的开发者,llama.cpp GitHub仓库(现已有75k+星标)提供了在设备端运行小模型的参考实现。vLLM项目(45k+星标)展示了如何在云端高效服务大模型。苹果的方法有效地结合了这两种范式,尽管其拥有专有的隐私层。
关键参与者与案例研究
苹果:务实主义者
苹果的决定是一次惊人的逆转。多年来,该公司将自己定位为隐私守护者,嘲笑竞争对手在云端囤积用户数据。如今,它承认仅靠隐私无法赢得AI竞赛。这里的关键人物是苹果AI负责人John Giannandrea,据称他在内部测试显示苹果模型落后18个月后推动了Gemini交易,以及Craig Federighi,他设计了隐私中继架构。苹果的战略现已清晰:掌控用户体验和隐私层,但将繁重工作外包。
谷歌:特洛伊木马
对谷歌而言,这是一记妙招。Gemini如今拥有了直达超过20亿台活跃苹果设备的管道。Sundar Pichai和Demis Hassabis(谷歌DeepMind CEO)长期以来一直寻求让Gemini成为“AI的操作系统”。这笔交易恰好给了他们这一点——且无需承担强迫用户从苹果切换而来的反垄断风险。为Gemini提供动力的谷歌TPU v5e芯片,现在实际上由苹果的计算预算补贴。据传财务条款采用收入分成模式:苹果按查询付费,但谷歌也能获取匿名化使用数据,从而改善Gemini在消费任务上的表现。
竞争格局
| 助手 | 基础模型 | 隐私模型 | 复杂推理 | 生态系统锁定 |
|---|---|---|---|---|
| Siri(新版) | Gemini 2.0 Ultra | 设备端苹果SLM | 优秀 | 极高(苹果) |
| ChatGPT(iOS应用) | GPT-4o | 无(全云端) | 优秀 | 低 |
| Google Assistant | Gemini 2.0 Pro | 设备端Gemini Nano | 非常好 | 高(谷歌) |
| Amazon Alexa | Amazon Nova | 设备端Alexa SLM | 良好 | 中等(亚马逊) |
数据要点: 新版Siri现在在复杂推理方面与ChatGPT不相上下,同时通过设备端处理提供了无与伦比的隐私保护。