技术深度解析
两大阵营之间的核心技术分歧在于推理架构:设备端推理与云端推理。
设备端AI(苹果、华为): 这种方法依赖专用神经处理单元(NPU)和内存带宽。苹果的A18仿生芯片配备16核神经网络引擎,每秒可执行38万亿次运算(TOPS)。华为的麒麟9010,尽管受美国制裁,仍集成了达芬奇架构NPU,针对其盘古模型进行了优化。关键限制在于内存。运行像苹果设备端基础模型这样的70亿参数模型,仅模型权重就需要约4-6GB RAM,留给操作系统和应用的余量有限。为弥补这一不足,这些公司采用量化(例如4位或8位精度)和模型蒸馏。苹果的方法对大多数任务使用30亿参数模型,并配备一个更小的15亿参数模型以实现更快的响应。华为采用类似的分层策略,将复杂查询卸载到较小的设备端模型,仅在必要时才升级到云端。优势在于延迟:Apple Intelligence可以在本地500毫秒内处理一个请求,而云端往返则需要2-3秒。隐私是另一大强项——所有数据都保留在设备上。
云端优先AI(OpenAI、字节跳动): 这一阵营优先考虑模型能力而非延迟。OpenAI的GPT-4o,估计拥有超过2000亿参数,无法在任何当前手机上运行。相反,手机充当云端代理的麦克风和屏幕。字节跳动的豆包应用,在中国月活用户超1亿,依赖其自有的字节跳动大模型(一种密集MoE架构),托管在自有云基础设施上。这里的技术挑战是延迟和可靠性。为缓解这一问题,两家公司都使用推测解码和流式传输——模型在完整响应准备好之前就开始生成token,从而营造实时对话的假象。例如,OpenAI的高级语音模式使用一个多模态模型,同时处理音频、文本和图像,首个token的平均响应时间为320毫秒,但在负载下可能飙升至2秒。字节跳动则大力投资边缘计算节点以降低延迟,在超过30个中国城市部署了推理服务器。
混合方法: 第三条新兴路径是“拆分模型”架构,即一个小型设备端模型处理简单、对延迟敏感的任务(例如设置计时器、读取消息),而云端模型处理复杂推理(例如总结一份100页的文档、规划一次旅行)。谷歌的Pixel 9与Gemini Nano就是一个典型例子,但苹果和OpenAI都尚未完全采纳这一方案。开源社区也很活跃:GitHub上的llama.cpp项目(超过70,000星标)支持在手机上运行量化LLM,但性能仍远低于云端模型。
| 方法 | 延迟(平均) | 隐私 | 模型大小 | 任务复杂度 | 每次查询电池消耗 |
|---|---|---|---|---|---|
| 设备端(苹果A18) | <500毫秒 | 优秀 | 30亿参数 | 低-中 | 0.1-0.3毫安时 |
| 云端(OpenAI GPT-4o) | 1.5-3秒 | 差(数据上传云端) | 2000亿+参数 | 非常高 | 0.02毫安时(仅手机) |
| 混合(谷歌Pixel 9) | 本地300毫秒/云端2秒 | 良好 | 本地38亿参数+云端 | 中-高 | 本地0.15毫安时 |
数据要点: 该表揭示了一个根本性的权衡。设备端AI在速度和隐私方面表现出色,但仅限于简单任务。云端AI可以处理任何任务,但代价是延迟和隐私。混合方法试图平衡两者,但引入了架构复杂性。目前没有一种解决方案是普遍优越的。
关键玩家与案例研究
苹果: 这家库比蒂诺巨头押注于其垂直整合。其在2024年WWDC上宣布的“Apple Intelligence”策略最为保守。它将AI视为系统级功能,而非产品。Siri仍然是主要界面,但现在可以在数百个应用之间执行新操作。苹果的关键优势在于其对硬件-软件栈的控制,使其能够针对特定模型优化NPU。然而,它不愿构建通用聊天机器人或代理,这限制了其雄心。iPhone 16 Pro Max的A18 Pro芯片是当今最强大的移动AI芯片,但它仍主要用于照片编辑和自动更正。
华为: 面对美国制裁,华为出于必要,已成为设备端AI的专家。其于2024年底推出的HarmonyOS NEXT,从底层开始为AI构建,配备分布式AI框架,可以调用其他华为设备(平板、笔记本电脑)的NPU来运行更大的模型。其盘古模型,虽然能力不及GPT-4o,但在中文语言和特定用例(如文档处理和图像识别)上高度优化。华为的策略是在中国创建一个封闭的、AI优先的生态系统,完全绕过谷歌服务。
OpenAI: 最激进的玩家。CEO Sam Altman曾表示