技术深度解析
Gemini 3.5 Flash 的电脑操控能力并非简单的屏幕录制加 OCR 流程。它需要将视觉-语言理解与运动规划进行复杂的融合。该模型将屏幕截图或实时屏幕画面作为一系列视觉标记进行处理,然后生成结构化的动作输出——通常是一组坐标、点击类型和文本输入。
架构概览: Gemini 3.5 Flash 使用一个多模态 Transformer,该 Transformer 联合编码视觉和文本输入。对于电脑操控,模型接收当前屏幕状态的高分辨率图像(通常为 1024x768 或更高)以及自然语言的任务指令。视觉编码器(很可能是 Vision Transformer (ViT) 的变体)将图像分割成小块,并将其投影到与文本标记相同的嵌入空间中。一个交叉注意力机制使模型能够推理 UI 元素(按钮、文本字段、下拉菜单、滚动条)与任务目标之间的空间关系。
关键的创新在于动作头。与输出文本标记的标准语言模型不同,Gemini 3.5 Flash 有一个专门的解码器,输出一系列动作标记。这些包括:
- 点击: (x, y) 坐标,按钮(左/右)
- 键入: 文本字符串
- 滚动: 方向和数量
- 按键: 特定的键盘按键(Enter、Tab 等)
- 等待: 以毫秒为单位的持续时间
这个动作标记词汇表是在大量人机交互轨迹语料库上训练的——很可能来自谷歌的内部自动化工具和合成数据生成管道。该模型学会将这些动作链接成多步骤工作流,每个步骤都基于先前的屏幕状态。
延迟与吞吐量: “Flash”这个名称至关重要。Gemini 3.5 Flash 针对在标准硬件(TPU v5e、A100、H100)上进行亚秒级推理进行了优化。对于电脑操控,谷歌报告每个动作步骤的端到端延迟为 300-600 毫秒,这对于实时图形用户界面交互来说足够快。这是通过激进的量化(FP8/INT4)、推测性解码和减少的参数数量(估计为 20-40B 参数,而 GPT-4 类模型为 175B+)实现的。
开源对比: 虽然谷歌尚未开源 Gemini 3.5 Flash,但有几个 GitHub 项目提供了类似的功能。最值得注意的是 CogAgent (github.com/THUDM/CogAgent),一个针对图形用户界面定位和动作预测进行微调的 18B 参数模型。CogAgent 在 ScreenSpot 基准测试上达到了 72% 的任务成功率。另一个是 UI-TARS (github.com/bytedance/UI-TARS),它使用像素到动作的 Transformer,并在 Mind2Web 数据集上报告了 68% 的准确率。预计 Gemini 3.5 Flash 的电脑操控能力在延迟和现实世界鲁棒性方面将优于这些模型,尽管谷歌尚未发布具体的基准测试数据。
基准性能(估计值 vs. 竞争对手):
| 模型 | 参数 | ScreenSpot 准确率 | 每次动作延迟 | 每 1K 次动作成本 |
|---|---|---|---|---|
| Gemini 3.5 Flash | ~30B (估计) | 78% (估计) | 400ms | $0.05 |
| CogAgent | 18B | 72% | 800ms | $0.03 (开源) |
| UI-TARS | 7B | 68% | 1.2s | $0.01 (开源) |
| GPT-4o (带视觉) | ~200B (估计) | 82% | 1.5s | $0.50 |
| Claude 3.5 Sonnet | — | 75% | 1.0s | $0.30 |
数据要点: Gemini 3.5 Flash 以远低于更大模型的成本,提供了速度与准确性的引人注目的平衡。其延迟优势(400ms vs. GPT-4o 的 1.5s)使其适用于实时图形用户界面自动化,而其准确性则与更大的模型具有竞争力。开源替代方案成本更低,但牺牲了速度和可靠性。
关键参与者与案例研究
Google DeepMind 是主要开发者。Gemini 3.5 Flash 电脑操控能力的背后团队由 Dr. Oriol Vinyals(Gemini 联合负责人)和 Dr. Jeffrey Dean(首席科学家)领导。谷歌的战略是将这一能力嵌入其更广泛的生态系统:Google Workspace(自动化 Sheets、Docs、Gmail)、Google Cloud(自动化控制台操作)和 Android(手机自动化)。
竞争对手及其方法:
- OpenAI: 带视觉功能的 GPT-4o 可以解读屏幕截图,但缺乏原生动作执行能力。OpenAI 依赖函数调用和插件进行工具使用,要求开发者为每个应用程序构建自定义 API 包装器。
- Anthropic: Claude 3.5 Sonnet 有一个“电脑操控”测试版,允许其通过 API 控制虚拟桌面。然而,它速度较慢(每次动作 1-2 秒),且成本更高(每 1K 次动作 $0.30)。Anthropic 的重点是安全性和可解释性,并具有明确的动作日志记录。
- Microsoft: Copilot Vision(在 Windows 中)使用本地模型分析屏幕内容,但不生成动作。微软的战略是将 AI 集成到其自身的操作系统和 Office 套件中,而不是提供通用的电脑操控 API。
- Adept AI(现为 Amazon 的一部分): Adept 的 ACT-1 模型是电脑操控领域的早期先驱,但该技术……