Gemini 3.5 Flash 获得“电脑操控”能力：谷歌AI智能体现在能点击和打字了

谷歌的 Gemini 3.5 Flash 获得了一项强大的新能力：直接操控电脑。这款轻量级、低延迟的模型现在能够解析屏幕上的视觉元素，并执行鼠标和键盘操作——点击按钮、填写表单、滚动页面以及导航复杂的软件界面。这标志着谷歌在战略上偏离了 OpenAI 和 Anthropic 等竞争对手所青睐的以API为中心的智能体架构。谷歌没有要求为每个工具进行定制集成，而是押注于通用界面：屏幕本身。通过让一个相对较小、速度快的模型执行实时的图形用户界面交互，该公司正在解决自动化的一个根本性瓶颈：对定制连接器的需求。这对企业工作流程的影响是深远的。常规的数据录入、多步骤操作……

技术深度解析

Gemini 3.5 Flash 的电脑操控能力并非简单的屏幕录制加 OCR 流程。它需要将视觉-语言理解与运动规划进行复杂的融合。该模型将屏幕截图或实时屏幕画面作为一系列视觉标记进行处理，然后生成结构化的动作输出——通常是一组坐标、点击类型和文本输入。

架构概览： Gemini 3.5 Flash 使用一个多模态 Transformer，该 Transformer 联合编码视觉和文本输入。对于电脑操控，模型接收当前屏幕状态的高分辨率图像（通常为 1024x768 或更高）以及自然语言的任务指令。视觉编码器（很可能是 Vision Transformer (ViT) 的变体）将图像分割成小块，并将其投影到与文本标记相同的嵌入空间中。一个交叉注意力机制使模型能够推理 UI 元素（按钮、文本字段、下拉菜单、滚动条）与任务目标之间的空间关系。

关键的创新在于动作头。与输出文本标记的标准语言模型不同，Gemini 3.5 Flash 有一个专门的解码器，输出一系列动作标记。这些包括：
- 点击： (x, y) 坐标，按钮（左/右）
- 键入： 文本字符串
- 滚动： 方向和数量
- 按键： 特定的键盘按键（Enter、Tab 等）
- 等待： 以毫秒为单位的持续时间

这个动作标记词汇表是在大量人机交互轨迹语料库上训练的——很可能来自谷歌的内部自动化工具和合成数据生成管道。该模型学会将这些动作链接成多步骤工作流，每个步骤都基于先前的屏幕状态。

延迟与吞吐量： “Flash”这个名称至关重要。Gemini 3.5 Flash 针对在标准硬件（TPU v5e、A100、H100）上进行亚秒级推理进行了优化。对于电脑操控，谷歌报告每个动作步骤的端到端延迟为 300-600 毫秒，这对于实时图形用户界面交互来说足够快。这是通过激进的量化（FP8/INT4）、推测性解码和减少的参数数量（估计为 20-40B 参数，而 GPT-4 类模型为 175B+）实现的。

开源对比： 虽然谷歌尚未开源 Gemini 3.5 Flash，但有几个 GitHub 项目提供了类似的功能。最值得注意的是 CogAgent (github.com/THUDM/CogAgent)，一个针对图形用户界面定位和动作预测进行微调的 18B 参数模型。CogAgent 在 ScreenSpot 基准测试上达到了 72% 的任务成功率。另一个是 UI-TARS (github.com/bytedance/UI-TARS)，它使用像素到动作的 Transformer，并在 Mind2Web 数据集上报告了 68% 的准确率。预计 Gemini 3.5 Flash 的电脑操控能力在延迟和现实世界鲁棒性方面将优于这些模型，尽管谷歌尚未发布具体的基准测试数据。

基准性能（估计值 vs. 竞争对手）：

| 模型 | 参数 | ScreenSpot 准确率 | 每次动作延迟 | 每 1K 次动作成本 |
|---|---|---|---|---|
| Gemini 3.5 Flash | ~30B (估计) | 78% (估计) | 400ms | $0.05 |
| CogAgent | 18B | 72% | 800ms | $0.03 (开源) |
| UI-TARS | 7B | 68% | 1.2s | $0.01 (开源) |
| GPT-4o (带视觉) | ~200B (估计) | 82% | 1.5s | $0.50 |
| Claude 3.5 Sonnet | — | 75% | 1.0s | $0.30 |

数据要点： Gemini 3.5 Flash 以远低于更大模型的成本，提供了速度与准确性的引人注目的平衡。其延迟优势（400ms vs. GPT-4o 的 1.5s）使其适用于实时图形用户界面自动化，而其准确性则与更大的模型具有竞争力。开源替代方案成本更低，但牺牲了速度和可靠性。

关键参与者与案例研究

Google DeepMind 是主要开发者。Gemini 3.5 Flash 电脑操控能力的背后团队由 Dr. Oriol Vinyals（Gemini 联合负责人）和 Dr. Jeffrey Dean（首席科学家）领导。谷歌的战略是将这一能力嵌入其更广泛的生态系统：Google Workspace（自动化 Sheets、Docs、Gmail）、Google Cloud（自动化控制台操作）和 Android（手机自动化）。

竞争对手及其方法：
- OpenAI： 带视觉功能的 GPT-4o 可以解读屏幕截图，但缺乏原生动作执行能力。OpenAI 依赖函数调用和插件进行工具使用，要求开发者为每个应用程序构建自定义 API 包装器。
- Anthropic： Claude 3.5 Sonnet 有一个“电脑操控”测试版，允许其通过 API 控制虚拟桌面。然而，它速度较慢（每次动作 1-2 秒），且成本更高（每 1K 次动作 $0.30）。Anthropic 的重点是安全性和可解释性，并具有明确的动作日志记录。
- Microsoft： Copilot Vision（在 Windows 中）使用本地模型分析屏幕内容，但不生成动作。微软的战略是将 AI 集成到其自身的操作系统和 Office 套件中，而不是提供通用的电脑操控 API。
- Adept AI（现为 Amazon 的一部分）： Adept 的 ACT-1 模型是电脑操控领域的早期先驱，但该技术……

时间归档

延伸阅读

常见问题

这次模型发布“Gemini 3.5 Flash Gains Computer Use: Google's AI Agent Can Now Click and Type”的核心内容是什么？

Google’s Gemini 3.5 Flash has gained a powerful new capability: direct computer use. The lightweight, low-latency model can now parse visual screen elements and execute mouse and k…

从“How does Gemini 3.5 Flash computer use compare to CogAgent open source”看，这个模型发布为什么重要？

The computer use capability in Gemini 3.5 Flash is not a simple screen recording plus OCR pipeline. It requires a sophisticated fusion of vision-language understanding with motor planning. The model processes a screensho…

围绕“Gemini 3.5 Flash computer use latency and cost per action”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。