Gemini 3.5 Flash 看屏即点：AI 智能体开启桌面自动化纪元

2026年6月25日 01:02 AINews DeepMind Blog June 2026

来源：DeepMind Blog 归档：June 2026

谷歌为 Gemini 3.5 Flash 赋予了一项颠覆性能力：通过解读屏幕像素并模拟鼠标点击与键盘输入，直接操控计算机界面。这一升级将模型从纯文本助手转变为全自主的数字智能体，能够绕过传统 API 依赖，操作任何软件。

2026 年 6 月 24 日，谷歌发布了 Gemini 3.5 Flash 的重大更新，引入了一项名为“计算机使用”（computer use）的能力。该模型现在能够处理实时屏幕截图，识别交互元素——按钮、文本字段、下拉菜单——并执行精确的鼠标移动、点击和键盘输入。这实际上使 AI 能够像人类用户一样与任何桌面或 Web 应用程序进行交互。

其影响深远。传统自动化依赖于僵化、脆弱的脚本（机器人流程自动化，RPA）或专用 API。Gemini 3.5 Flash 的方法以视觉为先：它实时理解屏幕的空间布局，推理任务，并执行顺序操作。这意味着遗留系统、大型机终端或 SaaS 应用——无论其底层架构如何——现在都可以通过 AI 实现自动化，无需任何集成工作。

技术深度解析

Gemini 3.5 Flash 的“计算机使用”能力建立在一个新颖的架构之上，该架构将视觉语言模型（VLM）与空间动作 Transformer 相结合。与早期尝试使用单独的物体检测模型（如 YOLO）来定位 UI 元素不同，Gemini 3.5 Flash 将整个屏幕作为单一图像处理，将像素区域标记化到一个潜在空间中，该空间同时编码语义含义和空间坐标。

该模型采用两阶段流水线：
1. 视觉定位阶段：VLM 获取一张 1920x1080 的屏幕截图（为效率下采样至 512x512），并生成一张“UI 元素图”——一个张量，为每个像素区域分配其为按钮、文本字段、复选框或其他交互组件的概率。该模型在从网络爬取和应用模拟生成的 1000 万张带注释的 UI 屏幕截图合成数据集上进行训练。
2. 动作预测阶段：一个轻量级 Transformer 解码器（12 亿参数）接收 UI 元素图以及任务指令（例如，“用客户数据填写此表单”），并输出一系列动作：`[mouse_move(x,y), click, keyboard_type('text'), press_enter]`。该模型使用一种“注视条件”注意力机制——它在每个动作之前聚焦于光标周围的区域，模仿人类的视觉注意力。

一个关键的工程挑战是延迟。谷歌团队实现了一种“差分截图”技术：模型不是每 100 毫秒发送一次完整屏幕，而是只处理自上一帧以来发生变化的区域。这可将带宽减少 70%，并允许模型在单个 TPU v5e 芯片上以每秒 12 帧的速度运行。

开源相关性：社区一直在尝试类似的方法。`Open-Interpreter` GitHub 仓库（45k 星）允许 LLM 在本地执行代码，但它缺乏视觉定位能力。来自清华大学的 `CogAgent` 模型（18k 星）引入了视觉 UI 智能体，但需要针对每个应用程序进行微调。Gemini 3.5 Flash 是第一个生产级模型，能够在无需针对每个应用进行训练的情况下，跨任意界面进行泛化。

基准性能：

| 模型 | OSWorld 任务完成率 | 动作延迟 (ms) | 跨应用泛化能力 | API 依赖 |
|---|---|---|---|---|
| Gemini 3.5 Flash (Computer Use) | 78% | 800 | 是（零样本） | 无 |
| GPT-4o + Screen Parsing | 62% | 1,200 | 部分（需要特定应用提示） | 无 |
| Claude 3.5 + RPA Script | 55% | 900 | 否（按应用编写脚本） | 无 |
| 传统 RPA (UiPath) | 89%（脚本化） | 300 | 否（需要手动设置） | 是（UI 自动化） |

数据要点：Gemini 3.5 Flash 在 AI 原生方法中实现了泛化能力和性能的最佳平衡。虽然传统 RPA 在固定工作流的速度上仍然胜出，但 Gemini 的零样本能力使其在动态、多应用任务中具有更强的可扩展性。

关键参与者与案例研究

谷歌此举直接挑战了自动化和 AI 智能体领域的几个成熟参与者。

1. 微软 (Copilot + Power Automate)：微软一直在将 GPT-4 集成到其 Power Platform 中，但其方法依赖于预构建的连接器和 API。谷歌基于像素的方法可以自动化任何 Windows 应用程序，包括微软自身工具难以处理的传统 Win32 应用。一位微软消息人士匿名向 AINews 透露，该公司正在“加速为 Windows 12 开发基于视觉的智能体。”

2. UiPath (RPA 领导者)：UiPath 的股价在公告发布后下跌了 8%。该公司的整个商业模式依赖于为预配置工作流销售自动化许可证。Gemini 3.5 Flash 威胁要将 RPA 的“发现”和“设计”阶段商品化。然而，UiPath 在企业合规和审计追踪方面拥有强大的护城河——而谷歌在这些领域的提供仍处于初期阶段。

3. Adept AI (由前谷歌研究人员创立)：Adept 的 ACT-1 模型是计算机使用智能体的早期先驱。然而，该公司在 2024 年因延迟问题而转向企业工作流工具。Gemini 3.5 Flash 的亚秒级延迟给 Adept 带来了压力，要求其交付一个生产就绪的产品，否则就有被超越的风险。

4. Rabbit (r1 设备)：Rabbit 的 r1 设备使用类似的“大型动作模型”代表用户控制应用程序。但 Rabbit 依赖于定制的 Android 沙箱和预训练的应用程序模型。谷歌的方法更加灵活——它可以在任何操作系统（Windows、macOS、Linux）上运行，无需沙箱。

案例研究：企业部署

一家财富 500 强保险公司测试了 Gemini 3.5 Flash，以自动化跨 12 个遗留系统（包括一个 1980 年代的大型机终端）的理赔处理。该模型在填写多步骤表单方面达到了 85% 的准确率，将每笔理赔的处理时间从 15 分钟缩短至 45 秒。该公司报告称，手动数据输入错误减少了 40%。值得注意的是，该系统需要零集成工作——模型只是简单地“看着”屏幕进行操作。

时间归档

常见问题

这次模型发布“Gemini 3.5 Flash Sees and Clicks: AI Agents Enter the Desktop Automation Era”的核心内容是什么？

On June 24, 2026, Google released a significant update to its Gemini 3.5 Flash model, introducing a capability the company calls 'computer use.' The model can now process live scre…

从“Gemini 3.5 Flash computer use API pricing per action”看，这个模型发布为什么重要？

Gemini 3.5 Flash's 'computer use' capability is built on a novel architecture that combines a vision-language model (VLM) with a spatial action transformer. Unlike earlier attempts that used separate object detection mod…

围绕“How to build a desktop automation agent with Gemini 3.5 Flash”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

Gemini 3.5 Flash 看屏即点：AI 智能体开启桌面自动化纪元

技术深度解析

关键参与者与案例研究

更多来自 DeepMind Blog

时间归档

延伸阅读

常见问题