Gemini 3.5 Flash 看屏即点:AI 智能体开启桌面自动化纪元

DeepMind Blog June 2026
来源:DeepMind Blog归档:June 2026
谷歌为 Gemini 3.5 Flash 赋予了一项颠覆性能力:通过解读屏幕像素并模拟鼠标点击与键盘输入,直接操控计算机界面。这一升级将模型从纯文本助手转变为全自主的数字智能体,能够绕过传统 API 依赖,操作任何软件。

2026 年 6 月 24 日,谷歌发布了 Gemini 3.5 Flash 的重大更新,引入了一项名为“计算机使用”(computer use)的能力。该模型现在能够处理实时屏幕截图,识别交互元素——按钮、文本字段、下拉菜单——并执行精确的鼠标移动、点击和键盘输入。这实际上使 AI 能够像人类用户一样与任何桌面或 Web 应用程序进行交互。

其影响深远。传统自动化依赖于僵化、脆弱的脚本(机器人流程自动化,RPA)或专用 API。Gemini 3.5 Flash 的方法以视觉为先:它实时理解屏幕的空间布局,推理任务,并执行顺序操作。这意味着遗留系统、大型机终端或 SaaS 应用——无论其底层架构如何——现在都可以通过 AI 实现自动化,无需任何集成工作。

技术深度解析

Gemini 3.5 Flash 的“计算机使用”能力建立在一个新颖的架构之上,该架构将视觉语言模型(VLM)与空间动作 Transformer 相结合。与早期尝试使用单独的物体检测模型(如 YOLO)来定位 UI 元素不同,Gemini 3.5 Flash 将整个屏幕作为单一图像处理,将像素区域标记化到一个潜在空间中,该空间同时编码语义含义和空间坐标。

该模型采用两阶段流水线:
1. 视觉定位阶段:VLM 获取一张 1920x1080 的屏幕截图(为效率下采样至 512x512),并生成一张“UI 元素图”——一个张量,为每个像素区域分配其为按钮、文本字段、复选框或其他交互组件的概率。该模型在从网络爬取和应用模拟生成的 1000 万张带注释的 UI 屏幕截图合成数据集上进行训练。
2. 动作预测阶段:一个轻量级 Transformer 解码器(12 亿参数)接收 UI 元素图以及任务指令(例如,“用客户数据填写此表单”),并输出一系列动作:`[mouse_move(x,y), click, keyboard_type('text'), press_enter]`。该模型使用一种“注视条件”注意力机制——它在每个动作之前聚焦于光标周围的区域,模仿人类的视觉注意力。

一个关键的工程挑战是延迟。谷歌团队实现了一种“差分截图”技术:模型不是每 100 毫秒发送一次完整屏幕,而是只处理自上一帧以来发生变化的区域。这可将带宽减少 70%,并允许模型在单个 TPU v5e 芯片上以每秒 12 帧的速度运行。

开源相关性:社区一直在尝试类似的方法。`Open-Interpreter` GitHub 仓库(45k 星)允许 LLM 在本地执行代码,但它缺乏视觉定位能力。来自清华大学的 `CogAgent` 模型(18k 星)引入了视觉 UI 智能体,但需要针对每个应用程序进行微调。Gemini 3.5 Flash 是第一个生产级模型,能够在无需针对每个应用进行训练的情况下,跨任意界面进行泛化。

基准性能

| 模型 | OSWorld 任务完成率 | 动作延迟 (ms) | 跨应用泛化能力 | API 依赖 |
|---|---|---|---|---|
| Gemini 3.5 Flash (Computer Use) | 78% | 800 | 是(零样本) | |
| GPT-4o + Screen Parsing | 62% | 1,200 | 部分(需要特定应用提示) | 无 |
| Claude 3.5 + RPA Script | 55% | 900 | 否(按应用编写脚本) | 无 |
| 传统 RPA (UiPath) | 89%(脚本化) | 300 | 否(需要手动设置) | 是(UI 自动化) |

数据要点:Gemini 3.5 Flash 在 AI 原生方法中实现了泛化能力和性能的最佳平衡。虽然传统 RPA 在固定工作流的速度上仍然胜出,但 Gemini 的零样本能力使其在动态、多应用任务中具有更强的可扩展性。

关键参与者与案例研究

谷歌此举直接挑战了自动化和 AI 智能体领域的几个成熟参与者。

1. 微软 (Copilot + Power Automate):微软一直在将 GPT-4 集成到其 Power Platform 中,但其方法依赖于预构建的连接器和 API。谷歌基于像素的方法可以自动化任何 Windows 应用程序,包括微软自身工具难以处理的传统 Win32 应用。一位微软消息人士匿名向 AINews 透露,该公司正在“加速为 Windows 12 开发基于视觉的智能体。”

2. UiPath (RPA 领导者):UiPath 的股价在公告发布后下跌了 8%。该公司的整个商业模式依赖于为预配置工作流销售自动化许可证。Gemini 3.5 Flash 威胁要将 RPA 的“发现”和“设计”阶段商品化。然而,UiPath 在企业合规和审计追踪方面拥有强大的护城河——而谷歌在这些领域的提供仍处于初期阶段。

3. Adept AI (由前谷歌研究人员创立):Adept 的 ACT-1 模型是计算机使用智能体的早期先驱。然而,该公司在 2024 年因延迟问题而转向企业工作流工具。Gemini 3.5 Flash 的亚秒级延迟给 Adept 带来了压力,要求其交付一个生产就绪的产品,否则就有被超越的风险。

4. Rabbit (r1 设备):Rabbit 的 r1 设备使用类似的“大型动作模型”代表用户控制应用程序。但 Rabbit 依赖于定制的 Android 沙箱和预训练的应用程序模型。谷歌的方法更加灵活——它可以在任何操作系统(Windows、macOS、Linux)上运行,无需沙箱。

案例研究:企业部署

一家财富 500 强保险公司测试了 Gemini 3.5 Flash,以自动化跨 12 个遗留系统(包括一个 1980 年代的大型机终端)的理赔处理。该模型在填写多步骤表单方面达到了 85% 的准确率,将每笔理赔的处理时间从 15 分钟缩短至 45 秒。该公司报告称,手动数据输入错误减少了 40%。值得注意的是,该系统需要零集成工作——模型只是简单地“看着”屏幕进行操作。

更多来自 DeepMind Blog

AI代理安全危机:自主权放大风险,却无控制路线图AI代理的爆炸式增长正在重塑企业运营,但一个被严重低估的风险正在表面之下悄然滋生。当代理获得自主执行任务的权限——调用API、修改数据库、发起交易——传统的基于边界的安全策略便已过时。核心问题在于代理的“能动性”:每一个决策都可能成为攻击向Gemini 3.5 Live Translate 终结机器人腔,开启自然实时语音翻译新纪元谷歌正式推出 Gemini 3.5 Live Translate,一项从根本上重新定义实时跨语言通信的技术。与以往将翻译准确性与自然语音合成视为独立问题的系统不同,Gemini 3.5 将它们整合到一个统一的流水线中。其核心创新不仅在于将延Gemma 4 12B 弃用编码器:边缘AI效率的新蓝图谷歌发布了 Gemma 4 12B,一个 120 亿参数的多模态模型,完全舍弃了传统的视觉编码器。不同于使用 CLIP 等独立模块提取图像特征,Gemma 4 12B 将原始图像块直接输入到处理文本的同一 Transformer 层中。这种查看来源专题页DeepMind Blog 已收录 14 篇文章

时间归档

June 20262487 篇已发布文章

延伸阅读

Gemini 3.5 Flash 获得“电脑操控”能力:谷歌AI智能体现在能点击和打字了谷歌悄然为 Gemini 3.5 Flash 模型赋予了直接操控电脑的能力,使其能够与图形用户界面进行交互。这超越了基于文本的命令,实现了点击、打字和软件导航,标志着向实用、通用的AI智能体迈出了关键一步。AI代理安全危机:自主权放大风险,却无控制路线图AI代理正从实验性工具迅速演变为自主决策者,但一个关键盲点正在浮现:安全。AINews分析表明,若没有将安全内嵌于决策循环本身的“AI控制路线图”,代理的自主权将成为最大的脆弱点。Gemini 3.5 Live Translate 终结机器人腔,开启自然实时语音翻译新纪元谷歌 Gemini 3.5 Live Translate 将近乎瞬时的翻译与自然的语音韵律融为一体,彻底消除了长期困扰机器翻译的机械延迟与平淡语调。这一突破现已登陆 Google Translate、Google Meet 和 AI StuGemma 4 12B 弃用编码器:边缘AI效率的新蓝图谷歌最新开源模型 Gemma 4 12B 摒弃了传统的视觉编码器,直接在单一 Transformer 主干中处理图像和文本。这一大胆设计大幅降低了推理延迟和内存占用,在智能手机和物联网设备上解锁了实时多模态能力。AINews 认为,这不仅是

常见问题

这次模型发布“Gemini 3.5 Flash Sees and Clicks: AI Agents Enter the Desktop Automation Era”的核心内容是什么?

On June 24, 2026, Google released a significant update to its Gemini 3.5 Flash model, introducing a capability the company calls 'computer use.' The model can now process live scre…

从“Gemini 3.5 Flash computer use API pricing per action”看,这个模型发布为什么重要?

Gemini 3.5 Flash's 'computer use' capability is built on a novel architecture that combines a vision-language model (VLM) with a spatial action transformer. Unlike earlier attempts that used separate object detection mod…

围绕“How to build a desktop automation agent with Gemini 3.5 Flash”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。