技术深度解析
Gemini 3.5 Flash 的“计算机使用”能力建立在一个新颖的架构之上,该架构将视觉语言模型(VLM)与空间动作 Transformer 相结合。与早期尝试使用单独的物体检测模型(如 YOLO)来定位 UI 元素不同,Gemini 3.5 Flash 将整个屏幕作为单一图像处理,将像素区域标记化到一个潜在空间中,该空间同时编码语义含义和空间坐标。
该模型采用两阶段流水线:
1. 视觉定位阶段:VLM 获取一张 1920x1080 的屏幕截图(为效率下采样至 512x512),并生成一张“UI 元素图”——一个张量,为每个像素区域分配其为按钮、文本字段、复选框或其他交互组件的概率。该模型在从网络爬取和应用模拟生成的 1000 万张带注释的 UI 屏幕截图合成数据集上进行训练。
2. 动作预测阶段:一个轻量级 Transformer 解码器(12 亿参数)接收 UI 元素图以及任务指令(例如,“用客户数据填写此表单”),并输出一系列动作:`[mouse_move(x,y), click, keyboard_type('text'), press_enter]`。该模型使用一种“注视条件”注意力机制——它在每个动作之前聚焦于光标周围的区域,模仿人类的视觉注意力。
一个关键的工程挑战是延迟。谷歌团队实现了一种“差分截图”技术:模型不是每 100 毫秒发送一次完整屏幕,而是只处理自上一帧以来发生变化的区域。这可将带宽减少 70%,并允许模型在单个 TPU v5e 芯片上以每秒 12 帧的速度运行。
开源相关性:社区一直在尝试类似的方法。`Open-Interpreter` GitHub 仓库(45k 星)允许 LLM 在本地执行代码,但它缺乏视觉定位能力。来自清华大学的 `CogAgent` 模型(18k 星)引入了视觉 UI 智能体,但需要针对每个应用程序进行微调。Gemini 3.5 Flash 是第一个生产级模型,能够在无需针对每个应用进行训练的情况下,跨任意界面进行泛化。
基准性能:
| 模型 | OSWorld 任务完成率 | 动作延迟 (ms) | 跨应用泛化能力 | API 依赖 |
|---|---|---|---|---|
| Gemini 3.5 Flash (Computer Use) | 78% | 800 | 是(零样本) | 无 |
| GPT-4o + Screen Parsing | 62% | 1,200 | 部分(需要特定应用提示) | 无 |
| Claude 3.5 + RPA Script | 55% | 900 | 否(按应用编写脚本) | 无 |
| 传统 RPA (UiPath) | 89%(脚本化) | 300 | 否(需要手动设置) | 是(UI 自动化) |
数据要点:Gemini 3.5 Flash 在 AI 原生方法中实现了泛化能力和性能的最佳平衡。虽然传统 RPA 在固定工作流的速度上仍然胜出,但 Gemini 的零样本能力使其在动态、多应用任务中具有更强的可扩展性。
关键参与者与案例研究
谷歌此举直接挑战了自动化和 AI 智能体领域的几个成熟参与者。
1. 微软 (Copilot + Power Automate):微软一直在将 GPT-4 集成到其 Power Platform 中,但其方法依赖于预构建的连接器和 API。谷歌基于像素的方法可以自动化任何 Windows 应用程序,包括微软自身工具难以处理的传统 Win32 应用。一位微软消息人士匿名向 AINews 透露,该公司正在“加速为 Windows 12 开发基于视觉的智能体。”
2. UiPath (RPA 领导者):UiPath 的股价在公告发布后下跌了 8%。该公司的整个商业模式依赖于为预配置工作流销售自动化许可证。Gemini 3.5 Flash 威胁要将 RPA 的“发现”和“设计”阶段商品化。然而,UiPath 在企业合规和审计追踪方面拥有强大的护城河——而谷歌在这些领域的提供仍处于初期阶段。
3. Adept AI (由前谷歌研究人员创立):Adept 的 ACT-1 模型是计算机使用智能体的早期先驱。然而,该公司在 2024 年因延迟问题而转向企业工作流工具。Gemini 3.5 Flash 的亚秒级延迟给 Adept 带来了压力,要求其交付一个生产就绪的产品,否则就有被超越的风险。
4. Rabbit (r1 设备):Rabbit 的 r1 设备使用类似的“大型动作模型”代表用户控制应用程序。但 Rabbit 依赖于定制的 Android 沙箱和预训练的应用程序模型。谷歌的方法更加灵活——它可以在任何操作系统(Windows、macOS、Linux)上运行,无需沙箱。
案例研究:企业部署
一家财富 500 强保险公司测试了 Gemini 3.5 Flash,以自动化跨 12 个遗留系统(包括一个 1980 年代的大型机终端)的理赔处理。该模型在填写多步骤表单方面达到了 85% 的准确率,将每笔理赔的处理时间从 15 分钟缩短至 45 秒。该公司报告称,手动数据输入错误减少了 40%。值得注意的是,该系统需要零集成工作——模型只是简单地“看着”屏幕进行操作。