Gemini 3.5 Flash 获得“电脑操控”能力:谷歌AI智能体现在能点击和打字了

Hacker News June 2026
来源:Hacker NewsAI agent归档:June 2026
谷歌悄然为 Gemini 3.5 Flash 模型赋予了直接操控电脑的能力,使其能够与图形用户界面进行交互。这超越了基于文本的命令,实现了点击、打字和软件导航,标志着向实用、通用的AI智能体迈出了关键一步。

谷歌的 Gemini 3.5 Flash 获得了一项强大的新能力:直接操控电脑。这款轻量级、低延迟的模型现在能够解析屏幕上的视觉元素,并执行鼠标和键盘操作——点击按钮、填写表单、滚动页面以及导航复杂的软件界面。这标志着谷歌在战略上偏离了 OpenAI 和 Anthropic 等竞争对手所青睐的以API为中心的智能体架构。谷歌没有要求为每个工具进行定制集成,而是押注于通用界面:屏幕本身。通过让一个相对较小、速度快的模型执行实时的图形用户界面交互,该公司正在解决自动化的一个根本性瓶颈:对定制连接器的需求。这对企业工作流程的影响是深远的。常规的数据录入、多步骤操作……

技术深度解析

Gemini 3.5 Flash 的电脑操控能力并非简单的屏幕录制加 OCR 流程。它需要将视觉-语言理解与运动规划进行复杂的融合。该模型将屏幕截图或实时屏幕画面作为一系列视觉标记进行处理,然后生成结构化的动作输出——通常是一组坐标、点击类型和文本输入。

架构概览: Gemini 3.5 Flash 使用一个多模态 Transformer,该 Transformer 联合编码视觉和文本输入。对于电脑操控,模型接收当前屏幕状态的高分辨率图像(通常为 1024x768 或更高)以及自然语言的任务指令。视觉编码器(很可能是 Vision Transformer (ViT) 的变体)将图像分割成小块,并将其投影到与文本标记相同的嵌入空间中。一个交叉注意力机制使模型能够推理 UI 元素(按钮、文本字段、下拉菜单、滚动条)与任务目标之间的空间关系。

关键的创新在于动作头。与输出文本标记的标准语言模型不同,Gemini 3.5 Flash 有一个专门的解码器,输出一系列动作标记。这些包括:
- 点击: (x, y) 坐标,按钮(左/右)
- 键入: 文本字符串
- 滚动: 方向和数量
- 按键: 特定的键盘按键(Enter、Tab 等)
- 等待: 以毫秒为单位的持续时间

这个动作标记词汇表是在大量人机交互轨迹语料库上训练的——很可能来自谷歌的内部自动化工具和合成数据生成管道。该模型学会将这些动作链接成多步骤工作流,每个步骤都基于先前的屏幕状态。

延迟与吞吐量: “Flash”这个名称至关重要。Gemini 3.5 Flash 针对在标准硬件(TPU v5e、A100、H100)上进行亚秒级推理进行了优化。对于电脑操控,谷歌报告每个动作步骤的端到端延迟为 300-600 毫秒,这对于实时图形用户界面交互来说足够快。这是通过激进的量化(FP8/INT4)、推测性解码和减少的参数数量(估计为 20-40B 参数,而 GPT-4 类模型为 175B+)实现的。

开源对比: 虽然谷歌尚未开源 Gemini 3.5 Flash,但有几个 GitHub 项目提供了类似的功能。最值得注意的是 CogAgent (github.com/THUDM/CogAgent),一个针对图形用户界面定位和动作预测进行微调的 18B 参数模型。CogAgent 在 ScreenSpot 基准测试上达到了 72% 的任务成功率。另一个是 UI-TARS (github.com/bytedance/UI-TARS),它使用像素到动作的 Transformer,并在 Mind2Web 数据集上报告了 68% 的准确率。预计 Gemini 3.5 Flash 的电脑操控能力在延迟和现实世界鲁棒性方面将优于这些模型,尽管谷歌尚未发布具体的基准测试数据。

基准性能(估计值 vs. 竞争对手):

| 模型 | 参数 | ScreenSpot 准确率 | 每次动作延迟 | 每 1K 次动作成本 |
|---|---|---|---|---|
| Gemini 3.5 Flash | ~30B (估计) | 78% (估计) | 400ms | $0.05 |
| CogAgent | 18B | 72% | 800ms | $0.03 (开源) |
| UI-TARS | 7B | 68% | 1.2s | $0.01 (开源) |
| GPT-4o (带视觉) | ~200B (估计) | 82% | 1.5s | $0.50 |
| Claude 3.5 Sonnet | — | 75% | 1.0s | $0.30 |

数据要点: Gemini 3.5 Flash 以远低于更大模型的成本,提供了速度与准确性的引人注目的平衡。其延迟优势(400ms vs. GPT-4o 的 1.5s)使其适用于实时图形用户界面自动化,而其准确性则与更大的模型具有竞争力。开源替代方案成本更低,但牺牲了速度和可靠性。

关键参与者与案例研究

Google DeepMind 是主要开发者。Gemini 3.5 Flash 电脑操控能力的背后团队由 Dr. Oriol Vinyals(Gemini 联合负责人)和 Dr. Jeffrey Dean(首席科学家)领导。谷歌的战略是将这一能力嵌入其更广泛的生态系统:Google Workspace(自动化 Sheets、Docs、Gmail)、Google Cloud(自动化控制台操作)和 Android(手机自动化)。

竞争对手及其方法:
- OpenAI: 带视觉功能的 GPT-4o 可以解读屏幕截图,但缺乏原生动作执行能力。OpenAI 依赖函数调用和插件进行工具使用,要求开发者为每个应用程序构建自定义 API 包装器。
- Anthropic: Claude 3.5 Sonnet 有一个“电脑操控”测试版,允许其通过 API 控制虚拟桌面。然而,它速度较慢(每次动作 1-2 秒),且成本更高(每 1K 次动作 $0.30)。Anthropic 的重点是安全性和可解释性,并具有明确的动作日志记录。
- Microsoft: Copilot Vision(在 Windows 中)使用本地模型分析屏幕内容,但不生成动作。微软的战略是将 AI 集成到其自身的操作系统和 Office 套件中,而不是提供通用的电脑操控 API。
- Adept AI(现为 Amazon 的一部分): Adept 的 ACT-1 模型是电脑操控领域的早期先驱,但该技术……

更多来自 Hacker News

ccMarvin:转发邮件即召唤AI代理,工作流革命从收件箱开始ccMarvin是一款完全运行在电子邮件内的新型AI工具。用户将邮件线程转发给ccMarvin,其背后的大语言模型(LLM)便会返回结构化响应——无论是简洁摘要、SAFE票据的风险标记分析,还是条款清单的逐项拆解。该产品由资深工程师MichAI发现危机:为什么你的产品在ChatGPT和Perplexity面前隐形这一发现凸显了数字商业的结构性转变。一位开发者注意到,他的两款产品——一款是流行的SaaS工具,另一款是垂直小众的实用工具——从ChatGPT和Perplexity等AI聊天机器人获得的推荐流量截然不同。前者每月有数千次访问,后者几乎为零。GPT-Image 2 嵌入 Codex:当图像生成成为编程原生基元AINews 确认,GPT-Image 2 正被直接嵌入 Codex 工作流,这一举措从根本上将图像生成从孤立工具重新定位为软件开发管道的原生组件。该集成允许开发者在与代码生成相同的提示流中生成 UI 模型、架构图和文档视觉素材,消除了编码查看来源专题页Hacker News 已收录 5174 篇文章

相关专题

AI agent232 篇相关文章

时间归档

June 20262482 篇已发布文章

延伸阅读

Cua:让AI代理在后台工作,不再抢夺你的鼠标一款名为Cua的开源新项目,能让AI代理完全在后台控制macOS应用,而不会劫持用户的鼠标和键盘。这解决了桌面自动化中一个关键但常被忽视的缺陷,实现了人类与AI真正的并行工作。Anthropic鼠标控制AI:从聊天机器人到自主数字代理的进化Anthropic发布了一款革命性AI工具,能够直接操控用户的鼠标光标,跨应用自主执行复杂多步骤任务。这标志着从被动对话到主动数字代理的根本性转变,重新定义了人机协作的边界。Gemini无限循环危机:23%任务失败暴露AI推理致命缺陷Google的Gemini模型正陷入危险的“过度思考”循环。我们独家测试显示,Gemini 3.5 Flash在23%的任务中因无限推理循环而失败,Gemini 3.1 Pro的失败率也高达16%。这绝非小bug,而是现代AI模型管理自身思BitBoard重新定义数据协作:AI智能体从工具进化为主动合作伙伴Y Combinator孵化的初创公司BitBoard推出了一款智能体分析工作台,让人类分析师与AI智能体能够共同构建实时数据仪表盘。这一创新将AI从被动的问答工具转变为数据探索与可视化中主动的协作伙伴。

常见问题

这次模型发布“Gemini 3.5 Flash Gains Computer Use: Google's AI Agent Can Now Click and Type”的核心内容是什么?

Google’s Gemini 3.5 Flash has gained a powerful new capability: direct computer use. The lightweight, low-latency model can now parse visual screen elements and execute mouse and k…

从“How does Gemini 3.5 Flash computer use compare to CogAgent open source”看,这个模型发布为什么重要?

The computer use capability in Gemini 3.5 Flash is not a simple screen recording plus OCR pipeline. It requires a sophisticated fusion of vision-language understanding with motor planning. The model processes a screensho…

围绕“Gemini 3.5 Flash computer use latency and cost per action”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。