你的新同事是台AI，它有自己的台式电脑

2026年6月10日 00:36 AINews Hacker News June 2026

来源：Hacker News AI agent human-computer interaction 归档：June 2026

想象一下，一个AI不仅能回答问题，还拥有自己的桌面、浏览器和软件许可证。一种全新的实验范式让AI代理能够通过视觉操作任何应用程序，完全绕过API。这不是演示，而是一份未来蓝图——在那里，AI是同事，而非工具。

一项开创性的研究项目为AI代理配备了一个功能完整的虚拟桌面环境。该代理不依赖预先构建的API集成，而是利用计算机视觉感知屏幕，并通过思维链推理引擎规划和执行操作——点击按钮、输入命令、操作Slack、GitHub和Google Sheets等复杂软件。其核心创新在于一个“视觉接地层”，它将自然语言目标映射到像素级别的交互。早期基准测试显示，该代理在完成多步骤SaaS工作流（例如，阅读邮件后更新CRM记录）时，成功率高达87%，而传统基于API的代理仅为45%。这种方法瓦解了长期保护SaaS巨头的“API护城河”，因为代理可以像人类一样直接操作界面。

技术深度解析

这款“拥有电脑”的代理架构，是对标准LLM-as-API-caller范式的彻底颠覆。其核心是一个三层系统：

1. 视觉感知层 (VPL): 代理以可配置的频率（通常为1-2 Hz）截取其虚拟桌面的屏幕截图。一个基于CLIP变体和自定义目标检测头微调过的视觉语言模型（VLM），将原始像素解析为结构化的“场景图”。该图识别出UI元素：按钮、文本字段、下拉菜单、滚动条及其空间关系。根据内部基准测试，VPL在标准SaaS界面上定位交互元素的准确率达到94%。

2. 推理与规划引擎: 一个拥有700亿参数的大语言模型（LLM，类似LLaMA-3架构）接收场景图和一个高级任务描述（例如，“在Google Sheets中找到Q3销售报告并通过邮件发送给团队”）。它采用ReAct（Reasoning + Acting）提示策略，将任务分解为子步骤：“1. 打开Chrome。2. 导航至sheets.google.com。3. 搜索Q3报告。4. 点击分享。5. 输入邮箱地址。6. 发送。”每个子步骤都是一个结构化的动作命令。

3. 动作执行模块: 该模块将LLM的动作命令转换为底层的鼠标和键盘事件。它使用一个自定义驱动程序，与虚拟显示服务器（一个修改过的Xvfb或类似的无头环境）交互。该驱动程序支持基于精确坐标的点击、拖放和键盘快捷键。一个关键的创新是“错误恢复”：如果一次点击失败（例如，弹出窗口遮挡了目标），代理会捕获新的屏幕截图，重新评估场景，并尝试替代方法。

相关开源资源: 社区迅速接受了这一范式。最著名的仓库是GitHub上的 'Open-Computer-Use' （目前拥有12,000+星标），它提供了一个用于构建此类代理的模块化框架。它包括预训练的VPL模型、一个虚拟桌面管理器，以及与各种LLM后端（GPT-4o、Claude 3.5以及Qwen2-VL等开源模型）的集成。另一个关键仓库是 'UI-Agent-Bench' （8,500+星标），它提供了一个标准化的基准测试套件，用于评估在50项常见SaaS任务中使用计算机的代理。

基准性能数据:

| 代理类型 | 任务完成率 | 每任务平均步骤数 | 错误恢复率 | 每任务预估成本 |
|---|---|---|---|---|
| 基于API（传统） | 45% | 4.2 | 12% | $0.08 |
| 视觉代理（GPT-4o后端） | 82% | 8.7 | 68% | $0.45 |
| 视觉代理（Claude 3.5后端） | 87% | 7.9 | 72% | $0.38 |
| 视觉代理（开源70B） | 74% | 9.5 | 55% | $0.12 |

数据解读: 视觉代理在任务完成率上远超基于API的代理（87%对比45%），但每任务成本高出4-5倍。开源模型提供了有吸引力的成本效益权衡，尽管可靠性较低。高错误恢复率（Claude 3.5为72%）是关键差异化因素——它使代理能够稳健应对现实世界的UI变化。

关键玩家与案例研究

这一领域由一批隐秘初创公司和成熟的AI实验室共同推动。最突出的玩家是 Cognition AI，即首位全自主软件工程师Devin背后的团队。Devin已经使用这种视觉桌面方法的变体来编写代码、调试和部署应用程序。Cognition已以20亿美元估值融资1.75亿美元，表明投资者对这一范式的强烈信心。

另一个关键参与者是 Adept AI，由前谷歌研究员David Luan创立。Adept的模型ACT-1是代理能够使用网络浏览器和企业软件的早期演示。虽然Adept已略微转向企业自动化，但其核心技术仍然是UI动作的视觉接地。该公司已融资3.5亿美元。

领先平台对比:

| 平台 | 方法 | 关键差异化优势 | 融资额 | 知名客户/用例 |
|---|---|---|---|---|
| Cognition AI (Devin) | 完整虚拟桌面 + 自定义VLM | 端到端软件工程 | $175M | 被多家YC初创公司内部用于代码生成 |
| Adept AI (ACT-1) | 基于浏览器的代理 | 强大的企业SaaS集成 | $350M | 为一家财富500强公司自动化Salesforce数据录入 |
| Open-Computer-Use (GitHub) | 开源框架 | 模块化，支持多种LLM后端 | 无（社区） | 被50多家初创公司采用，用于内部RPA替代 |
| Microsoft (Project Jarvis) | 原生Windows代理 | 深度操作系统级集成 | 内部研发 | 自动化Office 365工作流（试点项目） |

数据解读: 市场正在分化为专有高可靠性平台（Cognition, Adept）和开源可定制框架。微软的入场是一个变数——其深度操作系统访问权限可能使其在Windows/Office生态系统中拥有无可匹敌的优势。

时间归档

常见问题

这次模型发布“Your New Coworker Is an AI With Its Own Desktop Computer”的核心内容是什么？

A pioneering research project has equipped an AI agent with a fully functional virtual desktop environment. Instead of relying on pre-built API integrations, the agent uses compute…

从“How do visual AI agents handle CAPTCHA and bot detection?”看，这个模型发布为什么重要？

The architecture behind this 'computer-owning' agent is a radical departure from the standard LLM-as-API-caller paradigm. At its heart is a three-layer system: 1. Visual Perception Layer (VPL): The agent captures screens…

围绕“Can AI agents with their own desktop replace RPA tools like UiPath?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

你的新同事是台AI，它有自己的台式电脑

技术深度解析

关键玩家与案例研究

更多来自 Hacker News

相关专题

时间归档

延伸阅读

常见问题