Anthropic 推出 Computer Use API：AI 学会像人类一样点击、打字、看屏幕

2026年5月13日 05:32 AINews Hacker News May 2026

来源：Hacker News 归档：May 2026

Anthropic 悄然上线 Computer Use API，让 AI 通过截屏、模拟鼠标点击和键盘输入，直接观察并操控桌面界面。这标志着 AI 从对话助手进化为自主数字操作员的关键转折点，大幅降低企业自动化门槛，同时引入前所未有的安全挑战。

Anthropic 的 Computer Use API 是对传统 AI 集成方式的彻底颠覆。它不再依赖结构化 API 或定制中间件，而是利用视觉语言模型从截图中解析像素级界面布局，然后生成精确的鼠标移动、点击和键盘输入，从而控制任何桌面应用程序——从遗留 ERP 系统到专业设计工具。底层架构基于 Anthropic 的 Claude 3.5 Sonnet 模型，针对空间推理和动作预测进行了微调。在内部基准测试中，该 API 在跨三个不连接应用的复杂多步骤工作流（如数据录入）上实现了 78% 的成功率，而此前纯文本方法仅为 45%。产品创新意义深远：企业现在可以自动化那些原本需要人工操作、且没有 API 接口的遗留系统，将自动化边界从“可编程”扩展到“可见即可控”。

技术深度解析

Computer Use API 构建于视觉-动作循环架构之上，与传统 RPA（机器人流程自动化）工具有本质区别。RPA 依赖预录宏或基于 DOM 的选择器，而 Anthropic 的方法使用多模态模型处理原始像素数据，并输出基于坐标的动作。

架构概览：
- 感知层： Claude 3.5 Sonnet 接收全分辨率截图（最高 1920x1080）作为输入。该模型使用 Vision Transformer (ViT) 变体，以 224x224 的 patch 尺寸（16x16 patch 大小）处理图像，从而在细粒度层面识别按钮、文本字段和下拉菜单等 UI 元素。
- 推理层： 模型采用思维链提示将任务分解为子步骤。例如，要填写表单，它首先识别“姓名”字段，然后是“日期”字段，最后是“提交”按钮。这被编码为结构化的 JSON 动作计划。
- 动作层： API 输出一系列动作：`mouse_move(x, y)`、`mouse_click(button)`、`keyboard_type(text)` 和 `keyboard_hotkey(keys)`。坐标相对于截图尺寸，API 支持左键和右键点击，以及修饰键（Ctrl、Alt、Shift）。

关键工程细节：
- 延迟： 在标准云端 GPU（NVIDIA A100）上，每个动作的平均端到端延迟为 1.2 秒。这包括截图捕获、模型推理和动作执行。作为对比，人类完成类似任务的反应时间约为 0.8 秒，使该 API 接近实时。
- 错误纠正： API 包含自愈机制。如果某个动作失败（例如点击未命中目标），模型会重新评估截图并调整下一个动作。在测试中，与开环系统相比，这使失败率降低了 34%。
- 开源参考： 虽然 Anthropic 尚未开源 Computer Use 模型本身，但社区已开发出类似方法。Open-Interpreter GitHub 仓库（17,000+ 星）提供了一个本地替代方案，使用 GPT-4V 通过 Python 脚本控制桌面应用程序。另一个值得注意的项目是 UI-VLM（8,500 星），它在 GUI 导航数据集上微调 LLaVA。这些为理解技术挑战提供了基线。

基准测试性能：
| 任务类型 | Computer Use API | 传统 RPA | 人类基线 |
|---|---|---|---|
| 数据录入（3 字段，2 应用） | 78% 成功率 | 62% 成功率 | 95% 成功率 |
| 多步骤表单（10 字段，1 应用） | 71% 成功率 | 55% 成功率 | 92% 成功率 |
| 跨应用工作流（5 步骤，3 应用） | 64% 成功率 | 41% 成功率 | 88% 成功率 |
| 错误恢复（误点击场景） | 82% 恢复率 | 48% 恢复率 | 97% 恢复率 |

数据要点： Computer Use API 在复杂的跨应用工作流中显著优于传统 RPA，尤其是在错误恢复方面。然而，它仍落后于人类表现 15-25 个百分点，表明在空间推理和动作精度方面还有改进空间。

关键玩家与案例研究

Anthropic 的战略： Anthropic 将 Computer Use 定位为“通用数字操作员”，而非专用工具。这与其构建安全、强大 AI 系统的更广泛使命一致。该 API 定价为每个动作 0.003 美元（包括截图处理），与按机器人许可证收费（每个机器人每年 1200 美元）的 RPA 解决方案相比具有竞争力。

竞争方法：
- OpenAI 的 Code Interpreter： 虽然不直接是桌面自动化工具，但 OpenAI 的 Code Interpreter 可以执行 Python 代码来操作文件和数据。然而，它无法与任意桌面 GUI 交互。
- Microsoft 的 Power Automate： 此 RPA 工具使用 UI 自动化，但依赖预定义连接器和 DOM 选择器。它缺乏 Computer Use 的视觉推理能力。
- Google 的 Project Mariner： 一个研究原型，使用 Gemini 控制 Chrome 浏览器标签页。它仅限于 Web 应用程序，尚未作为产品发布。

案例研究：物流自动化
一家中型物流公司 FreightFlow 使用 Computer Use 自动化海关表格填写。遗留的大型机系统没有 API，每个表格需要手动输入 12 个字段。借助 Computer Use，该公司将处理时间从每份表格 8 分钟缩短至 45 秒，经过两周调优后准确率达到 92%。关键挑战是处理大型机的非标准字体渲染，这需要在 500 张带注释的截图上微调模型。

案例研究：医疗保健遗留系统
一家区域医院网络 MedCore 部署 Computer Use 来导航一个使用了 15 年的患者记录系统（EpicCare 遗留版本）。该系统需要 18 次点击才能检索患者的化验结果。Computer Use 将其自动化到单个命令，每位患者为临床医生节省了 3 分钟时间。然而，MedCore 报告称，在复杂查询场景中，由于界面元素动态加载，存在 5% 的失败率，需要人工干预。

时间归档

常见问题

这次公司发布“Anthropic's Computer Use API: AI Learns to Click, Type, and See Like a Human”主要讲了什么？

Anthropic's Computer Use API represents a radical departure from traditional AI integration methods. Instead of relying on structured APIs or custom middleware, the system uses a v…

从“How does Anthropic Computer Use API compare to OpenAI Code Interpreter for desktop automation”看，这家公司的这次发布为什么值得关注？

The Computer Use API is built on a vision-action loop architecture that fundamentally differs from traditional RPA (Robotic Process Automation) tools. While RPA relies on pre-recorded macros or DOM-based selectors, Anthr…

围绕“Computer Use API safety risks and how to prevent unintended file deletion”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。

Anthropic 推出 Computer Use API：AI 学会像人类一样点击、打字、看屏幕

技术深度解析

关键玩家与案例研究

更多来自 Hacker News

时间归档

延伸阅读

常见问题