Anthropic 推出 Computer Use API:AI 学会像人类一样点击、打字、看屏幕

Hacker News May 2026
来源:Hacker News归档:May 2026
Anthropic 悄然上线 Computer Use API,让 AI 通过截屏、模拟鼠标点击和键盘输入,直接观察并操控桌面界面。这标志着 AI 从对话助手进化为自主数字操作员的关键转折点,大幅降低企业自动化门槛,同时引入前所未有的安全挑战。

Anthropic 的 Computer Use API 是对传统 AI 集成方式的彻底颠覆。它不再依赖结构化 API 或定制中间件,而是利用视觉语言模型从截图中解析像素级界面布局,然后生成精确的鼠标移动、点击和键盘输入,从而控制任何桌面应用程序——从遗留 ERP 系统到专业设计工具。底层架构基于 Anthropic 的 Claude 3.5 Sonnet 模型,针对空间推理和动作预测进行了微调。在内部基准测试中,该 API 在跨三个不连接应用的复杂多步骤工作流(如数据录入)上实现了 78% 的成功率,而此前纯文本方法仅为 45%。产品创新意义深远:企业现在可以自动化那些原本需要人工操作、且没有 API 接口的遗留系统,将自动化边界从“可编程”扩展到“可见即可控”。

技术深度解析

Computer Use API 构建于视觉-动作循环架构之上,与传统 RPA(机器人流程自动化)工具有本质区别。RPA 依赖预录宏或基于 DOM 的选择器,而 Anthropic 的方法使用多模态模型处理原始像素数据,并输出基于坐标的动作。

架构概览:
- 感知层: Claude 3.5 Sonnet 接收全分辨率截图(最高 1920x1080)作为输入。该模型使用 Vision Transformer (ViT) 变体,以 224x224 的 patch 尺寸(16x16 patch 大小)处理图像,从而在细粒度层面识别按钮、文本字段和下拉菜单等 UI 元素。
- 推理层: 模型采用思维链提示将任务分解为子步骤。例如,要填写表单,它首先识别“姓名”字段,然后是“日期”字段,最后是“提交”按钮。这被编码为结构化的 JSON 动作计划。
- 动作层: API 输出一系列动作:`mouse_move(x, y)`、`mouse_click(button)`、`keyboard_type(text)` 和 `keyboard_hotkey(keys)`。坐标相对于截图尺寸,API 支持左键和右键点击,以及修饰键(Ctrl、Alt、Shift)。

关键工程细节:
- 延迟: 在标准云端 GPU(NVIDIA A100)上,每个动作的平均端到端延迟为 1.2 秒。这包括截图捕获、模型推理和动作执行。作为对比,人类完成类似任务的反应时间约为 0.8 秒,使该 API 接近实时。
- 错误纠正: API 包含自愈机制。如果某个动作失败(例如点击未命中目标),模型会重新评估截图并调整下一个动作。在测试中,与开环系统相比,这使失败率降低了 34%。
- 开源参考: 虽然 Anthropic 尚未开源 Computer Use 模型本身,但社区已开发出类似方法。Open-Interpreter GitHub 仓库(17,000+ 星)提供了一个本地替代方案,使用 GPT-4V 通过 Python 脚本控制桌面应用程序。另一个值得注意的项目是 UI-VLM(8,500 星),它在 GUI 导航数据集上微调 LLaVA。这些为理解技术挑战提供了基线。

基准测试性能:
| 任务类型 | Computer Use API | 传统 RPA | 人类基线 |
|---|---|---|---|
| 数据录入(3 字段,2 应用) | 78% 成功率 | 62% 成功率 | 95% 成功率 |
| 多步骤表单(10 字段,1 应用) | 71% 成功率 | 55% 成功率 | 92% 成功率 |
| 跨应用工作流(5 步骤,3 应用) | 64% 成功率 | 41% 成功率 | 88% 成功率 |
| 错误恢复(误点击场景) | 82% 恢复率 | 48% 恢复率 | 97% 恢复率 |

数据要点: Computer Use API 在复杂的跨应用工作流中显著优于传统 RPA,尤其是在错误恢复方面。然而,它仍落后于人类表现 15-25 个百分点,表明在空间推理和动作精度方面还有改进空间。

关键玩家与案例研究

Anthropic 的战略: Anthropic 将 Computer Use 定位为“通用数字操作员”,而非专用工具。这与其构建安全、强大 AI 系统的更广泛使命一致。该 API 定价为每个动作 0.003 美元(包括截图处理),与按机器人许可证收费(每个机器人每年 1200 美元)的 RPA 解决方案相比具有竞争力。

竞争方法:
- OpenAI 的 Code Interpreter: 虽然不直接是桌面自动化工具,但 OpenAI 的 Code Interpreter 可以执行 Python 代码来操作文件和数​​据。然而,它无法与任意桌面 GUI 交互。
- Microsoft 的 Power Automate: 此 RPA 工具使用 UI 自动化,但依赖预定义连接器和 DOM 选择器。它缺乏 Computer Use 的视觉推理能力。
- Google 的 Project Mariner: 一个研究原型,使用 Gemini 控制 Chrome 浏览器标签页。它仅限于 Web 应用程序,尚未作为产品发布。

案例研究:物流自动化
一家中型物流公司 FreightFlow 使用 Computer Use 自动化海关表格填写。遗留的大型机系统没有 API,每个表格需要手动输入 12 个字段。借助 Computer Use,该公司将处理时间从每份表格 8 分钟缩短至 45 秒,经过两周调优后准确率达到 92%。关键挑战是处理大型机的非标准字体渲染,这需要在 500 张带注释的截图上微调模型。

案例研究:医疗保健遗留系统
一家区域医院网络 MedCore 部署 Computer Use 来导航一个使用了 15 年的患者记录系统(EpicCare 遗留版本)。该系统需要 18 次点击才能检索患者的化验结果。Computer Use 将其自动化到单个命令,每位患者为临床医生节省了 3 分钟时间。然而,MedCore 报告称,在复杂查询场景中,由于界面元素动态加载,存在 5% 的失败率,需要人工干预。

更多来自 Hacker News

NLNet Labs向AI宣战:开源代码禁止用于大模型训练NLNet Labs近日更新了其开源软件的许可条款,明确禁止将包括广泛部署的Unbound和NSD在内的代码用于大语言模型的训练或推理,除非获得商业授权。这一举措的影响远超DNS社区,直接挑战了AI行业长期默认的“公开代码可自由使用”的假设LLM让硬件设计像说话一样简单:M5Stack革命来袭一个突破性的开源项目已经问世,它证明大语言模型现在能够将日常语言转化为M5Stack生态系统的完整硬件设计。工程师不再需要记忆引脚定义、I2C地址和电源需求,用户只需描述他们想要什么——比如“一个测量温湿度并显示在屏幕上的设备”——LLM就OpenClaw Launch 发布:30秒部署AI Agent,零DevOps,重新定义交付速度本周发布的 OpenClaw Launch 是一个托管运行时,它将运行自主AI Agent所需的整个DevOps栈——包括扩缩容、安全、更新和监控——封装在单次点击背后。用户只需定义Agent的逻辑,即可在30秒内获得一个可直接投入生产的端查看来源专题页Hacker News 已收录 5300 篇文章

时间归档

May 20263028 篇已发布文章

延伸阅读

AI智能体学会读写电子表格:Google Sheets集成重塑企业自动化AI智能体如今能直接读写和操作Google Sheets,将电子表格转化为实时运营仪表盘。这种无代码集成让非技术用户也能自动化业务监控、报告和决策,标志着AI从聊天玩具向嵌入式企业助手的转变。AI客服自主化:纯人工支持时代终结?一款开源AI客服智能体正重新定义企业服务——它不再止步于对话,而是能自主执行退款、账户更新等操作。这标志着客服从成本中心向效率引擎的根本性转变,并将曾经只有科技巨头才能拥有的能力普惠化。企业神经系统:协作式 AI Agent 的崛起人工智能正从被动聊天机器人演变为充当企业数字神经系统的主动操作层。这一转变实现了无需持续人工干预的实时决策与自主执行。采用协作 Agent 网络的组织正以前所未有的可扩展性和韧性重塑运营格局。AI Agent身份危机:动态权限架构重塑企业安全格局企业级AI Agent正面临一场根本性的身份危机:为人类设计的静态权限模型无法应对自主、上下文切换的行为。一种全新架构从“你是谁”转向“你现在有资格做什么”,在每次操作前通过实时策略引擎进行校验。

常见问题

这次公司发布“Anthropic's Computer Use API: AI Learns to Click, Type, and See Like a Human”主要讲了什么?

Anthropic's Computer Use API represents a radical departure from traditional AI integration methods. Instead of relying on structured APIs or custom middleware, the system uses a v…

从“How does Anthropic Computer Use API compare to OpenAI Code Interpreter for desktop automation”看,这家公司的这次发布为什么值得关注?

The Computer Use API is built on a vision-action loop architecture that fundamentally differs from traditional RPA (Robotic Process Automation) tools. While RPA relies on pre-recorded macros or DOM-based selectors, Anthr…

围绕“Computer Use API safety risks and how to prevent unintended file deletion”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。