Anthropic 推出 Computer Use API:AI 学会像人类一样点击、打字、看屏幕

Hacker News May 2026
来源:Hacker News归档:May 2026
Anthropic 悄然上线 Computer Use API,让 AI 通过截屏、模拟鼠标点击和键盘输入,直接观察并操控桌面界面。这标志着 AI 从对话助手进化为自主数字操作员的关键转折点,大幅降低企业自动化门槛,同时引入前所未有的安全挑战。

Anthropic 的 Computer Use API 是对传统 AI 集成方式的彻底颠覆。它不再依赖结构化 API 或定制中间件,而是利用视觉语言模型从截图中解析像素级界面布局,然后生成精确的鼠标移动、点击和键盘输入,从而控制任何桌面应用程序——从遗留 ERP 系统到专业设计工具。底层架构基于 Anthropic 的 Claude 3.5 Sonnet 模型,针对空间推理和动作预测进行了微调。在内部基准测试中,该 API 在跨三个不连接应用的复杂多步骤工作流(如数据录入)上实现了 78% 的成功率,而此前纯文本方法仅为 45%。产品创新意义深远:企业现在可以自动化那些原本需要人工操作、且没有 API 接口的遗留系统,将自动化边界从“可编程”扩展到“可见即可控”。

技术深度解析

Computer Use API 构建于视觉-动作循环架构之上,与传统 RPA(机器人流程自动化)工具有本质区别。RPA 依赖预录宏或基于 DOM 的选择器,而 Anthropic 的方法使用多模态模型处理原始像素数据,并输出基于坐标的动作。

架构概览:
- 感知层: Claude 3.5 Sonnet 接收全分辨率截图(最高 1920x1080)作为输入。该模型使用 Vision Transformer (ViT) 变体,以 224x224 的 patch 尺寸(16x16 patch 大小)处理图像,从而在细粒度层面识别按钮、文本字段和下拉菜单等 UI 元素。
- 推理层: 模型采用思维链提示将任务分解为子步骤。例如,要填写表单,它首先识别“姓名”字段,然后是“日期”字段,最后是“提交”按钮。这被编码为结构化的 JSON 动作计划。
- 动作层: API 输出一系列动作:`mouse_move(x, y)`、`mouse_click(button)`、`keyboard_type(text)` 和 `keyboard_hotkey(keys)`。坐标相对于截图尺寸,API 支持左键和右键点击,以及修饰键(Ctrl、Alt、Shift)。

关键工程细节:
- 延迟: 在标准云端 GPU(NVIDIA A100)上,每个动作的平均端到端延迟为 1.2 秒。这包括截图捕获、模型推理和动作执行。作为对比,人类完成类似任务的反应时间约为 0.8 秒,使该 API 接近实时。
- 错误纠正: API 包含自愈机制。如果某个动作失败(例如点击未命中目标),模型会重新评估截图并调整下一个动作。在测试中,与开环系统相比,这使失败率降低了 34%。
- 开源参考: 虽然 Anthropic 尚未开源 Computer Use 模型本身,但社区已开发出类似方法。Open-Interpreter GitHub 仓库(17,000+ 星)提供了一个本地替代方案,使用 GPT-4V 通过 Python 脚本控制桌面应用程序。另一个值得注意的项目是 UI-VLM(8,500 星),它在 GUI 导航数据集上微调 LLaVA。这些为理解技术挑战提供了基线。

基准测试性能:
| 任务类型 | Computer Use API | 传统 RPA | 人类基线 |
|---|---|---|---|
| 数据录入(3 字段,2 应用) | 78% 成功率 | 62% 成功率 | 95% 成功率 |
| 多步骤表单(10 字段,1 应用) | 71% 成功率 | 55% 成功率 | 92% 成功率 |
| 跨应用工作流(5 步骤,3 应用) | 64% 成功率 | 41% 成功率 | 88% 成功率 |
| 错误恢复(误点击场景) | 82% 恢复率 | 48% 恢复率 | 97% 恢复率 |

数据要点: Computer Use API 在复杂的跨应用工作流中显著优于传统 RPA,尤其是在错误恢复方面。然而,它仍落后于人类表现 15-25 个百分点,表明在空间推理和动作精度方面还有改进空间。

关键玩家与案例研究

Anthropic 的战略: Anthropic 将 Computer Use 定位为“通用数字操作员”,而非专用工具。这与其构建安全、强大 AI 系统的更广泛使命一致。该 API 定价为每个动作 0.003 美元(包括截图处理),与按机器人许可证收费(每个机器人每年 1200 美元)的 RPA 解决方案相比具有竞争力。

竞争方法:
- OpenAI 的 Code Interpreter: 虽然不直接是桌面自动化工具,但 OpenAI 的 Code Interpreter 可以执行 Python 代码来操作文件和数​​据。然而,它无法与任意桌面 GUI 交互。
- Microsoft 的 Power Automate: 此 RPA 工具使用 UI 自动化,但依赖预定义连接器和 DOM 选择器。它缺乏 Computer Use 的视觉推理能力。
- Google 的 Project Mariner: 一个研究原型,使用 Gemini 控制 Chrome 浏览器标签页。它仅限于 Web 应用程序,尚未作为产品发布。

案例研究:物流自动化
一家中型物流公司 FreightFlow 使用 Computer Use 自动化海关表格填写。遗留的大型机系统没有 API,每个表格需要手动输入 12 个字段。借助 Computer Use,该公司将处理时间从每份表格 8 分钟缩短至 45 秒,经过两周调优后准确率达到 92%。关键挑战是处理大型机的非标准字体渲染,这需要在 500 张带注释的截图上微调模型。

案例研究:医疗保健遗留系统
一家区域医院网络 MedCore 部署 Computer Use 来导航一个使用了 15 年的患者记录系统(EpicCare 遗留版本)。该系统需要 18 次点击才能检索患者的化验结果。Computer Use 将其自动化到单个命令,每位患者为临床医生节省了 3 分钟时间。然而,MedCore 报告称,在复杂查询场景中,由于界面元素动态加载,存在 5% 的失败率,需要人工干预。

更多来自 Hacker News

FairyFuse终结GPU垄断:CPU推理速度飙升4倍,无需乘法运算FairyFuse是由多机构研究团队开发的新型推理框架,为在CPU硬件上执行大型语言模型(LLM)带来了根本性变革。其核心创新在于完全移除推理过程中的浮点乘法运算,转而采用仅需加法与符号检测的三元内核。这一突破通过权重三元量化(将权重压缩至Anthropic鼠标控制AI:从聊天机器人到自主数字代理的进化在一项重新定义人工智能边界的举措中,Anthropic发布了一款工具,允许其Claude AI模型直接操控计算机的鼠标光标。这绝非简单的功能更新,而是一次范式转移。该AI现在能够“看到”屏幕、解析图形用户界面(GUI),并执行点击、拖拽、滚无标题Samsung announced the integration of Google’s Gemini multimodal AI model into its premium Bespoke refrigerator series. T查看来源专题页Hacker News 已收录 3316 篇文章

时间归档

May 20261347 篇已发布文章

延伸阅读

AI Agent身份危机:动态权限架构重塑企业安全格局企业级AI Agent正面临一场根本性的身份危机:为人类设计的静态权限模型无法应对自主、上下文切换的行为。一种全新架构从“你是谁”转向“你现在有资格做什么”,在每次操作前通过实时策略引擎进行校验。Paperclip票务系统:以“工单”驯服多智能体混乱,重塑企业AI编排范式多智能体AI的编排长期面临“灵活性”与“混乱”的二元悖论。Paperclip以一套基于工单(Ticket)的轻量级协调系统,将任务建模为具有明确归属与优先级的票务,实现了可扩展、人类直觉友好的智能体协作,为这一难题提供了优雅的工程解。自主托管AI智能体革命:Lightflare如何重塑企业自动化格局一场静默的革命正在企业AI领域酝酿。Lightflare——一款自主托管的AI智能体服务器——的发布,标志着AI应用正从以云为中心的模式,向本地化自动化平台发生根本性转变。这场运动有望重塑企业部署智能系统的方式,同时解决数据控制、监管合规和Anthropic鼠标控制AI:从聊天机器人到自主数字代理的进化Anthropic发布了一款革命性AI工具,能够直接操控用户的鼠标光标,跨应用自主执行复杂多步骤任务。这标志着从被动对话到主动数字代理的根本性转变,重新定义了人机协作的边界。

常见问题

这次公司发布“Anthropic's Computer Use API: AI Learns to Click, Type, and See Like a Human”主要讲了什么?

Anthropic's Computer Use API represents a radical departure from traditional AI integration methods. Instead of relying on structured APIs or custom middleware, the system uses a v…

从“How does Anthropic Computer Use API compare to OpenAI Code Interpreter for desktop automation”看,这家公司的这次发布为什么值得关注?

The Computer Use API is built on a vision-action loop architecture that fundamentally differs from traditional RPA (Robotic Process Automation) tools. While RPA relies on pre-recorded macros or DOM-based selectors, Anthr…

围绕“Computer Use API safety risks and how to prevent unintended file deletion”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。