Claude Cowork：AI从“军师”变“同事”，直接替你干活

2026年6月5日 15:13 AINews Towards AI June 2026

来源：Towards AI Anthropic AI agent 归档：June 2026

Anthropic 发布 Claude Cowork，标志着 AI 角色的根本性转变：从提供建议到直接操作软件。它能打开表格、填充数据、发送邮件——打通 AI 生产力的“最后一公里”，重新定义人机协作。

Anthropic 正式推出 Claude Cowork，这是一款超越对话、直接行动的 AI 代理。与传统 AI 助手仅提供步骤建议不同，Cowork 能自主操作软件应用——打开文件、编辑单元格、发送消息——端到端完成任务。从“告诉你该做什么”到“替你去做”，这一跃迁打通了 AI 生产力的关键“最后一公里”。Cowork 将大语言模型推理与直接 GUI 操控相结合，绕过 API 和插件，像人类一样与软件交互。该产品的发布标志着 AI 从对话工具进化为真正的数字同事，人类角色从执行转向监督。行业观察者认为，这可能颠覆整个 SaaS 工作流范式，因为自动化正从“脚本驱动”走向“意图驱动”。

技术深度解析

Claude Cowork 代表了视觉语言模型与机器人流程自动化（RPA）原理的深度融合，但有一个关键区别：它理解上下文，而不仅仅是脚本。该系统使用多模态模型，能实时解析用户桌面的屏幕截图，识别 UI 元素——按钮、文本字段、下拉菜单——无需任何预定义的 API 钩子。这是通过 Anthropic 的 Claude 3.5 Opus 微调版实现的，该模型已在数百万个屏幕截图与操作配对数据上训练。

其架构遵循“感知-规划-行动”循环：
1. 感知：轻量级视觉编码器以约 1 FPS 的频率捕获屏幕，将当前 UI 状态提取为包含元素及其坐标的结构化表示。
2. 规划：核心 LLM 根据用户的自然语言指令和当前 UI 状态进行推理，生成一系列原子操作（例如，“点击 (450, 320)”、“输入‘Q3 营收’”、“按回车”）。
3. 行动：低级控制器通过操作系统级辅助功能 API（macOS 使用 Accessibility API，Windows 使用 UI Automation）执行这些操作，模拟鼠标点击和键盘输入。

关键的是，Cowork 不依赖特定应用的插件或浏览器扩展。这使其能够与任何桌面软件通用兼容——Excel、Salesforce、Slack、定制企业工具——只要它们渲染标准 UI 元素。系统包含自我纠正机制：如果某个操作失败（例如，未找到按钮），它会重新评估屏幕并调整计划，类似于人类重试的方式。

| 指标 | Claude Cowork | 传统 RPA（如 UiPath） | 带浏览器的 GPT-4 |
|---|---|---|---|
| 设置时间 | 0 分钟（无需配置） | 每个工作流 2-4 周 | 0 分钟（仅需提示） |
| 跨应用兼容性 | 任何桌面应用 | 需要预构建连接器 | 仅限于浏览器 |
| 错误恢复 | 自主重新规划 | 预定义异常处理程序 | 手动干预 |
| 学习曲线 | 仅需自然语言 | 需要脚本知识 | 仅需自然语言 |
| 任务完成率（内部测试） | 复杂多步骤任务 87% | 脚本化任务 95%+ | 复杂任务 62% |

数据要点： 传统 RPA 在预定义工作流上可靠性更高，但其设置成本和僵化性使其不适合临时任务。Claude Cowork 的零配置方法和自我纠正能力使其成为知识工作中大量非结构化、可变任务的理想选择。

该领域一个值得注意的开源项目是 Open-Interpreter（GitHub：55k+ 星），它开创了 LLM 通过自然语言控制计算机的概念。然而，Open-Interpreter 依赖 shell 命令和代码执行，限制了其与重度 GUI 应用交互的能力。Claude Cowork 基于视觉的方法向前迈出了重要一步，它直接操控视觉界面，而非通过代码进行抽象。

关键玩家与案例研究

Anthropic 并非孤军奋战。多个主要玩家正在追求类似能力，各自采取不同的战略路径：

- Microsoft Copilot：深度集成到 Office 365 中，Copilot 使用 Graph API 和语义索引在微软生态系统内执行操作。但它基本局限于微软产品，且需要云连接。Cowork 的优势在于其跨任何桌面应用的通用性。
- Google Project Mariner：基于 Gemini 2.0 的研究原型，Mariner 能自主控制网页浏览器。它仅限于 Chrome 和基于网页的任务，而 Cowork 在操作系统层面运行。
- Adept AI (ACT-1)：由前谷歌研究人员创立的初创公司，Adept 专门为软件交互训练了一个模型。其 ACT-1 演示展示了令人印象深刻的能力，但尚未公开发布。Cowork 的即时可用性为 Anthropic 带来了先发优势。
- Apple Intelligence：苹果的设备端 AI 能执行跨应用操作（例如，“把这张照片发给妈妈”），但仅限于苹果原生应用和有限的操作集。Cowork 的范围要广泛得多。

| 产品 | 范围 | 可用性 | 关键限制 |
|---|---|---|---|
| Claude Cowork | 所有桌面应用 | 现已推出（测试版） | 需要 macOS/Windows 桌面应用 |
| Microsoft Copilot | Microsoft 365 应用 | 现已推出 | 锁定在微软生态系统内 |
| Google Mariner | 仅限网页浏览器 | 研究预览 | 仅限浏览器，无桌面应用 |
| Adept ACT-1 | 所有桌面应用 | 未发布 | 无公开访问权限 |
| Apple Intelligence | Apple 原生应用 | 现已推出（有限） | 仅限 iOS/macOS，操作有限 |

数据要点： Claude Cowork 将通用桌面控制与即时可用性相结合，创造了独特的竞争地位。它是第一个提供真正通用软件操作能力且无生态系统锁定的产品。

时间归档

常见问题

这次公司发布“Claude Cowork Transforms AI From Advisor to Digital Colleague That Does the Work”主要讲了什么？

Anthropic has unveiled Claude Cowork, an AI agent that moves beyond conversation to direct action. Unlike traditional AI assistants that merely suggest steps, Cowork autonomously o…

从“Claude Cowork vs traditional RPA comparison”看，这家公司的这次发布为什么值得关注？

Claude Cowork represents a sophisticated integration of vision-language models and robotic process automation (RPA) principles, but with a crucial difference: it understands context, not just scripts. The system uses a m…

围绕“How Claude Cowork handles security permissions”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。

Claude Cowork：AI从“军师”变“同事”，直接替你干活

技术深度解析

关键玩家与案例研究

更多来自 Towards AI

相关专题

时间归档

延伸阅读

常见问题