Claude Cowork:AI从“军师”变“同事”,直接替你干活

Towards AI June 2026
来源:Towards AIAnthropicAI agent归档:June 2026
Anthropic 发布 Claude Cowork,标志着 AI 角色的根本性转变:从提供建议到直接操作软件。它能打开表格、填充数据、发送邮件——打通 AI 生产力的“最后一公里”,重新定义人机协作。

Anthropic 正式推出 Claude Cowork,这是一款超越对话、直接行动的 AI 代理。与传统 AI 助手仅提供步骤建议不同,Cowork 能自主操作软件应用——打开文件、编辑单元格、发送消息——端到端完成任务。从“告诉你该做什么”到“替你去做”,这一跃迁打通了 AI 生产力的关键“最后一公里”。Cowork 将大语言模型推理与直接 GUI 操控相结合,绕过 API 和插件,像人类一样与软件交互。该产品的发布标志着 AI 从对话工具进化为真正的数字同事,人类角色从执行转向监督。行业观察者认为,这可能颠覆整个 SaaS 工作流范式,因为自动化正从“脚本驱动”走向“意图驱动”。

技术深度解析

Claude Cowork 代表了视觉语言模型与机器人流程自动化(RPA)原理的深度融合,但有一个关键区别:它理解上下文,而不仅仅是脚本。该系统使用多模态模型,能实时解析用户桌面的屏幕截图,识别 UI 元素——按钮、文本字段、下拉菜单——无需任何预定义的 API 钩子。这是通过 Anthropic 的 Claude 3.5 Opus 微调版实现的,该模型已在数百万个屏幕截图与操作配对数据上训练。

其架构遵循“感知-规划-行动”循环:
1. 感知:轻量级视觉编码器以约 1 FPS 的频率捕获屏幕,将当前 UI 状态提取为包含元素及其坐标的结构化表示。
2. 规划:核心 LLM 根据用户的自然语言指令和当前 UI 状态进行推理,生成一系列原子操作(例如,“点击 (450, 320)”、“输入‘Q3 营收’”、“按回车”)。
3. 行动:低级控制器通过操作系统级辅助功能 API(macOS 使用 Accessibility API,Windows 使用 UI Automation)执行这些操作,模拟鼠标点击和键盘输入。

关键的是,Cowork 不依赖特定应用的插件或浏览器扩展。这使其能够与任何桌面软件通用兼容——Excel、Salesforce、Slack、定制企业工具——只要它们渲染标准 UI 元素。系统包含自我纠正机制:如果某个操作失败(例如,未找到按钮),它会重新评估屏幕并调整计划,类似于人类重试的方式。

| 指标 | Claude Cowork | 传统 RPA(如 UiPath) | 带浏览器的 GPT-4 |
|---|---|---|---|
| 设置时间 | 0 分钟(无需配置) | 每个工作流 2-4 周 | 0 分钟(仅需提示) |
| 跨应用兼容性 | 任何桌面应用 | 需要预构建连接器 | 仅限于浏览器 |
| 错误恢复 | 自主重新规划 | 预定义异常处理程序 | 手动干预 |
| 学习曲线 | 仅需自然语言 | 需要脚本知识 | 仅需自然语言 |
| 任务完成率(内部测试) | 复杂多步骤任务 87% | 脚本化任务 95%+ | 复杂任务 62% |

数据要点: 传统 RPA 在预定义工作流上可靠性更高,但其设置成本和僵化性使其不适合临时任务。Claude Cowork 的零配置方法和自我纠正能力使其成为知识工作中大量非结构化、可变任务的理想选择。

该领域一个值得注意的开源项目是 Open-Interpreter(GitHub:55k+ 星),它开创了 LLM 通过自然语言控制计算机的概念。然而,Open-Interpreter 依赖 shell 命令和代码执行,限制了其与重度 GUI 应用交互的能力。Claude Cowork 基于视觉的方法向前迈出了重要一步,它直接操控视觉界面,而非通过代码进行抽象。

关键玩家与案例研究

Anthropic 并非孤军奋战。多个主要玩家正在追求类似能力,各自采取不同的战略路径:

- Microsoft Copilot:深度集成到 Office 365 中,Copilot 使用 Graph API 和语义索引在微软生态系统内执行操作。但它基本局限于微软产品,且需要云连接。Cowork 的优势在于其跨任何桌面应用的通用性。
- Google Project Mariner:基于 Gemini 2.0 的研究原型,Mariner 能自主控制网页浏览器。它仅限于 Chrome 和基于网页的任务,而 Cowork 在操作系统层面运行。
- Adept AI (ACT-1):由前谷歌研究人员创立的初创公司,Adept 专门为软件交互训练了一个模型。其 ACT-1 演示展示了令人印象深刻的能力,但尚未公开发布。Cowork 的即时可用性为 Anthropic 带来了先发优势。
- Apple Intelligence:苹果的设备端 AI 能执行跨应用操作(例如,“把这张照片发给妈妈”),但仅限于苹果原生应用和有限的操作集。Cowork 的范围要广泛得多。

| 产品 | 范围 | 可用性 | 关键限制 |
|---|---|---|---|
| Claude Cowork | 所有桌面应用 | 现已推出(测试版) | 需要 macOS/Windows 桌面应用 |
| Microsoft Copilot | Microsoft 365 应用 | 现已推出 | 锁定在微软生态系统内 |
| Google Mariner | 仅限网页浏览器 | 研究预览 | 仅限浏览器,无桌面应用 |
| Adept ACT-1 | 所有桌面应用 | 未发布 | 无公开访问权限 |
| Apple Intelligence | Apple 原生应用 | 现已推出(有限) | 仅限 iOS/macOS,操作有限 |

数据要点: Claude Cowork 将通用桌面控制与即时可用性相结合,创造了独特的竞争地位。它是第一个提供真正通用软件操作能力且无生态系统锁定的产品。

更多来自 Towards AI

Anthropic的静默政变:安全战略如何从OpenAI手中夺走企业信任OpenAI凭借ChatGPT的病毒式传播和GPT-4o的炫目演示,打造了一个消费级品牌巨兽。然而,在聚光灯之外,一场更安静、更具战略性的变革正在发生。由前OpenAI研究员Dario Amodei领导的Anthropic,执行了业内人士所48小时AI风暴:Codex升级、MAI-Thinking-1横空出世、MiniMax M3多模态首秀,以及那个子虚乌有的GPT-5.6泄露过去48小时,AI领域接连遭遇四重冲击,但围绕所谓GPT-5.6泄露的噪音,掩盖了一场更为深远的变革。OpenAI的Codex升级绝非例行更新:它将深度推理直接嵌入开发者工作流,标志着从“代码生成”到“自主编程代理”的飞跃。与此同时,MAIClaude Cowork:透明AI循环如何将等待转化为信任Claude Cowork代表了AI代理与用户交互方式的根本性转变。它不再经过一段不透明的处理期后直接给出最终答案,而是将操作分解为一个可见的迭代循环:首先规划下一步行动,然后调用工具(如代码解释器或网络搜索),最后检查结果,再循环回到规划查看来源专题页Towards AI 已收录 82 篇文章

相关专题

Anthropic220 篇相关文章AI agent172 篇相关文章

时间归档

June 2026376 篇已发布文章

延伸阅读

Claude Cowork:透明AI循环如何将等待转化为信任Anthropic推出的Claude Cowork彻底颠覆了传统AI的黑箱输出模式:它通过一个可见的“规划-工具调用-检查”循环,实时展示模型的推理过程。这一设计将用户的等待从焦虑期转变为洞察与协作的契机。AI智能体指挥中心:数字同事如何掀起硬件革命一场静默的硬件革命正在AI先驱者的桌面上演。他们不再满足于聊天机器人,而是将整块显示器——通常是悬置的平视显示器——用作自主‘数字同事’的持久监控面板。从以人为中心到人机协同工作空间的转变,标志着自图形用户界面以来桌面计算领域最深刻的变革。Anthropic的静默政变:安全战略如何从OpenAI手中夺走企业信任当Sam Altman登上杂志封面时,Dario Amodei悄然签下了《财富》500强合同。AINews独家揭秘:Anthropic如何以安全优先策略构筑企业信任护城河,从OpenAI手中撬走关键客户,并暴露了消费品牌在B2B市场中的脆弱克劳德的隐形引擎:每次提示背后的毫秒级交响乐每一次向Claude发送提示,都触发一场毫秒级的工程交响乐。AINews首次深度揭秘这条隐形流水线——从分词、上下文窗口管理、Transformer推理到安全过滤——正是这些环节,将现代AI与传统软件区分开来。

常见问题

这次公司发布“Claude Cowork Transforms AI From Advisor to Digital Colleague That Does the Work”主要讲了什么?

Anthropic has unveiled Claude Cowork, an AI agent that moves beyond conversation to direct action. Unlike traditional AI assistants that merely suggest steps, Cowork autonomously o…

从“Claude Cowork vs traditional RPA comparison”看,这家公司的这次发布为什么值得关注?

Claude Cowork represents a sophisticated integration of vision-language models and robotic process automation (RPA) principles, but with a crucial difference: it understands context, not just scripts. The system uses a m…

围绕“How Claude Cowork handles security permissions”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。