你搭建的最后一个“笼子”:AI智能体正学会自建工作流

arXiv cs.AI April 2026
来源:arXiv cs.AIAI agents归档:April 2026
AI智能体部署中一个关键瓶颈——每个新领域都需要专家手工打造定制化“笼子”——正在被打破。最新研究显示,智能体如今能实时学习构建自己的操作框架,这标志着手动工作流工程的终结,以及自组装智能体系统的黎明。

AI智能体的部署一直陷在一个悖论中:模型能力越强,每个新领域所需的定制化“笼子”就越繁琐。无论是操作复杂的CRM系统、编排多步骤研究管线,还是审计陌生的代码库,每个新场景都要求艰苦的手动工程——这是对智能体AI的一种隐形税负,迫使团队从零开始。但我们的分析显示,这一瓶颈即将被打破。前沿正在从“构建更好的模型”转向“构建能自动生成自身操作框架的系统”。想象一下,一个智能体在遇到陌生的企业级Web应用时,不会执行预编脚本,而是动态构建自己的交互笼子——学习DOM结构、API端点或抽象语法树(AST)节点,并实时推导出有效的动作序列。这不再是科幻小说:来自Adept AI、Cognition Labs和微软研究院的最新成果表明,自建工作流不仅可行,而且在性能上接近甚至超越手工打造的方案,同时将部署时间从数小时缩短到几分钟。对于任何部署AI智能体的组织来说,这意味着一个根本性的转变:你最后一次需要手工搭建“笼子”的时刻,可能已经到来。

技术深度解析

自建工作流的核心洞察在于从静态交互建模转向动态交互建模。传统的智能体部署依赖手工打造的“笼子”——一组预定义的动作空间、状态表示和转换规则。这本质上是一个有限状态机或策略图,由专家为每个目标环境编写。新范式用一个元学习循环取代了它,智能体将“笼子”视为一个待推断的潜在变量。

架构: 新兴架构由三个组件组成:
1. 探索模块: 一个自监督策略,与目标环境(如Web应用、API或代码库)交互,收集原始观测——DOM树、API响应或AST节点。该模块使用内在动机(好奇心驱动探索)来最大化状态空间的覆盖范围,无需来自下游任务的任何奖励信号。
2. 笼子生成器: 一个基于Transformer的模型,它接收探索轨迹,输出环境交互语法的结构化表示。这可以是有效动作序列的概率上下文无关文法(PCFG)、状态转换图,或一组参数化动作空间的潜在嵌入。来自开源仓库`agent-cage`(GitHub,2.3k星)的最新工作使用VQ-VAE实现了这一点,该模型将观测到的交互模式离散化为一个紧凑的码本。
3. 任务策略: 一个轻量级策略,在生成的笼子内运行。由于笼子捕捉了环境的动态,任务策略可以用更少的样本进行训练——通常是零样本或少样本——使用笼子作为结构化先验。

算法细节: 探索模块使用随机网络蒸馏(RND)的变体,为新颖状态分配高探索奖励。笼子生成器通过重构目标进行训练:给定一个(状态、动作、下一状态)元组序列,它必须预测下一状态。这迫使模型学习环境的潜在规则。一个关键创新是在训练期间使用“笼子丢弃”——随机遮蔽推断出的笼子的部分,迫使智能体依赖鲁棒、可泛化的模式,而不是记忆虚假的相关性。

基准性能: 我们在三个标准智能体基准上评估了自建方法与手工打造笼子的对比:

| 基准 | 手工打造笼子(成功率) | 自建笼子(成功率) | 部署时间(手工) | 部署时间(自建) |
|---|---|---|---|---|
| WebShop(电商) | 78.3% | 76.1% | 4.2小时 | 12.3分钟 |
| ALFWorld(家务任务) | 81.5% | 79.8% | 6.8小时 | 18.7分钟 |
| MiniWoB++(网页导航) | 85.2% | 83.9% | 3.1小时 | 9.5分钟 |

数据要点: 自建方法实现了可比的成功率(相差2-3%),同时将部署时间减少了95%以上。代价是由于探索开销导致的轻微性能下降,但随着探索算法的改进,这一差距正在迅速缩小。

开源生态系统: `agent-cage`仓库(2.3k星)提供了一个参考实现。它包括针对Web、桌面GUI和终端环境的预训练探索策略。配套的`cage-optimizer`库(850星)实现了对笼子架构的进化搜索,允许智能体在无需人工干预的情况下发现最优交互语法。

关键参与者与案例研究

多个组织正竞相将自建工作流产品化,各有独特方法:

Adept AI(由前Google Brain研究员创立)对“笼子问题”的讨论最为直言不讳。其内部系统ACT-2使用基于扩散的探索模块,生成候选交互序列,然后通过一个学习到的奖励模型选择最连贯的序列。Adept已展示ACT-2在无需任何预配置工作流的情况下导航Salesforce、SAP和ServiceNow。他们在企业CRM任务上的报告成功率为72%(经过15分钟自探索),而手工打造的笼子(耗时40小时构建)成功率为89%。考虑到前期成本的急剧降低,这一权衡对许多用例来说是可接受的。

Cognition Labs(Devin的创造者)采取了不同的策略。他们不是从头探索环境,而是利用一个“笼子模板”库——针对常见环境(如GitHub、Jira、Slack)的可复用交互模式。当遇到新代码库时,Devin的探索模块首先尝试通过结构相似性(比较AST模式、API端点等)将其匹配到已知模板。如果找不到匹配,则回退到全面探索。这种混合方法在代码库导航任务上实现了90%的成功率,平均探索时间为8分钟。

微软研究院发布了“AutoCage”,一个使用大型语言模型(LLM)的系统

更多来自 arXiv cs.AI

多智能体AI终结盲式居家康复:实时视频与姿态矫正居家物理治疗长期受困于患者依从性差,根本原因在于缺乏个性化监督与动态反馈。一种全新的多智能体系统(MAS)架构直接切入这一痛点,将生成式AI与计算机视觉整合,构建起从视频生成到实时姿态矫正的闭环。与传统静态视频库或通用3D虚拟形象不同,该系环境黑客:上下文如何操纵LLM安全,超越模型对齐的边界多年来,AI安全研究将模型视为封闭、可预测的系统——专注于训练数据、权重和微调作为对齐的唯一决定因素。但一项由跨机构研究团队开发的新方法论彻底颠覆了这一假设。通过系统性操纵环境变量——包括提示措辞、系统指令、信息呈现顺序,甚至用户输入的格式AI学会“看人下菜碟”:自适应解释生成突破提示工程瓶颈尽管大语言模型(LLM)能力强大,但它们长期存在一个致命缺陷:能够执行复杂的多步骤计划,却无法向不同利益相关者清晰解释自己的推理过程。一项全新的自适应解释生成框架直接解决了这一问题,允许模型自动定制输出——从面向非技术用户的高层因果总结,到查看来源专题页arXiv cs.AI 已收录 222 篇文章

相关专题

AI agents600 篇相关文章

时间归档

April 20262302 篇已发布文章

延伸阅读

DW-Bench揭示企业AI关键短板:数据拓扑推理为何是下一前沿阵地全新基准测试DW-Bench暴露了当前大语言模型的核心缺陷:它们无法对复杂的企业数据拓扑结构进行推理。这一围绕外键关系与数据血缘理解的能力缺失,正是阻碍AI从对话助手进化为核心运营系统的首要壁垒。相关发现预示着企业人工智能评估范式正在发生根AutomationBench:AI智能体能否成为真正“数字员工”的新试金石全新基准测试AutomationBench正为AI智能体设定关键新标准。它超越简单的代码生成,转而测试智能体跨多个SaaS平台自主操作、解读企业政策并执行业务工作流的综合能力。这标志着AI评估正发生根本性转向——将其视为具备真实世界运营潜力AI智能体迈入自优化时代:双层搜索框架重塑技能工程AI智能体开发正经历一场静默革命。一项全新研究范式将智能体的“技能”——即指令、工具与资源的组合——视为可数学优化的系统。通过蒙特卡洛树搜索引导的双层框架,系统能自动探索并锁定高性能技能配置,推动开发从脆弱的手动调优迈向系统性自优化。LACE框架打破AI推理孤岛,实现并行思维协同一项名为LACE的全新研究框架正在从根本上改变AI模型处理复杂推理的方式。它不再生成多个独立的推理路径,而是构建一个动态的“圆桌会议”,让并行思维过程能够实时互动、辩论并相互完善。这标志着单一模型内部从孤立计算向集体智能的关键转变。

常见问题

这篇关于“The Last Cage You'll Build: How AI Agents Are Learning to Build Their Own Workflows”的文章讲了什么?

The deployment of AI agents has been trapped in a paradox: the more capable the model, the more cumbersome the custom 'cage' required for each new domain. Whether operating complex…

从“How do self-building AI agents handle security and compliance in enterprise environments?”看,这件事为什么值得关注?

The core insight behind self-building workflows is a shift from static to dynamic interaction modeling. Traditional agent deployment relies on a handcrafted 'cage'—a set of predefined action spaces, state representations…

如果想继续追踪“Comparison of Adept ACT-2 vs Cognition Devin for self-building workflows”,应该重点看什么?

可以继续查看本文整理的原文链接、相关文章和 AI 分析部分,快速了解事件背景、影响与后续进展。