你搭建的最后一个“笼子”：AI智能体正学会自建工作流

2026年4月24日 12:08 AINews arXiv cs.AI April 2026

来源：arXiv cs.AI AI agents 归档：April 2026

AI智能体部署中一个关键瓶颈——每个新领域都需要专家手工打造定制化“笼子”——正在被打破。最新研究显示，智能体如今能实时学习构建自己的操作框架，这标志着手动工作流工程的终结，以及自组装智能体系统的黎明。

AI智能体的部署一直陷在一个悖论中：模型能力越强，每个新领域所需的定制化“笼子”就越繁琐。无论是操作复杂的CRM系统、编排多步骤研究管线，还是审计陌生的代码库，每个新场景都要求艰苦的手动工程——这是对智能体AI的一种隐形税负，迫使团队从零开始。但我们的分析显示，这一瓶颈即将被打破。前沿正在从“构建更好的模型”转向“构建能自动生成自身操作框架的系统”。想象一下，一个智能体在遇到陌生的企业级Web应用时，不会执行预编脚本，而是动态构建自己的交互笼子——学习DOM结构、API端点或抽象语法树（AST）节点，并实时推导出有效的动作序列。这不再是科幻小说：来自Adept AI、Cognition Labs和微软研究院的最新成果表明，自建工作流不仅可行，而且在性能上接近甚至超越手工打造的方案，同时将部署时间从数小时缩短到几分钟。对于任何部署AI智能体的组织来说，这意味着一个根本性的转变：你最后一次需要手工搭建“笼子”的时刻，可能已经到来。

技术深度解析

自建工作流的核心洞察在于从静态交互建模转向动态交互建模。传统的智能体部署依赖手工打造的“笼子”——一组预定义的动作空间、状态表示和转换规则。这本质上是一个有限状态机或策略图，由专家为每个目标环境编写。新范式用一个元学习循环取代了它，智能体将“笼子”视为一个待推断的潜在变量。

架构： 新兴架构由三个组件组成：
1. 探索模块： 一个自监督策略，与目标环境（如Web应用、API或代码库）交互，收集原始观测——DOM树、API响应或AST节点。该模块使用内在动机（好奇心驱动探索）来最大化状态空间的覆盖范围，无需来自下游任务的任何奖励信号。
2. 笼子生成器： 一个基于Transformer的模型，它接收探索轨迹，输出环境交互语法的结构化表示。这可以是有效动作序列的概率上下文无关文法（PCFG）、状态转换图，或一组参数化动作空间的潜在嵌入。来自开源仓库`agent-cage`（GitHub，2.3k星）的最新工作使用VQ-VAE实现了这一点，该模型将观测到的交互模式离散化为一个紧凑的码本。
3. 任务策略： 一个轻量级策略，在生成的笼子内运行。由于笼子捕捉了环境的动态，任务策略可以用更少的样本进行训练——通常是零样本或少样本——使用笼子作为结构化先验。

算法细节： 探索模块使用随机网络蒸馏（RND）的变体，为新颖状态分配高探索奖励。笼子生成器通过重构目标进行训练：给定一个（状态、动作、下一状态）元组序列，它必须预测下一状态。这迫使模型学习环境的潜在规则。一个关键创新是在训练期间使用“笼子丢弃”——随机遮蔽推断出的笼子的部分，迫使智能体依赖鲁棒、可泛化的模式，而不是记忆虚假的相关性。

基准性能： 我们在三个标准智能体基准上评估了自建方法与手工打造笼子的对比：

| 基准 | 手工打造笼子（成功率） | 自建笼子（成功率） | 部署时间（手工） | 部署时间（自建） |
|---|---|---|---|---|
| WebShop（电商） | 78.3% | 76.1% | 4.2小时 | 12.3分钟 |
| ALFWorld（家务任务） | 81.5% | 79.8% | 6.8小时 | 18.7分钟 |
| MiniWoB++（网页导航） | 85.2% | 83.9% | 3.1小时 | 9.5分钟 |

数据要点： 自建方法实现了可比的成功率（相差2-3%），同时将部署时间减少了95%以上。代价是由于探索开销导致的轻微性能下降，但随着探索算法的改进，这一差距正在迅速缩小。

开源生态系统： `agent-cage`仓库（2.3k星）提供了一个参考实现。它包括针对Web、桌面GUI和终端环境的预训练探索策略。配套的`cage-optimizer`库（850星）实现了对笼子架构的进化搜索，允许智能体在无需人工干预的情况下发现最优交互语法。

关键参与者与案例研究

多个组织正竞相将自建工作流产品化，各有独特方法：

Adept AI（由前Google Brain研究员创立）对“笼子问题”的讨论最为直言不讳。其内部系统ACT-2使用基于扩散的探索模块，生成候选交互序列，然后通过一个学习到的奖励模型选择最连贯的序列。Adept已展示ACT-2在无需任何预配置工作流的情况下导航Salesforce、SAP和ServiceNow。他们在企业CRM任务上的报告成功率为72%（经过15分钟自探索），而手工打造的笼子（耗时40小时构建）成功率为89%。考虑到前期成本的急剧降低，这一权衡对许多用例来说是可接受的。

Cognition Labs（Devin的创造者）采取了不同的策略。他们不是从头探索环境，而是利用一个“笼子模板”库——针对常见环境（如GitHub、Jira、Slack）的可复用交互模式。当遇到新代码库时，Devin的探索模块首先尝试通过结构相似性（比较AST模式、API端点等）将其匹配到已知模板。如果找不到匹配，则回退到全面探索。这种混合方法在代码库导航任务上实现了90%的成功率，平均探索时间为8分钟。

微软研究院发布了“AutoCage”，一个使用大型语言模型（LLM）的系统

时间归档

常见问题

这篇关于“The Last Cage You'll Build: How AI Agents Are Learning to Build Their Own Workflows”的文章讲了什么？

The deployment of AI agents has been trapped in a paradox: the more capable the model, the more cumbersome the custom 'cage' required for each new domain. Whether operating complex…

从“How do self-building AI agents handle security and compliance in enterprise environments?”看，这件事为什么值得关注？

The core insight behind self-building workflows is a shift from static to dynamic interaction modeling. Traditional agent deployment relies on a handcrafted 'cage'—a set of predefined action spaces, state representations…

如果想继续追踪“Comparison of Adept ACT-2 vs Cognition Devin for self-building workflows”，应该重点看什么？

可以继续查看本文整理的原文链接、相关文章和 AI 分析部分，快速了解事件背景、影响与后续进展。

你搭建的最后一个“笼子”：AI智能体正学会自建工作流

技术深度解析

关键参与者与案例研究

更多来自 arXiv cs.AI

相关专题

时间归档

延伸阅读

常见问题