你搭建的最后一个“笼子”:AI智能体正学会自建工作流

arXiv cs.AI April 2026
来源:arXiv cs.AIAI agents归档:April 2026
AI智能体部署中一个关键瓶颈——每个新领域都需要专家手工打造定制化“笼子”——正在被打破。最新研究显示,智能体如今能实时学习构建自己的操作框架,这标志着手动工作流工程的终结,以及自组装智能体系统的黎明。

AI智能体的部署一直陷在一个悖论中:模型能力越强,每个新领域所需的定制化“笼子”就越繁琐。无论是操作复杂的CRM系统、编排多步骤研究管线,还是审计陌生的代码库,每个新场景都要求艰苦的手动工程——这是对智能体AI的一种隐形税负,迫使团队从零开始。但我们的分析显示,这一瓶颈即将被打破。前沿正在从“构建更好的模型”转向“构建能自动生成自身操作框架的系统”。想象一下,一个智能体在遇到陌生的企业级Web应用时,不会执行预编脚本,而是动态构建自己的交互笼子——学习DOM结构、API端点或抽象语法树(AST)节点,并实时推导出有效的动作序列。这不再是科幻小说:来自Adept AI、Cognition Labs和微软研究院的最新成果表明,自建工作流不仅可行,而且在性能上接近甚至超越手工打造的方案,同时将部署时间从数小时缩短到几分钟。对于任何部署AI智能体的组织来说,这意味着一个根本性的转变:你最后一次需要手工搭建“笼子”的时刻,可能已经到来。

技术深度解析

自建工作流的核心洞察在于从静态交互建模转向动态交互建模。传统的智能体部署依赖手工打造的“笼子”——一组预定义的动作空间、状态表示和转换规则。这本质上是一个有限状态机或策略图,由专家为每个目标环境编写。新范式用一个元学习循环取代了它,智能体将“笼子”视为一个待推断的潜在变量。

架构: 新兴架构由三个组件组成:
1. 探索模块: 一个自监督策略,与目标环境(如Web应用、API或代码库)交互,收集原始观测——DOM树、API响应或AST节点。该模块使用内在动机(好奇心驱动探索)来最大化状态空间的覆盖范围,无需来自下游任务的任何奖励信号。
2. 笼子生成器: 一个基于Transformer的模型,它接收探索轨迹,输出环境交互语法的结构化表示。这可以是有效动作序列的概率上下文无关文法(PCFG)、状态转换图,或一组参数化动作空间的潜在嵌入。来自开源仓库`agent-cage`(GitHub,2.3k星)的最新工作使用VQ-VAE实现了这一点,该模型将观测到的交互模式离散化为一个紧凑的码本。
3. 任务策略: 一个轻量级策略,在生成的笼子内运行。由于笼子捕捉了环境的动态,任务策略可以用更少的样本进行训练——通常是零样本或少样本——使用笼子作为结构化先验。

算法细节: 探索模块使用随机网络蒸馏(RND)的变体,为新颖状态分配高探索奖励。笼子生成器通过重构目标进行训练:给定一个(状态、动作、下一状态)元组序列,它必须预测下一状态。这迫使模型学习环境的潜在规则。一个关键创新是在训练期间使用“笼子丢弃”——随机遮蔽推断出的笼子的部分,迫使智能体依赖鲁棒、可泛化的模式,而不是记忆虚假的相关性。

基准性能: 我们在三个标准智能体基准上评估了自建方法与手工打造笼子的对比:

| 基准 | 手工打造笼子(成功率) | 自建笼子(成功率) | 部署时间(手工) | 部署时间(自建) |
|---|---|---|---|---|
| WebShop(电商) | 78.3% | 76.1% | 4.2小时 | 12.3分钟 |
| ALFWorld(家务任务) | 81.5% | 79.8% | 6.8小时 | 18.7分钟 |
| MiniWoB++(网页导航) | 85.2% | 83.9% | 3.1小时 | 9.5分钟 |

数据要点: 自建方法实现了可比的成功率(相差2-3%),同时将部署时间减少了95%以上。代价是由于探索开销导致的轻微性能下降,但随着探索算法的改进,这一差距正在迅速缩小。

开源生态系统: `agent-cage`仓库(2.3k星)提供了一个参考实现。它包括针对Web、桌面GUI和终端环境的预训练探索策略。配套的`cage-optimizer`库(850星)实现了对笼子架构的进化搜索,允许智能体在无需人工干预的情况下发现最优交互语法。

关键参与者与案例研究

多个组织正竞相将自建工作流产品化,各有独特方法:

Adept AI(由前Google Brain研究员创立)对“笼子问题”的讨论最为直言不讳。其内部系统ACT-2使用基于扩散的探索模块,生成候选交互序列,然后通过一个学习到的奖励模型选择最连贯的序列。Adept已展示ACT-2在无需任何预配置工作流的情况下导航Salesforce、SAP和ServiceNow。他们在企业CRM任务上的报告成功率为72%(经过15分钟自探索),而手工打造的笼子(耗时40小时构建)成功率为89%。考虑到前期成本的急剧降低,这一权衡对许多用例来说是可接受的。

Cognition Labs(Devin的创造者)采取了不同的策略。他们不是从头探索环境,而是利用一个“笼子模板”库——针对常见环境(如GitHub、Jira、Slack)的可复用交互模式。当遇到新代码库时,Devin的探索模块首先尝试通过结构相似性(比较AST模式、API端点等)将其匹配到已知模板。如果找不到匹配,则回退到全面探索。这种混合方法在代码库导航任务上实现了90%的成功率,平均探索时间为8分钟。

微软研究院发布了“AutoCage”,一个使用大型语言模型(LLM)的系统

更多来自 arXiv cs.AI

从碎片痕迹到结构化技能:智能体学习的范式革命规模化AI智能体的核心挑战,一直是从原始执行日志中手动构建可复用技能的劳动密集型过程。传统方法将痕迹视为平面文本,丢失了关键的决策逻辑和步骤依赖。一项研究突破提出了四维分解框架——路由(决策路径)、工作流(步骤序列)、语义(上下文含义)和附中医AI诊断:知识图谱与多轮对话如何打破“黑箱”困局大语言模型(LLM)与知识图谱的整合,催生了一套最终打破“黑箱”模式的中医诊断系统。该系统的核心知识图谱包含241种证候、1263种症状以及2485条关系,实际上构成了一部可验证的临床百科全书。AI不再输出静态结论,而是与患者进行多轮对话,AdMem:让AI智能体从失败中学习的记忆革命多年来,大语言模型(LLM)智能体的致命弱点一直是它们在处理长周期、复杂任务时无法有效管理记忆。现有方法要么将事实数据存储在静态向量数据库中,要么仅重放成功的轨迹,使智能体对失败中蕴含的丰富教训视而不见。AdMem,这一全新的统一记忆系统,查看来源专题页arXiv cs.AI 已收录 430 篇文章

相关专题

AI agents815 篇相关文章

时间归档

April 20263042 篇已发布文章

延伸阅读

两大AI智能体自动化数据清洗与论文撰写,重塑科研范式两款全新AI智能体框架——DeepTS/DeepCollector与DeepScribe——正将科研中最繁琐的数据清洗与论文初稿撰写工作自动化。基于模块化的“本地躯体+远程大脑”架构,它们承诺将研究人员解放出来,专注于更高层次的战略思考。责任悖论:模块化AI代理需要集成式问责体系一项新理论框架揭示了AI代理生态系统中的根本矛盾:虽然智能编排器能够模块化技术接口,但需要证据、审查和批准的输出必须保持集成的问责边界。这一悖论将重塑企业部署策略,并催生全新的“问责中间件”品类。GraphRAG赋予AI代理情境伦理:从僵化规则到动态价值对齐一项基于GraphRAG的新框架,让AI代理实现动态价值对齐,突破静态规则限制,具备情境敏感的伦理推理能力。这一突破有望在医疗、谈判等高风险领域,真正解决AI的道德困境。AI Agent 自动化ESG合规:欧洲中小企业的务实革命一套基于n8n自动化平台与专家验证的Eurobarometer数据构建的新型AI Agent框架,正以超80%的成本削减和可扩展的绿色信贷评估能力,挑战当前大模型军备竞赛的主流叙事。它让欧洲中小企业从高昂的ESG合规负担中解脱,开启了一场“

常见问题

这篇关于“The Last Cage You'll Build: How AI Agents Are Learning to Build Their Own Workflows”的文章讲了什么?

The deployment of AI agents has been trapped in a paradox: the more capable the model, the more cumbersome the custom 'cage' required for each new domain. Whether operating complex…

从“How do self-building AI agents handle security and compliance in enterprise environments?”看,这件事为什么值得关注?

The core insight behind self-building workflows is a shift from static to dynamic interaction modeling. Traditional agent deployment relies on a handcrafted 'cage'—a set of predefined action spaces, state representations…

如果想继续追踪“Comparison of Adept ACT-2 vs Cognition Devin for self-building workflows”,应该重点看什么?

可以继续查看本文整理的原文链接、相关文章和 AI 分析部分,快速了解事件背景、影响与后续进展。