从零构建AI Agent:为何长程规划才是真正的试金石

Hacker News June 2026
来源:Hacker NewsAI agentsautonomous systems归档:June 2026
AI Agent领域充斥着令人印象深刻的演示,但一个关键真相被忽视了:大多数Agent在需要执行持续、多步骤任务时都会失败。我们的编辑团队发现,单轮交互已足够流畅,但一旦Agent必须规划跨越数分钟或数小时的行动序列,裂痕便显现出来。核心瓶颈在于长程规划。

自主AI Agent的承诺已令整个行业为之着迷,但从炫目演示到可靠部署的道路,铺满了艰难且不讨喜的工程挑战。AINews的分析揭示,玩具级Agent与生产就绪系统之间最大的分水岭,在于其处理长程规划的能力——即将高层目标分解为连贯的子任务序列、跨步骤管理上下文、并在子任务失败时优雅恢复的能力。这不是仅靠扩大模型参数就能解决的问题。它需要从无状态LLM调用到有状态Agent循环的根本性转变,融入持久记忆、动态重规划和稳健的错误处理。行业正从关注模型规模转向关注系统设计。

技术深度解析

用于长程规划的AI Agent基本架构可分解为三个相互连接的循环:感知循环、规划循环和执行循环。感知循环摄取新信息(用户输入、环境状态、工具输出)。规划循环使用大语言模型(LLM)生成一系列动作。执行循环执行这些动作,通常借助外部工具或API。

大多数Agent的关键失败点在于规划循环。一种天真的实现方式是直接让LLM输出步骤列表,然后顺序执行。这种方式之所以失败,原因如下:
1. 任务分解脆弱: 将高层目标(例如“研究竞争对手定价并起草报告”)分解为子任务(例如“搜索竞争对手A的定价”、“搜索竞争对手B的定价”、“汇总发现”)的过程对提示措辞和模型状态高度敏感。轻微的歧义就可能导致不相关或循环的计划。
2. 上下文窗口成为瓶颈: 随着Agent执行步骤,动作、观察结果和中间结果的历史记录不断增长。这很快就会超出即使最先进模型(例如GPT-4的128k token)的上下文窗口。Agent随后会“忘记”原始目标或早期发现,导致行为不连贯。
3. 错误恢复绝非易事: 当子任务失败时(例如API调用返回错误、网络搜索无结果),Agent必须决定是重试、重规划还是中止。简单的重试逻辑可能导致无限循环。动态重规划要求Agent理解失败的上下文并相应调整剩余计划——这是当前LLM表现不佳的能力。

架构方法:
行业正趋同于几个关键架构模式:
- ReAct(推理+行动): Agent将推理步骤(“思考”)与行动(“行动”)交错进行。这是许多开源Agent的基础。开源项目LangGraph(GitHub上超过15,000颗星)提供了一个使用此模式构建有状态、循环Agent的框架。它允许开发者定义节点(推理、行动)和边(条件转换)来创建复杂工作流。
- 规划与求解(Plan-and-Solve, PS): Agent首先生成一个完整计划,然后逐步执行,每一步后可能进行重规划。对于需要全局视野的任务,这比ReAct更稳健。CrewAI框架(超过25,000颗星)通过允许开发者定义具有特定角色(例如研究员、写手)的Agent“团队”来协作执行共享计划,从而推广了这种方法。
- 思维树(Tree-of-Thoughts, ToT): Agent同时探索多条推理路径,评估其进展并剪除死胡同。这种方法计算成本高昂,但能解决复杂的规划问题。AutoGPT项目(超过160,000颗星)是早期先驱,尽管其实际可靠性仍然有限。

基准测试表现:
标准基准测试揭示了差距。下表比较了在GAIA基准测试上的表现,该测试考察多步骤推理与工具使用:

| 模型/Agent | GAIA验证得分 | 平均完成步骤数 | 错误恢复率 |
|---|---|---|---|
| GPT-4o (ReAct) | 48.2% | 7.3 | 32% |
| Claude 3.5 Sonnet (Plan-and-Solve) | 52.1% | 5.8 | 41% |
| 自定义Agent (LangGraph + GPT-4o) | 61.5% | 6.1 | 58% |
| Gemini 1.5 Pro (Tree-of-Thoughts) | 55.0% | 9.2 | 45% |

数据要点: 使用LangGraph并配备显式状态管理和条件重规划的自定义Agent,显著优于基线ReAct和Plan-and-Solve实现。关键区别不在于基础模型,而在于编排架构。错误恢复率是整体成功的最强预测指标。

内存管理:
持久化内存是长程规划中无名英雄。最有效的方法采用混合内存系统:
- 情景记忆: 向量数据库(例如Chroma、Pinecone)存储过去的观察和动作,允许Agent通过语义搜索检索相关上下文。
- 语义记忆: 结构化知识图谱(例如Neo4j)存储执行过程中提取的事实和关系。
- 工作记忆: 短期缓冲区(例如Redis缓存)保存当前计划和最近动作。

开源项目MemGPT(现名Letta,超过12,000颗星)通过为LLM提供“虚拟上下文管理系统”开创了这种方法,该系统自动归档和检索信息,有效创建了无限上下文窗口。

关键参与者与案例研究

构建可靠长程Agent的竞赛吸引了从基础模型提供商到专业初创公司的各类参与者。

基础模型提供商:
- OpenAI: 其内部编排层,用于Code Interpreter和Assistant等工具

更多来自 Hacker News

MiMo-v2.5 打破速度极限:万亿参数模型实现每秒 1000 Token 推理MiMo-v2.5-Pro-UltraSpeed 在万亿参数模型上实现了每秒 1000 Token 的推理速度,这一成就直接挑战了“模型越大越慢”的传统观念。这项突破并非微小的优化,而是对注意力机制和硬件感知算子设计的根本性重构。其结果是,AI CostGuard:开源安全层,终结AI代理失控消费的“隐形炸弹”AINews独家披露了AI CostGuard——一个开源项目,它开创性地构建了本地优先的运行时安全层,专门用于拦截AI代理的失控行为和意外API调用。该工具在代理执行任何操作前进行实时的成本与安全评估,有效防止预算爆炸。这一创新标志着AI2026年LLM研究:效率革命与世界模型崛起AINews对2026年1月至5月LLM研究的全面回顾揭示了一个正在经历根本性变革的领域。以更大模型和更多数据为主要驱动力的蛮力扩展时代,正让位于一场效率革命。最显著的技术信号是稀疏混合专家(MoE)架构的广泛采用——它在仅使用一小部分计算查看来源专题页Hacker News 已收录 4345 篇文章

相关专题

AI agents818 篇相关文章autonomous systems117 篇相关文章

时间归档

June 2026696 篇已发布文章

延伸阅读

外部化革命:AI智能体如何超越单体模型范式全知全能式单体AI智能体的时代正在落幕。一种新的架构范式正在崛起:智能体扮演战略指挥家的角色,将专业任务委派给外部工具与系统。这场“外部化”变革有望带来更可靠、可扩展且经济高效的自动化,推动AI从脆弱的演示品蜕变为真正可部署的稳健解决方案。AI解构时代:从单体巨模到智能体生态人工智能产业正经历一场根本性转向:行业焦点已从竞逐更大规模的模型参数,转向构建由专业化、可互操作的智能体组成的生态系统。这场从“单体智能”到“解构式模块系统”的变革,标志着AI正从炫目的演示阶段,迈入深度融入商业与物理世界的可靠、可扩展自动从演示到部署:构建生产级AI智能体的工程现实AI行业正经历关键转折:从炫目的对话演示转向构建可靠、经济高效自主智能体的硬核工程实践。PostHog近期公开的智能体构建历程,揭示了行业核心挑战——真正的难题并非智能本身,而是构建坚韧的‘操作神经系统’。AI Agent告别完美提示词,拥抱敏捷开发:新范式崛起精心打磨“完美提示词”的时代已经终结。随着AI Agent从简单的聊天机器人进化为自主任务执行者,业界正全面拥抱敏捷开发原则——迭代测试、模块化设计与持续反馈——以构建真正自适应且可靠的智能系统。

常见问题

这次模型发布“Building AI Agents From Scratch: Why Long-Horizon Planning Is the True Test”的核心内容是什么?

The promise of autonomous AI agents has captivated the industry, but the path from flashy demo to reliable deployment is paved with hard, unglamorous engineering challenges. AINews…

从“how to build an AI agent with long-horizon planning”看,这个模型发布为什么重要?

The fundamental architecture of an AI agent for long-horizon planning can be broken down into three interconnected loops: the perception loop, the planning loop, and the execution loop. The perception loop ingests new in…

围绕“best open source framework for AI agent task decomposition”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。