技术分析
核心技术挑战在于架构。现代AI智能体建立在ReAct(推理+行动)或类似范式之上,其中LLM充当中央规划器。对于“预订500美元以下的航班和酒店”这样的任务,智能体可能先推理步骤,然后调用搜索工具、分析结果、再次推理、调用预订API等等。每一个这样的“回合”都是一次独立的LLM推理调用。一个复杂任务很容易涉及50-100次此类调用。虽然每次调用可能只需几分之一美分,但单个用户会话的总成本可能迅速达到数美元——这对大众市场应用而言是不可行的。
智能体需要保持上下文这一点加剧了问题。长上下文窗口虽然强大,但处理成本更高。此外,智能体在采取行动前,内部通常采用思维链或思维树推理,增加了更多“隐性”计算。行业的回应是一场多管齐下的效率提升行动。关键策略包括:
* 模型级联与路由: 实施决策层,动态地将子任务路由到能够处理它们的最小、最便宜的模型(例如,用70亿参数模型进行简单解析,用700亿+参数模型处理复杂策略)。
* 状态化执行与缓存: 开发能够持久化中间结果和智能体“记忆”的框架,以避免跨会话重复计算相同的推理步骤。
* 优化编排: 构建更轻量级的编排引擎,以最小化步骤间的开销和冗余提示工程。
* 推测性规划: 让智能体在单次批量推理调用中生成并验证多个潜在行动路径,而非顺序执行。
行业影响
成本危机正对AI智能体领域进行残酷的筛选。它正在资金雄厚、能够承受高额原型开发成本的实体与利润微薄、勉强运营的初创公司之间划出清晰界限。风险投资正更加审慎地审视单位经济效益,将焦点从炫目的演示转向可行的单任务成本指标。
这加速了行业围绕少数能够为智能体提供优化运行时环境的核心基础设施提供商进行整合。它也利好那些拥有专有高效推理硬件或定制优化模型的公司。应用层正在重塑,开发者被迫为高流量任务设计“浅层”智能体,而将“深度”智能体工作流保留给成本合理的高价值、低频次用例。
此外,这场危机正在扼杀开源创新。尽管开源模型能力越来越强,但大规模构建和运行复杂的智能体系统需要大量工程资源来管理成本复杂性,而许多开源社区缺乏这些资源。
未来展望
前进的道路由追求“智能体效率”所定义,这将成为一个同样重要的衡量标准。