技术深度解析
从信息检索到自主代理的转变,需要根本性的架构革新。谷歌的方法虽未完全公开,但可以从其产品发布(如Gemini、Project Mariner、AI Overviews)和研究论文(如PaLM、Gemini 1.5以及“Toolformer”概念)中逆向推导出来。
其核心,新系统是一个构建在循环之上的复合AI系统:规划 → 检索 → 推理 → 行动 → 观察 → 重新规划。这与传统的“检索与排序”流水线截然不同。
1. 编排器(LLM核心):
一个强大的LLM(很可能是Gemini的变体)充当中央“大脑”。它接收用户的自然语言查询,解读意图,并将其分解为一系列子任务。对于“预订飞往东京的航班”,子任务可能包括:
- 检查用户日历以确定可用时间。
- 查询航班API以获取可用日期的价格。
- 检索用户保存的偏好(例如,首选航空公司、座位类型)。
- 呈现摘要并执行预订。
2. 工具调用与API集成:
这是关键赋能因素。LLM不仅生成文本,还通过API调用外部工具。谷歌构建了一个庞大的内部API生态系统。对于搜索,这些工具包括:
- 实时网页抓取器:一种专用工具,用于从已索引页面获取实时数据,而不仅仅是缓存索引。这对于航班价格或库存可用性等动态数据至关重要。
- 知识图谱API:用于获取关于实体(人物、地点、事物)的结构化数据。
- 用户上下文API:一个持久记忆层,存储用户偏好、过往搜索、日历事件,甚至购物历史。这是代理的“记忆”。
- 第三方合作伙伴API:谷歌正积极与航空公司、酒店和电商平台等服务商合作,允许通过搜索直接预订。这是“行动”层。
3. “ReAct”模式(推理+行动):
谷歌的系统很可能采用了由普林斯顿大学和谷歌研究人员推广的ReAct(推理+行动)模式的变体。在此模式中,模型将推理轨迹(“我需要先检查用户的日历”)与行动(调用日历API)交织在一起。这使得模型能够根据新信息动态调整其计划。例如,如果日历显示有冲突,代理可以在无需人工干预的情况下重新查询不同日期。
4. 接地与验证:
最大的技术挑战是幻觉。一个基于虚假信息行动的代理是危险的。谷歌通过接地来解决这一问题——代理的行动必须与可验证的数据源绑定。例如,在预订航班前,系统必须将来自航空公司API的价格与存储在记忆中的用户预算偏好进行交叉核对。它还可能使用一个独立的“验证器”模型,在执行任何不可逆行动之前检查主模型的输出。
相关的开源仓库:
- LangChain / LangGraph:虽然并非谷歌的内部技术栈,但它们是构建代理系统最流行的开源框架。特别是LangGraph,允许构建复杂的有状态代理循环。它在GitHub上拥有超过10万颗星,是原型设计代理架构的事实标准。
- AutoGPT / BabyAGI:这些早期先驱展示了自主代理的概念,尽管它们可靠性较低。它们充当了“规划-执行”循环的概念验证。
- 谷歌自己的“Toolformer”(研究论文):这篇来自Google Research的论文展示了LLM如何学习使用API。这是一项基础性研究,直接影响了当前的产品。
性能基准测试:
衡量代理的性能不同于传统的LLM。关键指标是任务成功率、步骤数和错误率。虽然谷歌未公布这些数据,但我们可以从相关基准测试中推断。
| 基准测试 | 描述 | 典型LLM(GPT-4)得分 | 预估谷歌代理得分 |
|---|---|---|---|
| WebArena | 自主网页导航任务(例如,预订、购物) | 约30-40%成功率 | 约50-60%(内部,预估) |
| SWE-bench | 软件工程任务(代码生成+测试) | 约30% | 约45%(Gemini 1.5 Pro) |
| ToolBench | API调用准确性 | 约75% | 约85%(预估) |
数据要点: 在WebArena上从约30-40%跃升至约50-60%意义重大。这表明谷歌的系统不仅是一个更好的LLM,而且是一个从根本上更稳健的代理架构。然而,在复杂任务上40%的失败率意味着该技术在高风险领域仍不具备完全自主的能力。
关键参与者与案例研究
1. 谷歌(Alphabet): 主要参与者。其策略是将代理嵌入现有的搜索垄断中。关键产品:
- Project Mariner: 一个实验性的Chrome扩展,可以代表你浏览网站。这是对