谷歌搜索的静默革命:从信息检索到自主AI代理

Hacker News May 2026
来源:Hacker NewsAI agentlarge language model归档:May 2026
谷歌搜索正经历一场静默革命,从传统的链接聚合器进化为能够执行多步骤任务的自主AI代理。这一范式转变,由大型语言模型、实时网页抓取和持久用户上下文的深度融合驱动,有望彻底改变我们与网络的交互方式。

谷歌搜索正在悄然但根本性地重构自身。核心变化是从一个检索信息的系统转变为一个执行行动的系统。这并非简单的功能添加,而是大型语言模型(LLM)与实时网页抓取、API调用和持久用户记忆的深度融合。其结果是一个能够代表用户进行推理、规划和执行多步骤任务的自主代理。例如,对于“预订飞往东京的航班”这一查询,新系统不再返回链接,而是可以检查用户的日历、查询航班价格,并在搜索界面内完成预订。这模糊了搜索引擎与个人助理之间的界限。其商业模式影响深远:传统的按点击付费广告模式正面临威胁。

技术深度解析

从信息检索到自主代理的转变,需要根本性的架构革新。谷歌的方法虽未完全公开,但可以从其产品发布(如Gemini、Project Mariner、AI Overviews)和研究论文(如PaLM、Gemini 1.5以及“Toolformer”概念)中逆向推导出来。

其核心,新系统是一个构建在循环之上的复合AI系统规划 → 检索 → 推理 → 行动 → 观察 → 重新规划。这与传统的“检索与排序”流水线截然不同。

1. 编排器(LLM核心):
一个强大的LLM(很可能是Gemini的变体)充当中央“大脑”。它接收用户的自然语言查询,解读意图,并将其分解为一系列子任务。对于“预订飞往东京的航班”,子任务可能包括:
- 检查用户日历以确定可用时间。
- 查询航班API以获取可用日期的价格。
- 检索用户保存的偏好(例如,首选航空公司、座位类型)。
- 呈现摘要并执行预订。

2. 工具调用与API集成:
这是关键赋能因素。LLM不仅生成文本,还通过API调用外部工具。谷歌构建了一个庞大的内部API生态系统。对于搜索,这些工具包括:
- 实时网页抓取器:一种专用工具,用于从已索引页面获取实时数据,而不仅仅是缓存索引。这对于航班价格或库存可用性等动态数据至关重要。
- 知识图谱API:用于获取关于实体(人物、地点、事物)的结构化数据。
- 用户上下文API:一个持久记忆层,存储用户偏好、过往搜索、日历事件,甚至购物历史。这是代理的“记忆”。
- 第三方合作伙伴API:谷歌正积极与航空公司、酒店和电商平台等服务商合作,允许通过搜索直接预订。这是“行动”层。

3. “ReAct”模式(推理+行动):
谷歌的系统很可能采用了由普林斯顿大学和谷歌研究人员推广的ReAct(推理+行动)模式的变体。在此模式中,模型将推理轨迹(“我需要先检查用户的日历”)与行动(调用日历API)交织在一起。这使得模型能够根据新信息动态调整其计划。例如,如果日历显示有冲突,代理可以在无需人工干预的情况下重新查询不同日期。

4. 接地与验证:
最大的技术挑战是幻觉。一个基于虚假信息行动的代理是危险的。谷歌通过接地来解决这一问题——代理的行动必须与可验证的数据源绑定。例如,在预订航班前,系统必须将来自航空公司API的价格与存储在记忆中的用户预算偏好进行交叉核对。它还可能使用一个独立的“验证器”模型,在执行任何不可逆行动之前检查主模型的输出。

相关的开源仓库:
- LangChain / LangGraph:虽然并非谷歌的内部技术栈,但它们是构建代理系统最流行的开源框架。特别是LangGraph,允许构建复杂的有状态代理循环。它在GitHub上拥有超过10万颗星,是原型设计代理架构的事实标准。
- AutoGPT / BabyAGI:这些早期先驱展示了自主代理的概念,尽管它们可靠性较低。它们充当了“规划-执行”循环的概念验证。
- 谷歌自己的“Toolformer”(研究论文):这篇来自Google Research的论文展示了LLM如何学习使用API。这是一项基础性研究,直接影响了当前的产品。

性能基准测试:
衡量代理的性能不同于传统的LLM。关键指标是任务成功率步骤数错误率。虽然谷歌未公布这些数据,但我们可以从相关基准测试中推断。

| 基准测试 | 描述 | 典型LLM(GPT-4)得分 | 预估谷歌代理得分 |
|---|---|---|---|
| WebArena | 自主网页导航任务(例如,预订、购物) | 约30-40%成功率 | 约50-60%(内部,预估) |
| SWE-bench | 软件工程任务(代码生成+测试) | 约30% | 约45%(Gemini 1.5 Pro) |
| ToolBench | API调用准确性 | 约75% | 约85%(预估) |

数据要点: 在WebArena上从约30-40%跃升至约50-60%意义重大。这表明谷歌的系统不仅是一个更好的LLM,而且是一个从根本上更稳健的代理架构。然而,在复杂任务上40%的失败率意味着该技术在高风险领域仍不具备完全自主的能力。

关键参与者与案例研究

1. 谷歌(Alphabet): 主要参与者。其策略是将代理嵌入现有的搜索垄断中。关键产品:
- Project Mariner: 一个实验性的Chrome扩展,可以代表你浏览网站。这是对

更多来自 Hacker News

LoongForge开源:百度的大胆棋局,让多模态AI训练走向普惠当整个AI行业的目光都聚焦在推理成本上时,百度百舸团队悄然祭出了一件战略武器:LoongForge,一个开源的高性能训练框架。与那些需要为LLM、VLM和视频生成分别搭建独立管线的碎片化方案不同,LoongForge提供了一套统一的架构。其从黑箱到导演:86个MCP工具如何将AI视频变成可编程的创作代理在一场重新定义AI视频生成器能力的演示中,一位开发者将86个MCP(模型上下文协议)工具集成到视频生成系统中,使Claude Code能够充当虚拟电影导演。这一设置将传统上“提示词到视频”的单一流程拆解为模块化流水线:Claude CodeKiroGraph:轻量级知识图谱,将AI代码理解成本砍至零头AINews独家发现KiroGraph——一款从代码库构建本地轻量级知识图谱的工具,可映射函数、类、模块及其依赖关系(调用、继承、导入)。通过将代码预处理为结构化形式,KiroGraph让AI助手无需逐行读取原始源文件即可掌握项目架构与语义查看来源专题页Hacker News 已收录 3746 篇文章

相关专题

AI agent137 篇相关文章large language model53 篇相关文章

时间归档

May 20262342 篇已发布文章

延伸阅读

从零构建AI Agent:每位开发者必须掌握的新版“Hello World”越来越多的开发者正在抛弃预封装框架,从零开始构建AI Agent。这一趋势标志着行业正从消费大语言模型转向设计自主系统,Agent架构设计已成为AI工程领域的新“Hello World”。AI Agent 热潮过热:脆弱的技术根基恐引发崩盘AI Agent 市场正被自主生产力的承诺炒得沸沸扬扬,但 AINews 发现其技术基础却异常薄弱。从不可靠的多步推理到形同虚设的长期记忆,演示与部署之间的鸿沟深不见底。本文将探讨为何整个行业即将面临现实检验,以及哪些问题亟待解决。AI智能体走向物理世界:三千通健力士询价电话如何重塑市场情报近日,一个自主AI智能体通过致电爱尔兰三千余家酒吧,完成了对一品脱健力士啤酒价格的全国性调查。这远非一次猎奇实验,而是目标导向型AI智能体在物理世界中持续运行的重大概念验证。其意义已延伸至自动化、超大规模市场情报与供应链监控的新纪元。WebMCP改写规则:一行JavaScript让任何网站秒变AI智能体接口WebMCP,一个全新的开源框架,允许开发者仅用一行JavaScript代码,将任何网站转化为AI智能体原生接口。通过将DOM元素映射为语义化操作,它使大语言模型能够浏览网页、填写表单并执行任务,无需后端改动或专用API。

常见问题

这次模型发布“Google Search's Silent Revolution: From Information Retrieval to Autonomous AI Agents”的核心内容是什么?

Google Search is quietly but fundamentally rearchitecting itself. The core change is the shift from a system that retrieves information to one that performs actions. This is not a…

从“how google search ai agent works”看,这个模型发布为什么重要?

The transition from information retrieval to autonomous agency requires a fundamental architectural overhaul. Google's approach, while not fully public, can be reverse-engineered from its product releases (e.g., Gemini…

围绕“google project mariner vs perplexity”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。