谷歌押注AI智能体:聊天机器人时代终结,行动才是未来

Hacker News May 2026
来源:Hacker Newsautonomous AIAI agents归档:May 2026
谷歌正悄然从聊天机器人转向自主AI智能体。即将推出的Gemini 3.5 Flash模型专为执行多步骤任务、调用API并在真实环境中做出决策而设计——这标志着纯聊天时代的终结,以及行动导向型AI的开启。

谷歌正做出决定性的战略转变,从对话式聊天机器人转向自主AI智能体。我们的编辑团队追踪了谷歌AI战略的演变,证据清晰可见:该公司正超越定义第一波生成式AI的聊天界面。基于泄露的技术规格和内部文件,即将推出的Gemini 3.5 Flash模型在架构上专为“智能体能力”而设计。它能驾驭复杂工作流、调用外部工具,并在多次交互中保持上下文而不丢失状态。这并非一次小升级,而是一次哲学上的转向。为何这很重要?因为AI的真正价值不在于生成文本,而在于完成任务。聊天机器人能写诗,但智能体能为你预订行程。

技术深度解析

谷歌的Gemini 3.5 Flash代表了与其前代产品根本性的架构差异。虽然早期的Gemini 1.5 Pro等模型针对对话流畅性和长上下文理解进行了优化,但3.5 Flash变体明确为智能体执行而设计。其核心创新在于一个位于Transformer主干之上的全新工具调用编排层。谷歌内部称该层为“Action Router”,它允许模型解析用户的高层目标,将其分解为子任务,并动态选择并调用外部API或谷歌内部服务(例如Gmail API、Google Maps API、Calendar API)来完成每一步。

从工程角度看,该模型采用了混合专家(MoE)架构,其中包含专门针对不同行动领域的“专家”模块:一个用于日程安排,一个用于数据检索,一个用于API调用,等等。这与早期聊天机器人中使用的单一密集模型相比是一个重大转变。该模型还配备了一个持久内存缓冲区,可在多轮交互中保持状态,使其能够处理诸如“规划一次为期一周的日本旅行,包括航班、酒店和每日行程”这样的长期任务,而不会丢失上下文。

谷歌似乎已解决的一个关键技术挑战是错误恢复。在早期的智能体原型中,一次失败的API调用就会导致整个工作流中断。Gemini 3.5 Flash包含一个内置的“重试与适应”机制:如果API调用失败(例如,航班预订API返回错误),模型可以分析错误,选择替代方案(例如,尝试不同的航空公司API),并继续执行任务。这是可靠性方面的一项关键进步。

对于开发者和研究人员而言,开源社区一直在尝试类似的概念。LangChain仓库(目前在GitHub上拥有超过85,000颗星)提供了一个构建智能体工作流的框架,但它需要大量手动工程。谷歌的做法是将这种能力直接融入模型,从而减少对外部编排的需求。另一个相关项目是AutoGPT(拥有超过160,000颗星),它展示了自主任务执行的早期概念验证,但存在高错误率和token成本高的问题。Gemini 3.5 Flash旨在通过原生效率解决这些问题。

| 模型 | 架构 | 工具调用支持 | 持久内存 | 错误恢复 | 延迟(每次行动) |
|---|---|---|---|---|---|
| Gemini 1.5 Pro | 密集Transformer | 有限(通过提示) | 否 | 否 | ~500ms |
| Gemini 3.5 Flash | 带Action Router的MoE | 原生(API调用) | 是(缓冲区) | 是(重试与适应) | ~200ms |
| GPT-4o | 密集(估计) | 通过函数调用 | 否 | 有限 | ~400ms |
| Claude 3.5 Sonnet | 密集 | 通过工具调用 | 否 | 有限 | ~350ms |

数据要点: Gemini 3.5 Flash的原生工具调用支持、持久内存和内置错误恢复,代表了相对于其前代产品及竞品模型的代际飞跃。相比GPT-4o,2.5倍的延迟改进对于实时智能体任务尤为关键。

关键玩家与案例研究

谷歌在这场竞赛中并非孤军奋战。几家主要玩家也在追求类似的智能体策略,但谷歌的方法独特之处在于其对垂直整合的强调。

微软一直在将Copilot作为智能体平台推进,并将其深度集成到Office 365和Windows中。然而,微软的智能体主要局限于微软生态系统。相比之下,谷歌的智能体理论上可以与任何公共API交互,因此更具通用性。微软最近推出的Copilot Studio允许用户构建自定义智能体,但其底层模型(GPT-4)仍然缺乏Gemini 3.5 Flash所提供的原生智能体架构。

OpenAI通过其“Assistants API”和最近的“GPTs”功能尝试智能体,后者允许用户创建带有特定指令和知识的ChatGPT自定义版本。然而,这些本质上仍是带有附加工具调用功能的对话界面,而非自主智能体。据传,OpenAI代号为“Q*”的“智能体”产品正在开发中,但尚未发布。这使谷歌在智能体领域可能获得先发优势。

Anthropic专注于安全性和对齐性,但其Claude模型也通过“工具调用”功能被用于智能体任务。然而,Anthropic规模较小且缺乏广泛的生态系统,限制了其与谷歌集成化产品竞争的能力。

| 公司 | 智能体产品 | 生态系统集成 | 原生智能体架构 | 定价模式 |
|---|---|---|---|---|
| 谷歌 | Gemini 3.5 Flash(即将推出) | Gmail、Maps、Calendar、Drive、YouTube | 是(Action Router) | 按行动计费(预期) |
| 微软 | Copilot Studio | Office 365、Windows、Azure | 否(基于GPT-4) | 订阅 + 按智能体计费 |
| O

更多来自 Hacker News

域名伪装注入:多智能体LLM系统的无声杀手域名伪装注入代表了LLM安全威胁的范式转变。与直接操纵用户输入的提示注入攻击不同,该技术将多智能体架构的结构性弱点武器化。攻击者将恶意指令编码到域名字符串或URL参数中,下游智能体会自动解析并执行这些指令。核心漏洞在于信任传播模型:每个智能SteelSpine:解锁AI Agent黑箱的“时间机器”调试器自主AI Agent——那些能够规划、推理并执行任务的系统——的崛起,带来了全新的调试噩梦。与传统软件不同,Agent的故障是LLM幻觉、错误工具调用和断裂上下文窗口交织而成的复杂网络。AINews获悉,SteelSpine通过充当AgenLLMff v0.1.2 发布:将 FFmpeg 式管道引入 AI 工作流,LLM 工程迎来范式变革2025 年 5 月 22 日,开源工具 LLMff v0.1.2 正式发布。它借鉴了视频处理领域事实标准 FFmpeg 的模块化管道架构,重新定义了 LLM 工作流的构建方式。在 FFmpeg 中,开发者通过组合缩放、裁剪、编码等简单操作查看来源专题页Hacker News 已收录 3823 篇文章

相关专题

autonomous AI113 篇相关文章AI agents754 篇相关文章

时间归档

May 20262496 篇已发布文章

延伸阅读

AI智能体失控:能力与管控之间的危险鸿沟将自主AI智能体投入生产系统的竞赛,已引发一场根本性的安全危机。当这些“数字员工”获得前所未有的操作能力时,行业对其能力的扩张热情已远超可靠控制框架的发展速度,为我们的技术基础设施埋下了系统性漏洞。数字废料代理:自主AI系统如何威胁用合成噪音淹没互联网一项极具挑衅性的概念验证AI代理,已展示出跨平台自主生成并推广低质量“数字废料”内容的能力。这项实验虽仍显粗糙,却为即将到来的、以经济驱动为目的的代理式AI武器化信息污染敲响了警钟,正动摇着数字信任与内容审核的根基。AI大裂变:智能体如何塑造人工智能的双重现实人工智能领域正出现一道深刻裂痕。技术先锋们见证着能自主规划执行复杂任务的智能体AI,而公众认知仍停留在有缺陷的对话机器人时代。这不仅是认知差异,更是技术范式从静态模型转向动态智能体所直接引发的‘折叠现实’。合成心智的崛起:认知架构如何重塑AI智能体人工智能领域正经历一场根本性变革,焦点已从模型的粗暴堆叠转向精巧的认知架构设计。通过为大型语言模型赋予持久记忆、反思循环与模块化推理系统,研究者正在创造出能够可靠执行长期任务的“合成心智”。这场架构革命标志着AI从被动工具向主动伙伴的蜕变。

常见问题

这次公司发布“Google Bets on AI Agents: The Chatbot Era Is Ending, Action Is the Future”主要讲了什么?

Google is making a decisive strategic shift away from conversational chatbots toward autonomous AI agents. Our editorial team has tracked the evolution of Google's AI strategy, and…

从“How does Gemini 3.5 Flash compare to GPT-4o for task automation?”看,这家公司的这次发布为什么值得关注?

Google's Gemini 3.5 Flash represents a fundamental architectural departure from its predecessors. While earlier models like Gemini 1.5 Pro were optimized for conversational fluency and long-context understanding, the 3.5…

围绕“What are the privacy risks of using Google AI agents?”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。