Gemini 3.5 重新定义AI:从思考模型到自主行动

Hacker News May 2026
来源:Hacker NewsAI agentsautonomous AI归档:May 2026
谷歌Gemini 3.5并非一次简单的语言模型升级——它是一次根本性的架构重构,将工具调用、代码执行和多步骤规划直接嵌入推理核心。这标志着AI从被动聊天机器人进化为能够预订航班、编辑文档、部署服务器的自主智能体,宣告了“智能体时代”的黎明。

2025年5月19日,谷歌发布了Gemini 3.5,一个重新定义AI能力的模型。与以往擅长生成文本或代码片段、但需要人类执行输出的模型不同,Gemini 3.5将“行动”视为原生能力。在推理过程中,它可以调用外部API、在沙盒环境中执行Python脚本,并根据这些行动的实时反馈动态调整计划。这形成了一个从理解意图到完成任务的全闭环。该模型的架构将“工具使用层”直接集成到Transformer的注意力机制中,使其能够推理调用哪个工具、何时调用以及如何解释结果。早期基准测试显示,Gemini 3.5在新推出的“AgentBench”测试套件中达到了92%的成功率。

技术深度解析

Gemini 3.5的架构代表了与标准仅解码器Transformer的根本性背离。其核心创新在于行动感知注意力机制,该机制将传统文本令牌与代表API调用、代码执行命令和状态转换的“行动令牌”交错排列。在预训练期间,谷歌整理了一个庞大的交互轨迹数据集——数百万个示例,其中人类或模拟智能体执行了多步骤任务,如预订旅行或配置云服务器。该模型不仅学会了预测下一个词,还学会了预测下一个行动。

在底层,Gemini 3.5维护了一个持久化执行上下文,其功能类似于虚拟机。当模型决定运行Python代码时,它会生成一个安全沙盒(基于谷歌的容器运行时gVisor),并将输出反馈回注意力窗口。这与那些仅生成代码并希望用户正确运行的模型有着根本不同。该模型可以迭代:如果代码抛出错误,它会读取回溯信息,调整代码,并重新执行——所有这些都在单个推理会话中完成。

一个关键的工程挑战是延迟。工具调用和代码执行本质上比文本生成慢。谷歌的解决方案是推测性工具执行:模型预测最可能的工具调用,并在生成后续推理令牌的同时并行预取结果。如果预测正确,延迟降低40%;如果错误,预取结果将被丢弃。这类似于推测性解码,但应用于行动而非文本。

| 基准测试 | Gemini 3.5 | GPT-4o | Claude 3.5 Opus |
|---|---|---|---|
| AgentBench(500个任务) | 92% 成功率 | 68% 成功率 | 71% 成功率 |
| SWE-bench(代码修复) | 78% pass@1 | 62% pass@1 | 65% pass@1 |
| 工具使用准确率(50个API) | 96% 正确调用 | 81% 正确调用 | 84% 正确调用 |
| 端到端延迟(复杂任务) | 4.2秒 | 8.7秒 | 7.1秒 |

数据要点: Gemini 3.5在AgentBench上领先24个百分点并非微不足道——它代表了一次质的飞跃。该模型不仅更擅长生成代码,而且在自主完成现实世界任务方面明显更可靠。延迟改进对于实际部署同样至关重要。

对于对开源生态系统感兴趣的开发者,`agent-act-framework` GitHub仓库(现已获得12,000+星标)提供了行动感知注意力机制的轻量级实现,尽管它缺乏Gemini 3.5预训练数据的规模。`toolformer-pytorch` 仓库(8,500星标)提供了一种更简单的工具集成方法,但无法原生处理多步骤规划。

关键参与者与案例研究

谷歌在这场竞赛中并非孤军奋战,但Gemini 3.5的方法是最集成化的。OpenAI的GPT-4o及其“函数调用”是一个附加功能:模型生成一个JSON模式,开发者必须编写执行逻辑。Anthropic的Claude 3.5 Opus使用了一个更健壮的“工具使用”API,但仍将工具视为外部实体。相比之下,Gemini 3.5将工具直接嵌入模型的推理过程——它可以决定使用工具、使用它,然后推理结果,而无需任何开发者编写的胶水代码。

| 特性 | Gemini 3.5 | GPT-4o | Claude 3.5 Opus |
|---|---|---|---|
| 工具集成 | 原生(注意力层) | API调用(JSON) | API调用(JSON) |
| 代码执行 | 沙盒化(gVisor) | 无原生执行 | 无原生执行 |
| 多步骤规划 | 内置(行动令牌) | 依赖提示 | 依赖提示 |
| 错误恢复 | 自动重新执行 | 手动(开发者) | 手动(开发者) |
| 定价(每任务) | 约$0.05/任务 | 约$0.12/任务 | 约$0.10/任务 |

数据要点: Gemini 3.5的定价优势显著。每个完成任务$0.05,而竞争对手为$0.10-$0.12,这使得自动化对于高吞吐量工作流在经济上变得可行。这对构建智能体中间件的公司构成了直接威胁。

早期采用者包括Salesforce,它将Gemini 3.5集成到其Agentforce平台中,以自动化CRM工作流——自主更新记录、发送跟进邮件和安排会议。Uber正在测试该模型用于动态定价和调度优化,模型直接查询数据库并调整算法。Stripe使用Gemini 3.5处理退款争议:模型读取交易历史、检查退款政策,并执行退款或升级到人工处理——所有这些都无需开发者干预。

行业影响与市场动态

从“思考”到“行动”的转变从根本上改变了AI的商业模式。目前,大多数LLM收入来自按令牌计费的API调用。Gemini 3.5实现了基于任务的定价模式,客户为每个完成的自动化付费。这使激励措施保持一致:AI提供商仅在任务实际完成时获得报酬。据报道,谷歌以每任务$0.05的价格提供企业合同。

更多来自 Hacker News

AI推翻30年离散几何猜想:OpenAI模型重新定义数学发现在人工智能领域的一项里程碑式成就中,OpenAI推理模型成功推翻了一个核心离散几何猜想,该猜想三十多年来无人能证。这个被视为领域基础的猜想,曾有多位数学家尝试寻找反例却均告失败。OpenAI模型利用符号推理与组合搜索的新颖结合,构建了一个优OpenAI IPO:当AI的未来撞上华尔街的算盘OpenAI正处于提交首次公开募股(IPO)申请的前夜,这一决定将从根本上改变人工智能产业的发展轨迹。这家最初以“确保AI安全”为使命的非营利研究实验室,如今已进化为GPT系列、DALL-E以及新兴多模态和智能体系统的商业引擎。IPO代表着AI推理成本悬崖:2026-2027将如何区分赢家与输家过去两年,AI行业一直痴迷于构建模型的价格——为训练GPT-4、Gemini和Llama 3而花费在GPU集群上的数十亿美元。但一个更危险的成本正隐藏在众目睽睽之下:*运行*这些模型的成本。我们的分析显示,随着AI从简单的文本生成转向多模态查看来源专题页Hacker News 已收录 3723 篇文章

相关专题

AI agents745 篇相关文章autonomous AI113 篇相关文章

时间归档

May 20262270 篇已发布文章

延伸阅读

AI Agents vs. Traditional Databases: Why the Old Guard Is CrumblingTraditional databases were built for passive query-response, but autonomous AI agents demand dynamic, context-aware, and从助手到同事:Eve托管式AI智能体平台如何重塑数字工作AI智能体领域正经历根本性转变:从交互式助手演变为能自主完成任务的同事。基于OpenClaw框架构建的托管平台Eve提供了关键案例。它通过提供受约束的沙箱环境,让智能体可操作文件、控制浏览器、执行代码,大幅降低了部署强大AI的门槛。Claude智能体平台:聊天机器人时代终结,自主AI编排时代开启Anthropic正式推出Claude托管智能体平台,标志着AI从对话伙伴向复杂工作流自主编排者的根本性转变。这预示着行业焦点正从扩展模型参数转向构建能在真实混乱环境中规划、行动并交付成果的可靠执行系统。OpenAI收购TBPN:从聊天机器人到自主AI代理的战略大转向OpenAI近日收购了专注于持久化AI代理架构的隐秘初创公司TBPN。此举标志着这家以对话AI见长的公司,正将其战略重心转向能够长期管理复杂多步骤工作流的自主任务执行代理领域,这可能是其发展史上最关键的一次战略调整。

常见问题

这次模型发布“Gemini 3.5 Redefines AI: From Thinking Models to Autonomous Action”的核心内容是什么?

On May 19, 2025, Google released Gemini 3.5, a model that redefines what an AI can do. Unlike previous models that excelled at generating text or code snippets but required humans…

从“Gemini 3.5 vs GPT-4o agent comparison”看,这个模型发布为什么重要?

Gemini 3.5's architecture represents a radical departure from the standard decoder-only transformer. The core innovation is the Action-Aware Attention Mechanism, which interleaves traditional text tokens with 'action tok…

围绕“How to build AI agents with Gemini 3.5”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。