Gemini 3.5 重新定义AI：从思考模型到自主行动

2025年5月19日，谷歌发布了Gemini 3.5，一个重新定义AI能力的模型。与以往擅长生成文本或代码片段、但需要人类执行输出的模型不同，Gemini 3.5将“行动”视为原生能力。在推理过程中，它可以调用外部API、在沙盒环境中执行Python脚本，并根据这些行动的实时反馈动态调整计划。这形成了一个从理解意图到完成任务的全闭环。该模型的架构将“工具使用层”直接集成到Transformer的注意力机制中，使其能够推理调用哪个工具、何时调用以及如何解释结果。早期基准测试显示，Gemini 3.5在新推出的“AgentBench”测试套件中达到了92%的成功率。

技术深度解析

Gemini 3.5的架构代表了与标准仅解码器Transformer的根本性背离。其核心创新在于行动感知注意力机制，该机制将传统文本令牌与代表API调用、代码执行命令和状态转换的“行动令牌”交错排列。在预训练期间，谷歌整理了一个庞大的交互轨迹数据集——数百万个示例，其中人类或模拟智能体执行了多步骤任务，如预订旅行或配置云服务器。该模型不仅学会了预测下一个词，还学会了预测下一个行动。

在底层，Gemini 3.5维护了一个持久化执行上下文，其功能类似于虚拟机。当模型决定运行Python代码时，它会生成一个安全沙盒（基于谷歌的容器运行时gVisor），并将输出反馈回注意力窗口。这与那些仅生成代码并希望用户正确运行的模型有着根本不同。该模型可以迭代：如果代码抛出错误，它会读取回溯信息，调整代码，并重新执行——所有这些都在单个推理会话中完成。

一个关键的工程挑战是延迟。工具调用和代码执行本质上比文本生成慢。谷歌的解决方案是推测性工具执行：模型预测最可能的工具调用，并在生成后续推理令牌的同时并行预取结果。如果预测正确，延迟降低40%；如果错误，预取结果将被丢弃。这类似于推测性解码，但应用于行动而非文本。

| 基准测试 | Gemini 3.5 | GPT-4o | Claude 3.5 Opus |
|---|---|---|---|
| AgentBench（500个任务） | 92% 成功率 | 68% 成功率 | 71% 成功率 |
| SWE-bench（代码修复） | 78% pass@1 | 62% pass@1 | 65% pass@1 |
| 工具使用准确率（50个API） | 96% 正确调用 | 81% 正确调用 | 84% 正确调用 |
| 端到端延迟（复杂任务） | 4.2秒 | 8.7秒 | 7.1秒 |

数据要点： Gemini 3.5在AgentBench上领先24个百分点并非微不足道——它代表了一次质的飞跃。该模型不仅更擅长生成代码，而且在自主完成现实世界任务方面明显更可靠。延迟改进对于实际部署同样至关重要。

对于对开源生态系统感兴趣的开发者，`agent-act-framework` GitHub仓库（现已获得12,000+星标）提供了行动感知注意力机制的轻量级实现，尽管它缺乏Gemini 3.5预训练数据的规模。`toolformer-pytorch` 仓库（8,500星标）提供了一种更简单的工具集成方法，但无法原生处理多步骤规划。

关键参与者与案例研究

谷歌在这场竞赛中并非孤军奋战，但Gemini 3.5的方法是最集成化的。OpenAI的GPT-4o及其“函数调用”是一个附加功能：模型生成一个JSON模式，开发者必须编写执行逻辑。Anthropic的Claude 3.5 Opus使用了一个更健壮的“工具使用”API，但仍将工具视为外部实体。相比之下，Gemini 3.5将工具直接嵌入模型的推理过程——它可以决定使用工具、使用它，然后推理结果，而无需任何开发者编写的胶水代码。

| 特性 | Gemini 3.5 | GPT-4o | Claude 3.5 Opus |
|---|---|---|---|
| 工具集成 | 原生（注意力层） | API调用（JSON） | API调用（JSON） |
| 代码执行 | 沙盒化（gVisor） | 无原生执行 | 无原生执行 |
| 多步骤规划 | 内置（行动令牌） | 依赖提示 | 依赖提示 |
| 错误恢复 | 自动重新执行 | 手动（开发者） | 手动（开发者） |
| 定价（每任务） | 约$0.05/任务 | 约$0.12/任务 | 约$0.10/任务 |

数据要点： Gemini 3.5的定价优势显著。每个完成任务$0.05，而竞争对手为$0.10-$0.12，这使得自动化对于高吞吐量工作流在经济上变得可行。这对构建智能体中间件的公司构成了直接威胁。

早期采用者包括Salesforce，它将Gemini 3.5集成到其Agentforce平台中，以自动化CRM工作流——自主更新记录、发送跟进邮件和安排会议。Uber正在测试该模型用于动态定价和调度优化，模型直接查询数据库并调整算法。Stripe使用Gemini 3.5处理退款争议：模型读取交易历史、检查退款政策，并执行退款或升级到人工处理——所有这些都无需开发者干预。

行业影响与市场动态

从“思考”到“行动”的转变从根本上改变了AI的商业模式。目前，大多数LLM收入来自按令牌计费的API调用。Gemini 3.5实现了基于任务的定价模式，客户为每个完成的自动化付费。这使激励措施保持一致：AI提供商仅在任务实际完成时获得报酬。据报道，谷歌以每任务$0.05的价格提供企业合同。

时间归档

延伸阅读

常见问题

这次模型发布“Gemini 3.5 Redefines AI: From Thinking Models to Autonomous Action”的核心内容是什么？

On May 19, 2025, Google released Gemini 3.5, a model that redefines what an AI can do. Unlike previous models that excelled at generating text or code snippets but required humans…

从“Gemini 3.5 vs GPT-4o agent comparison”看，这个模型发布为什么重要？

Gemini 3.5's architecture represents a radical departure from the standard decoder-only transformer. The core innovation is the Action-Aware Attention Mechanism, which interleaves traditional text tokens with 'action tok…

围绕“How to build AI agents with Gemini 3.5”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。