技术深度解析
Gemini 3.5的架构代表了与标准仅解码器Transformer的根本性背离。其核心创新在于行动感知注意力机制,该机制将传统文本令牌与代表API调用、代码执行命令和状态转换的“行动令牌”交错排列。在预训练期间,谷歌整理了一个庞大的交互轨迹数据集——数百万个示例,其中人类或模拟智能体执行了多步骤任务,如预订旅行或配置云服务器。该模型不仅学会了预测下一个词,还学会了预测下一个行动。
在底层,Gemini 3.5维护了一个持久化执行上下文,其功能类似于虚拟机。当模型决定运行Python代码时,它会生成一个安全沙盒(基于谷歌的容器运行时gVisor),并将输出反馈回注意力窗口。这与那些仅生成代码并希望用户正确运行的模型有着根本不同。该模型可以迭代:如果代码抛出错误,它会读取回溯信息,调整代码,并重新执行——所有这些都在单个推理会话中完成。
一个关键的工程挑战是延迟。工具调用和代码执行本质上比文本生成慢。谷歌的解决方案是推测性工具执行:模型预测最可能的工具调用,并在生成后续推理令牌的同时并行预取结果。如果预测正确,延迟降低40%;如果错误,预取结果将被丢弃。这类似于推测性解码,但应用于行动而非文本。
| 基准测试 | Gemini 3.5 | GPT-4o | Claude 3.5 Opus |
|---|---|---|---|
| AgentBench(500个任务) | 92% 成功率 | 68% 成功率 | 71% 成功率 |
| SWE-bench(代码修复) | 78% pass@1 | 62% pass@1 | 65% pass@1 |
| 工具使用准确率(50个API) | 96% 正确调用 | 81% 正确调用 | 84% 正确调用 |
| 端到端延迟(复杂任务) | 4.2秒 | 8.7秒 | 7.1秒 |
数据要点: Gemini 3.5在AgentBench上领先24个百分点并非微不足道——它代表了一次质的飞跃。该模型不仅更擅长生成代码,而且在自主完成现实世界任务方面明显更可靠。延迟改进对于实际部署同样至关重要。
对于对开源生态系统感兴趣的开发者,`agent-act-framework` GitHub仓库(现已获得12,000+星标)提供了行动感知注意力机制的轻量级实现,尽管它缺乏Gemini 3.5预训练数据的规模。`toolformer-pytorch` 仓库(8,500星标)提供了一种更简单的工具集成方法,但无法原生处理多步骤规划。
关键参与者与案例研究
谷歌在这场竞赛中并非孤军奋战,但Gemini 3.5的方法是最集成化的。OpenAI的GPT-4o及其“函数调用”是一个附加功能:模型生成一个JSON模式,开发者必须编写执行逻辑。Anthropic的Claude 3.5 Opus使用了一个更健壮的“工具使用”API,但仍将工具视为外部实体。相比之下,Gemini 3.5将工具直接嵌入模型的推理过程——它可以决定使用工具、使用它,然后推理结果,而无需任何开发者编写的胶水代码。
| 特性 | Gemini 3.5 | GPT-4o | Claude 3.5 Opus |
|---|---|---|---|
| 工具集成 | 原生(注意力层) | API调用(JSON) | API调用(JSON) |
| 代码执行 | 沙盒化(gVisor) | 无原生执行 | 无原生执行 |
| 多步骤规划 | 内置(行动令牌) | 依赖提示 | 依赖提示 |
| 错误恢复 | 自动重新执行 | 手动(开发者) | 手动(开发者) |
| 定价(每任务) | 约$0.05/任务 | 约$0.12/任务 | 约$0.10/任务 |
数据要点: Gemini 3.5的定价优势显著。每个完成任务$0.05,而竞争对手为$0.10-$0.12,这使得自动化对于高吞吐量工作流在经济上变得可行。这对构建智能体中间件的公司构成了直接威胁。
早期采用者包括Salesforce,它将Gemini 3.5集成到其Agentforce平台中,以自动化CRM工作流——自主更新记录、发送跟进邮件和安排会议。Uber正在测试该模型用于动态定价和调度优化,模型直接查询数据库并调整算法。Stripe使用Gemini 3.5处理退款争议:模型读取交易历史、检查退款政策,并执行退款或升级到人工处理——所有这些都无需开发者干预。
行业影响与市场动态
从“思考”到“行动”的转变从根本上改变了AI的商业模式。目前,大多数LLM收入来自按令牌计费的API调用。Gemini 3.5实现了基于任务的定价模式,客户为每个完成的自动化付费。这使激励措施保持一致:AI提供商仅在任务实际完成时获得报酬。据报道,谷歌以每任务$0.05的价格提供企业合同。