技术深度解析
本周最重大的技术飞跃来自谷歌的Gemini 3.5系列,但原因并非大多数人想象的那样。谷歌没有追逐原始基准分数,而是专注于其所谓的“智能体编排”。该模型架构集成一个规划模块,将复杂的用户请求分解为子任务,通过工具调用(API、代码解释器、网络搜索)执行这些任务,并维护一个持久状态机来处理失败和重新规划。这是对标准自回归Transformer范式的根本性背离。在底层,Gemini 3.5采用了混合专家(MoE)架构,根据内部文档,其总参数估计为2.8万亿,每次前向传播的活跃参数为2800亿。关键创新在于一种“记忆增强注意力”机制,允许模型在工具调用之间保留上下文而不超出上下文窗口,从而为多步骤任务创建有效的工作记忆。
阿里巴巴的Qwen3.7-Max采取了不同的方法。它是一个拥有720亿参数的密集Transformer,但其突出特点是128K token的上下文窗口——是GPT-4o的两倍,Llama 3.1 70B的四倍。为了实现这一点而不导致二次方内存膨胀,阿里巴巴实现了一种新颖的“环形注意力”变体,在推理期间将KV缓存分布到多个GPU上,并结合滑动窗口注意力机制来保持局部连贯性。该模型在18万亿个token上训练,其中中文数据(40%)和代码(25%)占比很高。Qwen3.7-Max在宽松的Apache 2.0许可证下发布,这是一项战略举措,旨在赢得对供应商锁定持谨慎态度的市场的开发者心智和企业采用。
| 模型 | 参数(活跃/总参数) | 上下文窗口 | MMLU-Pro得分 | 每百万Token输入成本 | 开源 |
|---|---|---|---|---|---|
| Gemini 3.5 Ultra | 280B / 2.8T (MoE) | 128K | 89.2 | $10.00(估计) | 否 |
| Qwen3.7-Max | 72B (密集) | 128K | 87.8 | $1.50 | 是 (Apache 2.0) |
| GPT-4o | ~200B(估计) | 128K | 88.7 | $5.00 | 否 |
| Claude 3.5 Sonnet | — | 200K | 88.3 | $3.00 | 否 |
| Llama 3.1 70B | 70B (密集) | 32K | 82.0 | $0.59(通过Together) | 是 (自定义) |
数据要点: Qwen3.7-Max在MMLU-Pro得分上达到Gemini 3.5 Ultra的98.4%,而估计输入成本仅为后者的15%,并且完全开源。这为能够自托管或使用推理提供商的开发者和企业创造了巨大的性价比套利空间。开源模型不再是遥远的第二名——它在质量上具有竞争力,同时价格大幅降低。
对于希望进行实验的开发者来说,Qwen3.7-Max在GitHub上的仓库在发布第一周内已获得超过45,000颗星。该仓库包括微调脚本、量化配置(4位和8位)以及用于高吞吐量推理的自定义vLLM集成。社区已经为代码生成生成了一个LoRA适配器,在HumanEval上匹配GPT-4o,而推理成本仅为后者的1/20。
关键参与者与案例研究
Google DeepMind 对Gemini 3.5采取了谨慎但深思熟虑的路径。与2024年的快速发布不同,这一代专注于可靠性和智能体安全。该模型包含一个“宪法护栏”层,防止智能体执行有害的多步骤计划(例如,“购买域名、创建钓鱼网站、发送电子邮件”)。早期的企业客户包括一家大型物流公司,该公司使用Gemini 3.5智能体在中断期间自主管理供应链重新路由,在试点测试中将人工干预减少了70%。
阿里巴巴云 正在用Qwen3.7-Max打一场持久战。通过开源一个与闭源旗舰模型相媲美的模型,阿里巴巴旨在复制Android战略:将模型层商品化,以推动对其云基础设施(阿里云)和企业AI服务的需求。该模型已集成到阿里巴巴的钉钉企业平台中,为自动会议摘要、代码审查和客户服务升级提供支持。一家中国电商公司的案例研究表明,从GPT-4o切换到Qwen3.7-Max,每月推理成本降低了68%,同时在产品描述生成任务上保持了96%的准确率。
Meta 呈现了最复杂的情况。尽管拥有最成功的开源模型家族之一(Llama),该公司仍在裁减10%的员工——约7,000人——以资助其AI转型。AINews获得的内部备忘录概述了一项计划,旨在消除内容审核、传统基础设施和中层管理中的“非AI原生”角色。Meta正在创建一个新的“AI优先工程”部门,将吸收剩余员工,要求所有工程师在2026年第三季度前通过AI能力评估。该公司还正在终止其定制AI芯片项目(Meta Training and Inference Accelerator),转而采用NVIDIA H100/B200集群。