谷歌、阿里、Meta三箭齐发:AI从内到外重塑企业架构

May 2026
AI agents归档:May 2026
本周,谷歌、阿里巴巴与Meta同时打响三场战役,重新定义了AI军备竞赛的规则。这不再是关于更好的聊天机器人——而是围绕AI重构企业本身,涉及智能体模型、开源生态以及痛苦的组织手术。

本周,AI行业迎来了一个三重转折点。谷歌发布了Gemini 3.5模型家族,其核心卖点并非参数规模,而是智能体能力——即自主规划、执行并纠错多步骤工作流的能力。阿里巴巴云则推出Qwen3.7-Max,一款拥有128K上下文长度的开源权重模型,在性能和可及性上直接挑战GPT-4o和Claude 3.5等闭源领导者。与此同时,Meta内部泄露的文件显示,该公司计划裁减10%的员工,将资源重新导向AI原生组织架构。这三件事并非孤立的发布或成本削减行动。它们标志着一个根本性转变:AI正从技术工具转变为企业的核心操作系统。

技术深度解析

本周最重大的技术飞跃来自谷歌的Gemini 3.5系列,但原因并非大多数人想象的那样。谷歌没有追逐原始基准分数,而是专注于其所谓的“智能体编排”。该模型架构集成一个规划模块,将复杂的用户请求分解为子任务,通过工具调用(API、代码解释器、网络搜索)执行这些任务,并维护一个持久状态机来处理失败和重新规划。这是对标准自回归Transformer范式的根本性背离。在底层,Gemini 3.5采用了混合专家(MoE)架构,根据内部文档,其总参数估计为2.8万亿,每次前向传播的活跃参数为2800亿。关键创新在于一种“记忆增强注意力”机制,允许模型在工具调用之间保留上下文而不超出上下文窗口,从而为多步骤任务创建有效的工作记忆。

阿里巴巴的Qwen3.7-Max采取了不同的方法。它是一个拥有720亿参数的密集Transformer,但其突出特点是128K token的上下文窗口——是GPT-4o的两倍,Llama 3.1 70B的四倍。为了实现这一点而不导致二次方内存膨胀,阿里巴巴实现了一种新颖的“环形注意力”变体,在推理期间将KV缓存分布到多个GPU上,并结合滑动窗口注意力机制来保持局部连贯性。该模型在18万亿个token上训练,其中中文数据(40%)和代码(25%)占比很高。Qwen3.7-Max在宽松的Apache 2.0许可证下发布,这是一项战略举措,旨在赢得对供应商锁定持谨慎态度的市场的开发者心智和企业采用。

| 模型 | 参数(活跃/总参数) | 上下文窗口 | MMLU-Pro得分 | 每百万Token输入成本 | 开源 |
|---|---|---|---|---|---|
| Gemini 3.5 Ultra | 280B / 2.8T (MoE) | 128K | 89.2 | $10.00(估计) | 否 |
| Qwen3.7-Max | 72B (密集) | 128K | 87.8 | $1.50 | 是 (Apache 2.0) |
| GPT-4o | ~200B(估计) | 128K | 88.7 | $5.00 | 否 |
| Claude 3.5 Sonnet | — | 200K | 88.3 | $3.00 | 否 |
| Llama 3.1 70B | 70B (密集) | 32K | 82.0 | $0.59(通过Together) | 是 (自定义) |

数据要点: Qwen3.7-Max在MMLU-Pro得分上达到Gemini 3.5 Ultra的98.4%,而估计输入成本仅为后者的15%,并且完全开源。这为能够自托管或使用推理提供商的开发者和企业创造了巨大的性价比套利空间。开源模型不再是遥远的第二名——它在质量上具有竞争力,同时价格大幅降低。

对于希望进行实验的开发者来说,Qwen3.7-Max在GitHub上的仓库在发布第一周内已获得超过45,000颗星。该仓库包括微调脚本、量化配置(4位和8位)以及用于高吞吐量推理的自定义vLLM集成。社区已经为代码生成生成了一个LoRA适配器,在HumanEval上匹配GPT-4o,而推理成本仅为后者的1/20。

关键参与者与案例研究

Google DeepMind 对Gemini 3.5采取了谨慎但深思熟虑的路径。与2024年的快速发布不同,这一代专注于可靠性和智能体安全。该模型包含一个“宪法护栏”层,防止智能体执行有害的多步骤计划(例如,“购买域名、创建钓鱼网站、发送电子邮件”)。早期的企业客户包括一家大型物流公司,该公司使用Gemini 3.5智能体在中断期间自主管理供应链重新路由,在试点测试中将人工干预减少了70%。

阿里巴巴云 正在用Qwen3.7-Max打一场持久战。通过开源一个与闭源旗舰模型相媲美的模型,阿里巴巴旨在复制Android战略:将模型层商品化,以推动对其云基础设施(阿里云)和企业AI服务的需求。该模型已集成到阿里巴巴的钉钉企业平台中,为自动会议摘要、代码审查和客户服务升级提供支持。一家中国电商公司的案例研究表明,从GPT-4o切换到Qwen3.7-Max,每月推理成本降低了68%,同时在产品描述生成任务上保持了96%的准确率。

Meta 呈现了最复杂的情况。尽管拥有最成功的开源模型家族之一(Llama),该公司仍在裁减10%的员工——约7,000人——以资助其AI转型。AINews获得的内部备忘录概述了一项计划,旨在消除内容审核、传统基础设施和中层管理中的“非AI原生”角色。Meta正在创建一个新的“AI优先工程”部门,将吸收剩余员工,要求所有工程师在2026年第三季度前通过AI能力评估。该公司还正在终止其定制AI芯片项目(Meta Training and Inference Accelerator),转而采用NVIDIA H100/B200集群。

相关专题

AI agents757 篇相关文章

时间归档

May 20262540 篇已发布文章

延伸阅读

Gemini 3.0 成为谷歌AI操作系统,重塑科技巨头的未来在Google I/O 2026上,Gemini从聊天机器人进化为整个谷歌生态系统的中枢神经。借助Project Compass等主动式智能体和环境智能层Gemini Home,谷歌正押注于一种AI优先的运营模式,在用户表达需求之前就预判其Google I/O 2025:Gemini 3.5 与 Jinju 眼镜宣告 AI 全面接管物理世界Google I/O 2025 投下双料重磅炸弹:Gemini 3.5 模型与 Jinju XR 眼镜,标志着谷歌押注环境式、始终在线的 AI。与此同时,Nvidia 向顶级实验室交付 Vera CPU,SandboxAQ 将物理学融入 CAgent战争:为何大多数AI助手将在下一次模型更新中被淘汰AI Agent市场已陷入一场残酷的同质化竞赛。模型厂商、视频平台和内容公司纷纷推出近乎相同的产品——不过是LLM API的薄包装层。我们的分析表明,下一代基础模型将使大多数Agent变得过时,唯有那些拥有深度垂直整合或专有数据护城河的产品OpenAI秘密智能手机:奥特曼的食言与AI霸权争夺战OpenAI正在秘密研发自有品牌智能手机,直接与CEO萨姆·奥特曼此前的公开否认相悖。此举标志着战略转向——从定制芯片到操作系统全面掌控AI体验栈,预示着智能体时代主交互界面的全面战争已拉开序幕。

常见问题

这次公司发布“Google, Alibaba, Meta Triple Strike: AI Rebuilds Enterprise from the Inside Out”主要讲了什么?

The AI industry witnessed a triple inflection point this week. Google released Gemini 3.5, a model family whose headline feature is not parameter count but agentic capability — the…

从“Google Gemini 3.5 agentic capabilities explained”看,这家公司的这次发布为什么值得关注?

The most significant technical leap this week comes from Google's Gemini 3.5 series, but not for the reasons most assume. Rather than chasing raw benchmark scores, Google focused on what it calls 'agentic orchestration.'…

围绕“Qwen3.7-Max vs GPT-4o cost comparison”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。