技术深度解析
此次整合依赖于两个关键技术层:微信新开放的AI智能体接口和美团的LongCat-2.0-Preview模型。
微信的AI智能体接口: 微信发布了一套API,允许AI智能体直接调用小程序功能——这一举措实际上将整个微信小程序生态系统转变为一个可调用的服务图谱。该接口围绕“函数调用”范式设计,智能体可以发送结构化请求(例如,`order_food(location, cuisine, budget)`),并接收包含价格、可用性和确认的实时响应。这在架构上类似于OpenAI的函数调用,但针对小程序环境进行了定制,截至2025年初,小程序环境拥有超过800万个注册小程序。延迟要求非常严格:从智能体意图到服务确认的整个往返过程必须在2秒内完成,以实现无缝的用户体验。
美团的LongCat-2.0-Preview: 这是一个密集的MoE(混合专家)模型,总参数超过1万亿(估计为1.02T)。它完全使用华为昇腾910B芯片在国内计算集群上训练,这是中国AI自主可控的一个重要里程碑。该模型的架构使用64个专家,采用top-2路由机制,意味着每次前向传播仅激活约200亿参数,从而将推理成本控制在可管理范围内。LongCat-2.0在MMLU基准测试中报告得分为89.1,略高于GPT-4o(88.7),但低于Claude 3.5 Sonnet(88.3)——尽管这些数字来自美团的内部评估,应谨慎对待。
智能体架构: 两款旗舰智能体,“小团”(专注于外卖)和“小美”(专注于电影、旅行和预约等生活服务),共享一个共同的推理主干,但拥有专门的工具使用模块。该系统使用“先规划后执行”的流水线:首先,智能体将用户的自然语言请求分解为一系列子任务(例如,“在电影院附近7点从一家川菜馆订晚餐”),然后查询微信的服务注册表以找到合适的小程序,尽可能并行调用它们,并向用户呈现统一的确认。这是使用ReAct(推理+行动)模式的变体实现的,并带有一个自定义的“服务图谱”内存,用于缓存常用的小程序端点以减少延迟。
数据要点: 智能体到服务调用的延迟要求低于2秒是一个重大的工程挑战。美团报告称,其当前系统对于单服务调用实现了1.4秒的中位延迟,对于多服务编排(例如,晚餐+电影+出租车)则为2.8秒。多服务延迟仍高于2秒阈值,表明存在优化空间。
关键参与者与案例研究
美团(美团点评) 是中国本地服务市场的明确领导者,拥有超过7亿年活跃用户和900万商家网络。其CEO王兴一直直言AI是“自移动互联网以来最大的机遇”。该公司自2023年以来已在AI研发上投入超过30亿美元,其中LongCat是皇冠上的明珠。“To A”战略是一个直接的赌注,即AI智能体将成为一种新的分发渠道,可能取代用户打开美团应用的需求。
腾讯(微信) 是平台所有者。微信的AI生态开放是更广泛的“微信AI”计划的一部分,该计划包括“元宝”助手和各种生成式AI功能。通过允许外部智能体,腾讯实际上正在创建一个用于AI服务的“元应用商店”,智能体在其中竞争为用户服务。这是对字节跳动旗下抖音的防御性举措,抖音一直在利用其自身的AI能力积极扩展本地服务。
竞争方法对比:
| 公司 | 模型 | 参数 | 本地服务集成 | 智能体策略 |
|---|---|---|---|---|
| 美团 | LongCat-2.0-Preview | 1.02T (MoE) | 深度(原生) | To A(智能体优先) |
| 阿里巴巴(饿了么) | 通义千问2.5 | ~500B(密集) | 部分(通过支付宝) | To C(助手) |
| 字节跳动(抖音) | 豆包1.5 | ~400B(密集) | 新兴(应用内) | To C(内容驱动) |
| 百度(外卖) | 文心一言4.5 | ~300B(密集) | 弱(合作) | To B(企业) |
数据要点: 美团的万亿参数模型在复杂推理任务中赋予其显著优势,但推理成本很高——估计每100万token为0.15美元,而阿里巴巴的通义千问为0.05美元。随着智能体使用规模的扩大,能力与成本之间的权衡将至关重要。
案例研究:“约会之夜”场景
用户告诉小美:“我想带我的伴侣去上海IFC商场附近吃一顿不错的晚餐,然后看一场电影,之后打车回家。”智能体必须:
1. 查询餐厅可用性(菜系、预算、评分)通过