商汤绝影发布Sage模型：将云端级AI智能体搬上汽车边缘计算平台

Q: 围绕“on-device AI model cost savings for car manufacturers”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

随着商汤绝影发布Sage模型，汽车人工智能领域迎来了一场地震级的变革。这款拥有320亿参数的多模态基础模型，专为汽车边缘计算平台（尤其是NVIDIA Orin X系统级芯片）部署而设计。Sage的革命性不仅在于其参数规模，更在于其精妙的混合专家（MoE）架构设计：对于任何给定的推理任务，它仅稀疏激活约30亿参数。这一工程壮举使其能在车辆严格的热、功耗和算力限制下运行，同时提供以往仅云端数据中心才具备的性能表现。

该模型的能力在严苛的智能体综合评估套件PinchBench上得到了验证。Sage在PinchBench上取得了94%的优异成绩，其核心突破在于将云端级别的复杂推理与规划能力，成功迁移至资源受限的车载边缘环境。这标志着汽车AI的发展重心，正从依赖云端连接的“弱智能”，转向具备强大自主决策与执行能力的“边缘原生智能体”。Sage的出现，不仅是对现有车载语音助手或单一功能模型的降维打击，更是对特斯拉等先行者在整车智能领域主导地位的直接挑战。它预示着软件定义汽车（SDV）的“中央神经系统”正迎来一次彻底的范式重构。

技术深度解析

Sage本质上是一项旨在攻克边缘AI“不可能三角”——高能力、低延迟、资源受限——的工程杰作。其成就的关键在于精炼的混合专家（MoE）架构。与所有参数都参与每次查询的稠密模型不同，Sage总计320亿的参数被划分为众多更小、更专业的“专家”网络。一个轻量级、经过学习的路由器网络会动态地为给定输入仅选择2-4个最相关的专家，每次前向传播仅激活约30亿参数。这种稀疏性正是模型的超能力，它将计算负载降低了一个数量级，同时保留了更大规模模型的知识广度。

该模型本质上是多模态的，拥有统一的编码器来处理文本、视觉（来自舱内和环视摄像头）以及结构化的车辆总线数据（CAN信号、传感器遥测数据）。至关重要的是，其训练方案强调了“智能体”技能：思维链推理、工具调用（例如控制信息娱乐系统、查询API）以及长程规划。这区别于那些仅针对对话或视觉问答进行微调的模型。Sage很可能使用了基于人类反馈的强化学习（RLHF）和AI反馈的强化学习（RLAIF）进行训练，且训练数据专门针对汽车智能体行为轨迹，这教会它的不仅仅是回答问题，而是在车辆环境中做出最优行动。

其部署目标平台NVIDIA Orin X（算力204 TOPS）现已是一个成熟的汽车平台。商汤的工程师已将量化和编译器优化推向了新的极致。Sage很可能以INT8精度运行，关键层可能采用FP16精度，从而实现了实时交互所需的每秒数十个token的吞吐量。开源社区提供了可供研究的相关范例。InternLM团队的 lmdeploy 仓库展示了针对大模型的高级服务和量化技术，这将是类似Sage部署的基础。同样，NVIDIA的 TensorRT-LLM 等项目提供了在Orin硬件上实现最大推理性能的必备工具包。

PinchBench 94%的得分是头条指标，但其底层数据揭示了更多信息。PinchBench评估智能体完成诸如“导航到最近的充电站，但要确保那里有咖啡店，并且在你根据当前交通状况预估的到达时间会有空闲车位”这类任务的能力。

| 模型 / 平台 | PinchBench最佳任务完成率 | 平均响应延迟 | 上下文窗口 | 主要部署方式 |
|--------------------------|-------------------------------|------------------|----------------|------------------------|
| 商汤 Sage | 94% | < 500 毫秒 | 128K tokens | 设备端 (Orin X) |
| GPT-4o (云端) | ~92% (汽车任务预估) | 1200-3000 毫秒 | 128K | 云端 |
| Claude 3.5 Sonnet (云端) | ~90% (汽车任务预估) | 1500-4000 毫秒 | 200K | 云端 |
| 特斯拉车辆AI (预估) | ~85% (推测) | < 100 毫秒 (本地控制) | N/A | 设备端 (FSD芯片) |
| Qwen-2.5-7B (本地) | ~70% | 800 毫秒 | 32K | 设备端 (Orin) |

数据要点： Sage在基准测试中的领先优势虽小但意义重大，它证明了一个架构得当的边缘模型可以在特定领域的智能体任务上匹配甚至超越云端巨头。关键区别在于其低于500毫秒的延迟，这处于人类对话舒适的范畴，并且对于时间敏感的车辆控制至关重要，而云端模型数秒的延迟在这一领域是完全不可接受的。

关键参与者与案例分析

Sage的发布，是对汽车AI领域数家老牌和新兴参与者的直接宣战。它将战场从“谁拥有最好的云端API”重新定义为“谁拥有能力最强、效率最高的边缘原生大脑”。

* 商汤（绝影）： 历史上在ADAS计算机视觉领域实力雄厚，商汤正借助Sage向价值链上游进军，打入智能座舱和整车智能领域。其战略是向主机厂提供全栈解决方案：Sage模型、优化部署软件以及集成服务，旨在成为软件定义汽车（SDV）默认的“中枢神经系统”。
* NVIDIA： 明确的受益者和合作伙伴。Sage针对Orin X的优化，巩固了NVIDIA Drive平台作为高智能边缘AI首选目的地的地位。它向主机厂展示了在其硬件上可以实现的可能性，以此对抗特斯拉等公司的自研芯片努力。
* 特斯拉： 车载AI领域的现任霸主。特斯拉的全自动驾驶（FSD）栈是边缘AI的奇迹，但其主要聚焦于驾驶任务本身。特斯拉已暗示其Dojo超算和下一代AI芯片将支持更广泛的车辆智能，但Sage的发布表明，在将通用智能体能力整合至车载边缘的竞赛中，新的挑战者已经出现。

时间归档

延伸阅读

常见问题

这次模型发布“SenseTime Sage Model Brings Cloud-Level AI Agents to Automotive Edge Computing”的核心内容是什么？

The automotive AI landscape has undergone a seismic shift with the release of Sage by SenseTime's Jueying unit. This 32-billion-parameter multimodal foundation model is specificall…

从“SenseTime Sage vs Tesla FSD AI capabilities”看，这个模型发布为什么重要？

At its core, Sage is an engineering masterpiece built to conquer the "impossible trinity" of edge AI: high capability, low latency, and constrained resources. The key to this achievement is its refined Mixture of Experts…

围绕“on-device AI model cost savings for car manufacturers”，这次模型更新对开发者和企业有什么影响？