商汤“小卖”机器人便利店探秘：具身智能终于有了真工作

表面上看，商汤在上海新开的“小卖”机器人便利店只是一次小型零售实验。但实际上，它代表了具身智能的关键转折点：从“能移动、能行动”到“能干真活”的跨越。与以往依赖单一功能机械臂或自动售货机的零售自动化尝试不同，这家店的核心创新在于“一机多面”系统。一台机器人，由融合视觉语言模型（VLM）与实时运动规划的统⼀AI大脑驱动，能无缝切换收银员、理货员和迎宾员角色。这一设计直击零售自动化的核心痛点：专用机器人昂贵且不灵活，而通用机器人又往往在具体任务上表现不佳。商汤的“小卖”机器人并非单用途机器，而是一个基于模块化架构的通用具身智能体，集成了三大核心组件：用于场景理解的视觉语言模型（VLM）、用于任务规划和自然语言交互的大语言模型（LLM），以及用于物理执行的实时运动规划引擎。其关键优势在于无需重新训练即可切换角色，这一特性在大多数开源替代方案中都不具备，能将部署成本比使用多台专用机器人降低约60-70%。

技术深度解析

商汤的“小卖”机器人并非单用途机器，而是一个基于模块化架构的通用具身智能体，集成了三大核心组件：用于场景理解的视觉语言模型（VLM）、用于任务规划和自然语言交互的大语言模型（LLM），以及用于物理执行的实时运动规划引擎。

架构概览：
机器人的“大脑”是商汤自家InternVL模型的微调版本，一个400亿参数的VLM，能处理摄像头画面并生成环境的语义描述。该模型与一个更小、经过蒸馏的LLM（约70亿参数）配对，负责对话和任务分解。运动规划层采用模型预测控制（MPC）框架，针对低延迟的机械臂和夹爪动作进行了优化。整个流水线运行在搭载NVIDIA Orin AGX模块的本地边缘服务器上，大多数任务的推理延迟控制在200毫秒以内。

关键技术革新：
1. 通过提示工程实现角色切换： 机器人无需为每个角色重新训练。相反，LLM接收一个定义当前任务的系统提示（例如，“你是收银员。扫描商品并处理付款。”）。这使得无需重新加载模型即可即时切换。
2. 用于操作的视觉定位： VLM为货架上或顾客手中的物体生成边界框和抓取点。运动规划器随后利用这些坐标规划无碰撞轨迹。这与Google RT-2模型采用的方法类似，但针对便利店受限环境进行了优化。
3. 实时重新规划： 如果顾客意外移动或商品掉落，机器人能在500毫秒内中止当前动作并重新规划。这是通过分层规划系统实现的：高层任务（例如，“补货3号货架”）被分解为低层动作（例如，“将机械臂移动到位置X，抓取物体Y，放置在Z处”），低层规划器持续检查碰撞。

与现有开源项目的比较：
| 仓库 | 描述 | Stars | 与小卖的关键区别 |
|---|---|---|---|
| [openvla/openvla](https://github.com/openvla/openvla) | 用于机器人操作的开源VLA模型 | ~8,000 | 每个任务需要单独微调；没有内置角色切换 |
| [google-research/robotics_transformer2](https://github.com/google-research/robotics_transformer2) | Google的通用机器人RT-2模型 | ~3,500 | 模型更大（550亿参数），推理速度较慢；未针对零售优化 |
| [SenseTime/InternVL](https://github.com/OpenGVLab/InternVL) | 商汤的开源VLM | ~6,000 | 基础模型；小卖使用的是结合了运动规划的微调版本 |

数据要点： “小卖”机器人的关键优势在于无需重新训练即可切换角色，这一特性在大多数开源替代方案中都不具备。与使用多台专用机器人相比，这能将部署成本降低约60-70%。

关键玩家与案例研究

商汤尚辉科技： 这是商汤集团的子公司，专注于具身智能和智慧零售。尚辉科技于2023年分拆成立，从地方政府基金和战略投资者处获得了2亿美元的A轮融资。“小卖”项目已开发18个月，首个原型机于2024年底在受控实验室环境中进行了测试。

竞品对比：
| 产品 | 公司 | 类型 | 角色 | 成本估算 |
|---|---|---|---|---|
| 小卖机器人 | 商汤尚辉科技 | 通用型，单台机器人 | 收银员、理货员、迎宾员 | 约5万美元/台（估算） |
| Robomart | Robomart | 自主移动商店 | 自动售货、配送 | 约10万美元/辆 |
| Pudu Robotics BellaBot | 普渡机器人 | 配送机器人 | 仅限送餐 | 约1.5万美元/台 |
| Amazon Astro | 亚马逊 | 家用机器人 | 监控、有限配送 | 约1,000美元（已停产） |

数据要点： 虽然普渡的BellaBot更便宜，但它只能执行一种功能（配送）。而“小卖”机器人5万美元的多角色能力，为需要替代3-4名工人（每人年薪约3-4万美元）的便利店提供了更好的投资回报率。

案例研究：日本罗森（Lawson）
日本主要连锁便利店罗森一直在使用Telexistence的“TX SCARA”机器人进行补货测试。然而，那是一个固定臂系统，无法与顾客互动。罗森报告称补货劳动力成本降低了20%，但在收银员角色上没有节省开支。“小卖”机器人处理两种角色的能力使其在总劳动力替代方面具有明显优势。

行业影响与市场动态

2025年全球便利店市场规模约为6500亿美元，劳动力成本占运营支出的25-30%。仅在中国，就有超过25万家便利店，每家平均雇佣4-6名员工。如果其中仅10%的店铺采用类似“小卖”的机器人系统，这将代表一个巨大的市场机会。更重要的是，这种“一机多面”模式可能重塑零售自动化的经济账：不再需要为每个任务购买专用机器，而是用一台通用机器人完成多项工作。这不仅能降低初始投资，还能减少维护和培训成本。随着劳动力成本持续上升，尤其是在老龄化严重的日本和中国，这种灵活、可切换角色的机器人解决方案将变得越来越有吸引力。商汤的“小卖”项目虽然仍处于早期阶段，但它为具身智能在零售领域的商业化落地提供了一个切实可行的范本。

时间归档

延伸阅读

常见问题

这次公司发布“Inside SenseTime's 'Shao Mai' Robot Store: Embodied AI Finally Gets a Real Job”主要讲了什么？

On the surface, SenseTime's new 'Shao Mai' robot convenience store in Shanghai appears to be a small retail experiment. In reality, it represents a critical inflection point for em…

从“SenseTime Shanghui Shao Mai robot convenience store Shanghai opening date”看，这家公司的这次发布为什么值得关注？

SenseTime's 'Shao Mai' robot is not a single-purpose machine. It is a general-purpose embodied agent built on a modular architecture that integrates three core components: a visual language model (VLM) for scene understa…

围绕“Shao Mai robot technical specifications VLM LLM motion planning”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。