商汤“小卖”机器人便利店探秘:具身智能终于有了真工作

May 2026
embodied AI归档:May 2026
商汤旗下尚辉科技在上海开设首家“小卖”机器人便利店,部署了一台能切换收银员、理货员和迎宾员角色的多职能机器人。这标志着具身智能首次在真实零售场景实现商业化,为劳动密集型自动化开辟了新范式。

表面上看,商汤在上海新开的“小卖”机器人便利店只是一次小型零售实验。但实际上,它代表了具身智能的关键转折点:从“能移动、能行动”到“能干真活”的跨越。与以往依赖单一功能机械臂或自动售货机的零售自动化尝试不同,这家店的核心创新在于“一机多面”系统。一台机器人,由融合视觉语言模型(VLM)与实时运动规划的统⼀AI大脑驱动,能无缝切换收银员、理货员和迎宾员角色。这一设计直击零售自动化的核心痛点:专用机器人昂贵且不灵活,而通用机器人又往往在具体任务上表现不佳。商汤的“小卖”机器人并非单用途机器,而是一个基于模块化架构的通用具身智能体,集成了三大核心组件:用于场景理解的视觉语言模型(VLM)、用于任务规划和自然语言交互的大语言模型(LLM),以及用于物理执行的实时运动规划引擎。其关键优势在于无需重新训练即可切换角色,这一特性在大多数开源替代方案中都不具备,能将部署成本比使用多台专用机器人降低约60-70%。

技术深度解析

商汤的“小卖”机器人并非单用途机器,而是一个基于模块化架构的通用具身智能体,集成了三大核心组件:用于场景理解的视觉语言模型(VLM)、用于任务规划和自然语言交互的大语言模型(LLM),以及用于物理执行的实时运动规划引擎。

架构概览:
机器人的“大脑”是商汤自家InternVL模型的微调版本,一个400亿参数的VLM,能处理摄像头画面并生成环境的语义描述。该模型与一个更小、经过蒸馏的LLM(约70亿参数)配对,负责对话和任务分解。运动规划层采用模型预测控制(MPC)框架,针对低延迟的机械臂和夹爪动作进行了优化。整个流水线运行在搭载NVIDIA Orin AGX模块的本地边缘服务器上,大多数任务的推理延迟控制在200毫秒以内。

关键技术革新:
1. 通过提示工程实现角色切换: 机器人无需为每个角色重新训练。相反,LLM接收一个定义当前任务的系统提示(例如,“你是收银员。扫描商品并处理付款。”)。这使得无需重新加载模型即可即时切换。
2. 用于操作的视觉定位: VLM为货架上或顾客手中的物体生成边界框和抓取点。运动规划器随后利用这些坐标规划无碰撞轨迹。这与Google RT-2模型采用的方法类似,但针对便利店受限环境进行了优化。
3. 实时重新规划: 如果顾客意外移动或商品掉落,机器人能在500毫秒内中止当前动作并重新规划。这是通过分层规划系统实现的:高层任务(例如,“补货3号货架”)被分解为低层动作(例如,“将机械臂移动到位置X,抓取物体Y,放置在Z处”),低层规划器持续检查碰撞。

与现有开源项目的比较:
| 仓库 | 描述 | Stars | 与小卖的关键区别 |
|---|---|---|---|
| [openvla/openvla](https://github.com/openvla/openvla) | 用于机器人操作的开源VLA模型 | ~8,000 | 每个任务需要单独微调;没有内置角色切换 |
| [google-research/robotics_transformer2](https://github.com/google-research/robotics_transformer2) | Google的通用机器人RT-2模型 | ~3,500 | 模型更大(550亿参数),推理速度较慢;未针对零售优化 |
| [SenseTime/InternVL](https://github.com/OpenGVLab/InternVL) | 商汤的开源VLM | ~6,000 | 基础模型;小卖使用的是结合了运动规划的微调版本 |

数据要点: “小卖”机器人的关键优势在于无需重新训练即可切换角色,这一特性在大多数开源替代方案中都不具备。与使用多台专用机器人相比,这能将部署成本降低约60-70%。

关键玩家与案例研究

商汤尚辉科技: 这是商汤集团的子公司,专注于具身智能和智慧零售。尚辉科技于2023年分拆成立,从地方政府基金和战略投资者处获得了2亿美元的A轮融资。“小卖”项目已开发18个月,首个原型机于2024年底在受控实验室环境中进行了测试。

竞品对比:
| 产品 | 公司 | 类型 | 角色 | 成本估算 |
|---|---|---|---|---|
| 小卖机器人 | 商汤尚辉科技 | 通用型,单台机器人 | 收银员、理货员、迎宾员 | 约5万美元/台(估算) |
| Robomart | Robomart | 自主移动商店 | 自动售货、配送 | 约10万美元/辆 |
| Pudu Robotics BellaBot | 普渡机器人 | 配送机器人 | 仅限送餐 | 约1.5万美元/台 |
| Amazon Astro | 亚马逊 | 家用机器人 | 监控、有限配送 | 约1,000美元(已停产) |

数据要点: 虽然普渡的BellaBot更便宜,但它只能执行一种功能(配送)。而“小卖”机器人5万美元的多角色能力,为需要替代3-4名工人(每人年薪约3-4万美元)的便利店提供了更好的投资回报率。

案例研究:日本罗森(Lawson)
日本主要连锁便利店罗森一直在使用Telexistence的“TX SCARA”机器人进行补货测试。然而,那是一个固定臂系统,无法与顾客互动。罗森报告称补货劳动力成本降低了20%,但在收银员角色上没有节省开支。“小卖”机器人处理两种角色的能力使其在总劳动力替代方面具有明显优势。

行业影响与市场动态

2025年全球便利店市场规模约为6500亿美元,劳动力成本占运营支出的25-30%。仅在中国,就有超过25万家便利店,每家平均雇佣4-6名员工。如果其中仅10%的店铺采用类似“小卖”的机器人系统,这将代表一个巨大的市场机会。更重要的是,这种“一机多面”模式可能重塑零售自动化的经济账:不再需要为每个任务购买专用机器,而是用一台通用机器人完成多项工作。这不仅能降低初始投资,还能减少维护和培训成本。随着劳动力成本持续上升,尤其是在老龄化严重的日本和中国,这种灵活、可切换角色的机器人解决方案将变得越来越有吸引力。商汤的“小卖”项目虽然仍处于早期阶段,但它为具身智能在零售领域的商业化落地提供了一个切实可行的范本。

相关专题

embodied AI198 篇相关文章

时间归档

May 20263028 篇已发布文章

延伸阅读

华勤与正行联手:为工业机器人打造物理智能数据脊梁华勤技术与正行创新宣布战略合作,共同为工业机器人构建“物理智能数据骨干与智慧大脑”。这一合作直击行业核心痛点:机器人进入工厂产线时,缺乏高质量、真实世界的训练数据。SAIL 2026 大奖揭示:AI 从“堆参数”转向“真落地”2026 年世界人工智能大会 SAIL 奖揭晓,释放出产业核心信号:纯参数规模竞赛已终结。本届获奖项目压倒性地聚焦世界模型、具身智能与长时序规划,标志着行业正从追逐基准分数转向解决真实世界难题。英伟达的机器人操作系统棋局:做具身智能界的Android,却坚决不碰硬件英伟达正式推出了一套完整的机器人操作系统,并自诩为“具身智能界的Android”。黄仁勋明确表态:英伟达不会造机器人,但会赋能每一家具身智能公司造出伟大的机器人。这一举措旨在统一行业软件标准,有望终结长期困扰机器人开发的碎片化困局。Embodied AI Funding Frenzy: Brains Over Brawn Reshapes the 2026 LandscapeEmbodied AI funding in 2026 has already neared last year's total, with over half of all capital directed at the robot's

常见问题

这次公司发布“Inside SenseTime's 'Shao Mai' Robot Store: Embodied AI Finally Gets a Real Job”主要讲了什么?

On the surface, SenseTime's new 'Shao Mai' robot convenience store in Shanghai appears to be a small retail experiment. In reality, it represents a critical inflection point for em…

从“SenseTime Shanghui Shao Mai robot convenience store Shanghai opening date”看,这家公司的这次发布为什么值得关注?

SenseTime's 'Shao Mai' robot is not a single-purpose machine. It is a general-purpose embodied agent built on a modular architecture that integrates three core components: a visual language model (VLM) for scene understa…

围绕“Shao Mai robot technical specifications VLM LLM motion planning”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。