技术深度解析
商汤的“小卖”机器人并非单用途机器,而是一个基于模块化架构的通用具身智能体,集成了三大核心组件:用于场景理解的视觉语言模型(VLM)、用于任务规划和自然语言交互的大语言模型(LLM),以及用于物理执行的实时运动规划引擎。
架构概览:
机器人的“大脑”是商汤自家InternVL模型的微调版本,一个400亿参数的VLM,能处理摄像头画面并生成环境的语义描述。该模型与一个更小、经过蒸馏的LLM(约70亿参数)配对,负责对话和任务分解。运动规划层采用模型预测控制(MPC)框架,针对低延迟的机械臂和夹爪动作进行了优化。整个流水线运行在搭载NVIDIA Orin AGX模块的本地边缘服务器上,大多数任务的推理延迟控制在200毫秒以内。
关键技术革新:
1. 通过提示工程实现角色切换: 机器人无需为每个角色重新训练。相反,LLM接收一个定义当前任务的系统提示(例如,“你是收银员。扫描商品并处理付款。”)。这使得无需重新加载模型即可即时切换。
2. 用于操作的视觉定位: VLM为货架上或顾客手中的物体生成边界框和抓取点。运动规划器随后利用这些坐标规划无碰撞轨迹。这与Google RT-2模型采用的方法类似,但针对便利店受限环境进行了优化。
3. 实时重新规划: 如果顾客意外移动或商品掉落,机器人能在500毫秒内中止当前动作并重新规划。这是通过分层规划系统实现的:高层任务(例如,“补货3号货架”)被分解为低层动作(例如,“将机械臂移动到位置X,抓取物体Y,放置在Z处”),低层规划器持续检查碰撞。
与现有开源项目的比较:
| 仓库 | 描述 | Stars | 与小卖的关键区别 |
|---|---|---|---|
| [openvla/openvla](https://github.com/openvla/openvla) | 用于机器人操作的开源VLA模型 | ~8,000 | 每个任务需要单独微调;没有内置角色切换 |
| [google-research/robotics_transformer2](https://github.com/google-research/robotics_transformer2) | Google的通用机器人RT-2模型 | ~3,500 | 模型更大(550亿参数),推理速度较慢;未针对零售优化 |
| [SenseTime/InternVL](https://github.com/OpenGVLab/InternVL) | 商汤的开源VLM | ~6,000 | 基础模型;小卖使用的是结合了运动规划的微调版本 |
数据要点: “小卖”机器人的关键优势在于无需重新训练即可切换角色,这一特性在大多数开源替代方案中都不具备。与使用多台专用机器人相比,这能将部署成本降低约60-70%。
关键玩家与案例研究
商汤尚辉科技: 这是商汤集团的子公司,专注于具身智能和智慧零售。尚辉科技于2023年分拆成立,从地方政府基金和战略投资者处获得了2亿美元的A轮融资。“小卖”项目已开发18个月,首个原型机于2024年底在受控实验室环境中进行了测试。
竞品对比:
| 产品 | 公司 | 类型 | 角色 | 成本估算 |
|---|---|---|---|---|
| 小卖机器人 | 商汤尚辉科技 | 通用型,单台机器人 | 收银员、理货员、迎宾员 | 约5万美元/台(估算) |
| Robomart | Robomart | 自主移动商店 | 自动售货、配送 | 约10万美元/辆 |
| Pudu Robotics BellaBot | 普渡机器人 | 配送机器人 | 仅限送餐 | 约1.5万美元/台 |
| Amazon Astro | 亚马逊 | 家用机器人 | 监控、有限配送 | 约1,000美元(已停产) |
数据要点: 虽然普渡的BellaBot更便宜,但它只能执行一种功能(配送)。而“小卖”机器人5万美元的多角色能力,为需要替代3-4名工人(每人年薪约3-4万美元)的便利店提供了更好的投资回报率。
案例研究:日本罗森(Lawson)
日本主要连锁便利店罗森一直在使用Telexistence的“TX SCARA”机器人进行补货测试。然而,那是一个固定臂系统,无法与顾客互动。罗森报告称补货劳动力成本降低了20%,但在收银员角色上没有节省开支。“小卖”机器人处理两种角色的能力使其在总劳动力替代方面具有明显优势。
行业影响与市场动态
2025年全球便利店市场规模约为6500亿美元,劳动力成本占运营支出的25-30%。仅在中国,就有超过25万家便利店,每家平均雇佣4-6名员工。如果其中仅10%的店铺采用类似“小卖”的机器人系统,这将代表一个巨大的市场机会。更重要的是,这种“一机多面”模式可能重塑零售自动化的经济账:不再需要为每个任务购买专用机器,而是用一台通用机器人完成多项工作。这不仅能降低初始投资,还能减少维护和培训成本。随着劳动力成本持续上升,尤其是在老龄化严重的日本和中国,这种灵活、可切换角色的机器人解决方案将变得越来越有吸引力。商汤的“小卖”项目虽然仍处于早期阶段,但它为具身智能在零售领域的商业化落地提供了一个切实可行的范本。