技术深度解析
隐式通路架构
OneModel 1.7的核心架构创新在于引入了一条“隐式通路”,在共享潜在空间中直接连接视觉编码器与运动解码器。与传统的视觉-语言-动作(VLA)模型(如Google的RT-2)不同——后者使用显式token或基于文本的桥接层,先将视觉token转化为文本token再生成动作——OneModel 1.7完全在连续潜在空间中运行。这意味着模型学习到一个联合嵌入空间,其中视觉特征向量(例如杯子的形状和姿态)与运动基元向量(例如抓取所需的扭矩和角度)直接相邻。
从技术层面看,这是通过改进的Transformer架构配合交叉注意力层实现的,训练目标是以对比学习方式最小化视觉与运动表征之间的距离。训练数据包含配对视频序列与机器人关节轨迹,数据来源包括仿真环境(使用MuJoCo和Isaac Gym)和真实世界遥操作。模型在超过1000万时间步的数据集上进行了预训练,覆盖500种不同的操作任务。
一个关键细节是“潜在瓶颈”的使用,它迫使模型将视觉信息压缩到一个可直接执行的低维流形中。这类似于人脑背侧通路处理空间信息以指导动作的方式,与腹侧通路负责物体识别相分离。该瓶颈防止模型记忆像素级细节,转而强制学习任务相关特征。
与现有方法的对比
| 模型 | 架构 | 潜在空间类型 | 任务成功率(平均) | 新任务演示效率 | 真实世界部署 |
|---|---|---|---|---|---|
| OneModel 1.7 (沃恩) | Transformer + 隐式通路 | 连续、联合 | 87% | 5次演示 | 是(仓库、家庭) |
| RT-2 (Google DeepMind) | VLM + Token桥接 | 离散、基于文本 | 72% | 15次演示 | 有限(实验室) |
| Octo (UC Berkeley) | 扩散Transformer | 连续、分离 | 68% | 10次演示 | 否(仅仿真) |
| RoboCat (DeepMind) | GNN + 策略 | 离散、基于图 | 75% | 20次演示 | 是(实验室) |
数据要点: OneModel 1.7在任务成功率(87% vs. RT-2的72%)和演示效率(5次 vs. RT-2的15次)上均展现出明显优势,表明隐式通路显著降低了样本复杂度并提升了泛化能力。连续潜在空间在运动控制任务中似乎比基于离散token的桥接方式更为有效。
开源仓库与工具
尽管沃恩机器人并未开源OneModel 1.7本身,但其底层技术大量借鉴了多个开源项目。robomimic仓库(GitHub: ARISE-Initiative/robomimic,2500星)提供了从演示中学习的框架,沃恩很可能用于数据收集。diffusion_policy仓库(GitHub: Diffusion-Policy/diffusion_policy,1200星)直接相关,因为OneModel 1.7的运动解码器采用基于扩散的方法生成平滑、连续的动作序列。此外,cliport仓库(GitHub: cliport/cliport,800星)提供了从视觉学习传输策略的参考,但OneModel 1.7的隐式通路更进一步,消除了显式空间推理步骤。
关键参与者与案例研究
沃恩机器人:从感知到行动
沃恩机器人成立于2021年,创始团队来自清华大学和中国科学院,已将自己定位为“具身基础模型”领域的领导者。其上一代模型OneModel 1.0是一个视觉-语言模型,能够描述场景但无法执行动作。OneModel 1.7是该公司首个直接输出运动指令的模型。公司已完成由红杉中国和高瓴资本领投的5000万美元B轮融资,估值达4亿美元。
竞争格局
| 公司 | 模型 | 核心创新 | 部署场景 | 融资情况 |
|---|---|---|---|---|
| 沃恩机器人 | OneModel 1.7 | 隐式通路 | 仓库、家庭 | 5000万美元(B轮) |
| Google DeepMind | RT-2 / RT-X | 视觉-语言-动作 | 实验室 | 不适用(Alphabet旗下) |
| Covariant | RFM-1 | 机器人基础模型 | 仓库 | 2.22亿美元(C轮) |
| Physical Intelligence | π0 | 全身控制 | 实验室 | 7000万美元(种子轮) |
| Skild AI | Skild | 通用机器人策略 | 实验室 | 3亿美元(A轮) |
数据要点: 与Google DeepMind或Covariant相比,沃恩机器人规模相对较小,但其对隐式通路的专注赋予了独特的技术优势。该公司能够在真实世界的仓库和家庭环境中部署(据其声称),这是一个重要的差异化因素,因为大多数竞争对手仍停留在实验室环境。
案例研究:仓库拣选
一个值得注意的部署案例涉及一家中国大型电商仓库。在该场景中,OneModel 1.7驱动的机器人需要从随机堆叠的料箱中拣选不同形状、尺寸和材质的物品。传统系统需要为每种物品类型预先编程抓取策略,或依赖大量人工遥操作示范。
OneModel 1.7仅通过5次演示就学会了处理新物品类型——操作员手动引导机械臂完成一次抓取,系统即从视觉和运动数据中隐式学习关键特征。在为期三个月的部署中,机器人实现了92%的拣选成功率,平均循环时间仅为4.2秒,与人类工人的速度相当。更重要的是,当引入新物品时,无需重新训练模型;只需额外1-2次演示即可适应。
沃恩机器人报告称,该仓库的拣选错误率降低了78%,人工干预需求减少了65%。这些指标表明,隐式通路方法在现实世界中具有显著的生产力提升潜力。