OneModel 1.7隐式通路：让AI从“看见”到“动手”再无鸿沟

中国初创公司沃恩机器人（WoAn Robotics）近日发布OneModel 1.7，这是一款从根本上重新定义机器人如何将视觉输入转化为物理动作的模型。其核心创新在于直接在模型潜在空间中构建了一条隐式通路，实现了从感知到运动控制的端到端直接流动。这消除了传统上依赖手工编码规则或大量遥操作的需求——这些方法一直是让机器人在非结构化环境中实现真正自主的瓶颈。

传统具身智能系统通常分两个独立阶段运行：视觉模型感知世界，然后由独立的控制系统规划并执行动作。这种分离带来了延迟、误差累积以及无法实时适应环境变化等问题。OneModel 1.7将这两个阶段压缩进一个统一的架构，通过隐式通路在视觉编码器与运动解码器之间建立直接连接。

在技术实现上，该模型采用改进的Transformer架构，配合交叉注意力层，通过对比学习方式训练，使视觉与运动表征之间的距离最小化。训练数据包含来自仿真环境（MuJoCo、Isaac Gym）和真实世界遥操作的配对视频序列与机器人关节轨迹，总计超过1000万时间步，覆盖500种不同的操作任务。

与Google DeepMind的RT-2、UC Berkeley的Octo等主流模型相比，OneModel 1.7在任务成功率（87% vs. 72%）和新任务演示效率（仅需5次演示 vs. 15次）上均展现出明显优势。沃恩机器人已获得红杉中国和高瓴资本领投的5000万美元B轮融资，估值达4亿美元，并已在仓库和家庭场景中实现实际部署。

技术深度解析

隐式通路架构

OneModel 1.7的核心架构创新在于引入了一条“隐式通路”，在共享潜在空间中直接连接视觉编码器与运动解码器。与传统的视觉-语言-动作（VLA）模型（如Google的RT-2）不同——后者使用显式token或基于文本的桥接层，先将视觉token转化为文本token再生成动作——OneModel 1.7完全在连续潜在空间中运行。这意味着模型学习到一个联合嵌入空间，其中视觉特征向量（例如杯子的形状和姿态）与运动基元向量（例如抓取所需的扭矩和角度）直接相邻。

从技术层面看，这是通过改进的Transformer架构配合交叉注意力层实现的，训练目标是以对比学习方式最小化视觉与运动表征之间的距离。训练数据包含配对视频序列与机器人关节轨迹，数据来源包括仿真环境（使用MuJoCo和Isaac Gym）和真实世界遥操作。模型在超过1000万时间步的数据集上进行了预训练，覆盖500种不同的操作任务。

一个关键细节是“潜在瓶颈”的使用，它迫使模型将视觉信息压缩到一个可直接执行的低维流形中。这类似于人脑背侧通路处理空间信息以指导动作的方式，与腹侧通路负责物体识别相分离。该瓶颈防止模型记忆像素级细节，转而强制学习任务相关特征。

与现有方法的对比

| 模型 | 架构 | 潜在空间类型 | 任务成功率（平均） | 新任务演示效率 | 真实世界部署 |
|---|---|---|---|---|---|
| OneModel 1.7 (沃恩) | Transformer + 隐式通路 | 连续、联合 | 87% | 5次演示 | 是（仓库、家庭） |
| RT-2 (Google DeepMind) | VLM + Token桥接 | 离散、基于文本 | 72% | 15次演示 | 有限（实验室） |
| Octo (UC Berkeley) | 扩散Transformer | 连续、分离 | 68% | 10次演示 | 否（仅仿真） |
| RoboCat (DeepMind) | GNN + 策略 | 离散、基于图 | 75% | 20次演示 | 是（实验室） |

数据要点： OneModel 1.7在任务成功率（87% vs. RT-2的72%）和演示效率（5次 vs. RT-2的15次）上均展现出明显优势，表明隐式通路显著降低了样本复杂度并提升了泛化能力。连续潜在空间在运动控制任务中似乎比基于离散token的桥接方式更为有效。

开源仓库与工具

尽管沃恩机器人并未开源OneModel 1.7本身，但其底层技术大量借鉴了多个开源项目。robomimic仓库（GitHub: ARISE-Initiative/robomimic，2500星）提供了从演示中学习的框架，沃恩很可能用于数据收集。diffusion_policy仓库（GitHub: Diffusion-Policy/diffusion_policy，1200星）直接相关，因为OneModel 1.7的运动解码器采用基于扩散的方法生成平滑、连续的动作序列。此外，cliport仓库（GitHub: cliport/cliport，800星）提供了从视觉学习传输策略的参考，但OneModel 1.7的隐式通路更进一步，消除了显式空间推理步骤。

关键参与者与案例研究

沃恩机器人：从感知到行动

沃恩机器人成立于2021年，创始团队来自清华大学和中国科学院，已将自己定位为“具身基础模型”领域的领导者。其上一代模型OneModel 1.0是一个视觉-语言模型，能够描述场景但无法执行动作。OneModel 1.7是该公司首个直接输出运动指令的模型。公司已完成由红杉中国和高瓴资本领投的5000万美元B轮融资，估值达4亿美元。

竞争格局

| 公司 | 模型 | 核心创新 | 部署场景 | 融资情况 |
|---|---|---|---|---|
| 沃恩机器人 | OneModel 1.7 | 隐式通路 | 仓库、家庭 | 5000万美元（B轮） |
| Google DeepMind | RT-2 / RT-X | 视觉-语言-动作 | 实验室 | 不适用（Alphabet旗下） |
| Covariant | RFM-1 | 机器人基础模型 | 仓库 | 2.22亿美元（C轮） |
| Physical Intelligence | π0 | 全身控制 | 实验室 | 7000万美元（种子轮） |
| Skild AI | Skild | 通用机器人策略 | 实验室 | 3亿美元（A轮） |

数据要点： 与Google DeepMind或Covariant相比，沃恩机器人规模相对较小，但其对隐式通路的专注赋予了独特的技术优势。该公司能够在真实世界的仓库和家庭环境中部署（据其声称），这是一个重要的差异化因素，因为大多数竞争对手仍停留在实验室环境。

案例研究：仓库拣选

一个值得注意的部署案例涉及一家中国大型电商仓库。在该场景中，OneModel 1.7驱动的机器人需要从随机堆叠的料箱中拣选不同形状、尺寸和材质的物品。传统系统需要为每种物品类型预先编程抓取策略，或依赖大量人工遥操作示范。

OneModel 1.7仅通过5次演示就学会了处理新物品类型——操作员手动引导机械臂完成一次抓取，系统即从视觉和运动数据中隐式学习关键特征。在为期三个月的部署中，机器人实现了92%的拣选成功率，平均循环时间仅为4.2秒，与人类工人的速度相当。更重要的是，当引入新物品时，无需重新训练模型；只需额外1-2次演示即可适应。

沃恩机器人报告称，该仓库的拣选错误率降低了78%，人工干预需求减少了65%。这些指标表明，隐式通路方法在现实世界中具有显著的生产力提升潜力。

时间归档

延伸阅读

常见问题

这次模型发布“OneModel 1.7's Implicit Pathway Bridges the Gap Between AI Seeing and Doing”的核心内容是什么？

WoAn Robotics, a Chinese startup focused on embodied AI, has released OneModel 1.7, a model that fundamentally rethinks how robots translate visual input into physical action. The…

从“OneModel 1.7 vs RT-2 implicit pathway comparison”看，这个模型发布为什么重要？

The central architectural innovation in OneModel 1.7 is the introduction of an 'implicit pathway' that connects the visual encoder to the motor decoder within a shared latent space. Unlike conventional Vision-Language-Ac…

围绕“WoAn Robotics OneModel 1.7 open source release date”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。