OneModel 1.7隐式通路：重塑具身智能的“脑-体”直连架构

沃恩机器人（Woan Robotics）推出的OneModel 1.7，标志着具身智能架构的根本性变革。传统方法遵循分层路径：视觉数据先被处理、解读、规划，最后才执行动作。OneModel 1.7则将感知输入直接压缩为潜在空间中的动作表征。这条“隐式通路”绕过了显式规划环节，大幅降低了延迟与误差累积。其结果是，机器人的行动如同本能般流畅，而非基于规则推理的僵化执行。早期测试显示，在动态操作任务（如从移动传送带上抓取不规则物体）中，任务完成时间缩短了40%；在精细家务任务（如堆叠形状各异的碗碟）中，成功率提升了60%。这不仅仅是优化，而是一次架构层面的范式跃迁。

技术深度解析

OneModel 1.7的核心创新在于构建了一个融合视觉与运动表征的共享潜在空间。传统具身AI流水线遵循串行架构：视觉编码器（如ResNet或ViT）提取特征，场景理解模块构建3D或语义地图，运动规划器（常采用基于采样的RRT或基于优化的轨迹规划）生成一系列路径点，最后底层控制器执行关节指令。每个阶段都会引入自身延迟（通常每阶段50-150毫秒）并累积误差。

OneModel 1.7用一个端到端的Transformer模型取代了这一切。视觉输入被分词后送入一个大型编码器-解码器Transformer。关键在于，解码器输出的不是规划方案，而是直接的电机扭矩或关节位置。这条“隐式通路”通过一个学习到的交叉注意力机制实现，该机制在潜在空间中连接视觉token与一组可学习的动作token。训练过程中，模型通过模仿学习（基于人类演示）和强化学习（基于任务完成的稀疏奖励信号）进行端到端优化。潜在空间充当了“所见”与“所为”的压缩表征，使模型能够泛化到未见过的物体几何形状与排列方式，而无需显式重新规划。

从工程角度看，该架构大幅减少了规划模块所需的参数量。开源社区已在类似项目中进行过探索，例如robomimic（GitHub: 2.1k星标），它提供了一个从演示中学习的框架；以及act（GitHub: 1.8k星标），一个基于Transformer的机器人操作策略。然而，OneModel 1.7凭借其潜在空间的规模（估计为4096维）以及一种新颖的“动作先验”损失函数脱颖而出，该损失函数鼓励潜在表征随时间保持平滑，从而避免动作抖动。

基准性能对比

| 模型/方法 | 任务成功率（插销插入） | 任务成功率（布料折叠） | 延迟（毫秒，从感知到动作） | 所需训练数据（演示次数） |
|---|---|---|---|---|
| 传统流水线（ViT + RRT） | 72% | 45% | 380 | 10,000 |
| RT-2（Google） | 85% | 62% | 210 | 50,000 |
| OneModel 1.7 | 94% | 81% | 95 | 15,000 |

数据要点： OneModel 1.7在成功率上比现有最佳端到端模型（RT-2）提升了24%，同时训练数据用量减少了70%，延迟降低了一半以上。这表明隐式通路不仅更快，而且样本效率更高，这对实际部署而言是至关重要的优势。

关键玩家与案例研究

沃恩机器人（Woan Robotics）是一家总部位于深圳的公司，成立于2021年，创始团队来自中国科学院和加州大学伯克利分校的前研究人员。该公司在具身智能领域一直相对低调。其前代模型OneModel 1.0（2023年发布）侧重于模块化集成。OneModel 1.7是他们在架构上的首次重大突破。团队由李伟博士领导，他2022年发表的论文《灵巧操作的潜在动作空间》为该模型奠定了理论基础。

竞争方案包括：
- Google DeepMind的RT-2：一个视觉-语言-动作模型，利用网络规模数据进行预训练，但仍依赖显式的动作分词。RT-2展现了令人印象深刻的泛化能力，但在高频力控制方面表现不佳。
- Physical Intelligence的π0（pi-zero）：一个基于流匹配的模型，直接从视觉输入生成动作序列，思路类似但采用扩散方法而非带有隐式交叉注意力的Transformer。
- Tesla Optimus：采用更传统的分层控制器，结合学习到的代价函数，严重依赖基于仿真的训练。

竞争格局对比

| 公司/模型 | 架构类型 | 潜在空间方法 | 商业部署 | 关键弱点 |
|---|---|---|---|---|
| Woan OneModel 1.7 | 端到端Transformer | 隐式交叉注意力 | 试点工厂（2025年） | 仅限于操作任务 |
| Google RT-2 | VLA（视觉-语言-动作） | 显式动作token | 仅限研究 | 数据成本高 |
| Physical Intelligence π0 | 流匹配 | 动作序列上的扩散 | 仓库试验 | 推理速度较慢（200毫秒以上） |
| Tesla Optimus | 分层强化学习 | 学习到的代价函数 | 内部使用 | 对新颖物体泛化能力差 |

数据要点： OneModel 1.7是唯一一个通过设计显式移除规划瓶颈的架构。虽然π0也旨在实现端到端生成，但其扩散过程引入了随机性，这可能对精度要求高的任务造成问题。OneModel 1.7的确定性隐式通路使其在工业环境中具有优势，因为可重复性至关重要。

行业影响与市场动态

隐式通路架构

时间归档

延伸阅读

常见问题

这次模型发布“OneModel 1.7's Implicit Pathway Rewrites Embodied AI's Brain-to-Body Pipeline”的核心内容是什么？

Woan Robotics' OneModel 1.7 represents a fundamental shift in embodied AI architecture. Instead of the conventional layered approach—where visual data is processed, interpreted, pl…

从“OneModel 1.7 vs RT-2 benchmark comparison”看，这个模型发布为什么重要？

OneModel 1.7's core innovation is the construction of a shared latent space that fuses visual and motor representations. Traditional embodied AI pipelines follow a serial architecture: a vision encoder (e.g., a ResNet or…

围绕“Implicit pathway robotics architecture explained”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。