技术深度解析
OneModel 1.7的核心创新在于构建了一个融合视觉与运动表征的共享潜在空间。传统具身AI流水线遵循串行架构:视觉编码器(如ResNet或ViT)提取特征,场景理解模块构建3D或语义地图,运动规划器(常采用基于采样的RRT或基于优化的轨迹规划)生成一系列路径点,最后底层控制器执行关节指令。每个阶段都会引入自身延迟(通常每阶段50-150毫秒)并累积误差。
OneModel 1.7用一个端到端的Transformer模型取代了这一切。视觉输入被分词后送入一个大型编码器-解码器Transformer。关键在于,解码器输出的不是规划方案,而是直接的电机扭矩或关节位置。这条“隐式通路”通过一个学习到的交叉注意力机制实现,该机制在潜在空间中连接视觉token与一组可学习的动作token。训练过程中,模型通过模仿学习(基于人类演示)和强化学习(基于任务完成的稀疏奖励信号)进行端到端优化。潜在空间充当了“所见”与“所为”的压缩表征,使模型能够泛化到未见过的物体几何形状与排列方式,而无需显式重新规划。
从工程角度看,该架构大幅减少了规划模块所需的参数量。开源社区已在类似项目中进行过探索,例如robomimic(GitHub: 2.1k星标),它提供了一个从演示中学习的框架;以及act(GitHub: 1.8k星标),一个基于Transformer的机器人操作策略。然而,OneModel 1.7凭借其潜在空间的规模(估计为4096维)以及一种新颖的“动作先验”损失函数脱颖而出,该损失函数鼓励潜在表征随时间保持平滑,从而避免动作抖动。
基准性能对比
| 模型/方法 | 任务成功率(插销插入) | 任务成功率(布料折叠) | 延迟(毫秒,从感知到动作) | 所需训练数据(演示次数) |
|---|---|---|---|---|
| 传统流水线(ViT + RRT) | 72% | 45% | 380 | 10,000 |
| RT-2(Google) | 85% | 62% | 210 | 50,000 |
| OneModel 1.7 | 94% | 81% | 95 | 15,000 |
数据要点: OneModel 1.7在成功率上比现有最佳端到端模型(RT-2)提升了24%,同时训练数据用量减少了70%,延迟降低了一半以上。这表明隐式通路不仅更快,而且样本效率更高,这对实际部署而言是至关重要的优势。
关键玩家与案例研究
沃恩机器人(Woan Robotics)是一家总部位于深圳的公司,成立于2021年,创始团队来自中国科学院和加州大学伯克利分校的前研究人员。该公司在具身智能领域一直相对低调。其前代模型OneModel 1.0(2023年发布)侧重于模块化集成。OneModel 1.7是他们在架构上的首次重大突破。团队由李伟博士领导,他2022年发表的论文《灵巧操作的潜在动作空间》为该模型奠定了理论基础。
竞争方案包括:
- Google DeepMind的RT-2:一个视觉-语言-动作模型,利用网络规模数据进行预训练,但仍依赖显式的动作分词。RT-2展现了令人印象深刻的泛化能力,但在高频力控制方面表现不佳。
- Physical Intelligence的π0(pi-zero):一个基于流匹配的模型,直接从视觉输入生成动作序列,思路类似但采用扩散方法而非带有隐式交叉注意力的Transformer。
- Tesla Optimus:采用更传统的分层控制器,结合学习到的代价函数,严重依赖基于仿真的训练。
竞争格局对比
| 公司/模型 | 架构类型 | 潜在空间方法 | 商业部署 | 关键弱点 |
|---|---|---|---|---|
| Woan OneModel 1.7 | 端到端Transformer | 隐式交叉注意力 | 试点工厂(2025年) | 仅限于操作任务 |
| Google RT-2 | VLA(视觉-语言-动作) | 显式动作token | 仅限研究 | 数据成本高 |
| Physical Intelligence π0 | 流匹配 | 动作序列上的扩散 | 仓库试验 | 推理速度较慢(200毫秒以上) |
| Tesla Optimus | 分层强化学习 | 学习到的代价函数 | 内部使用 | 对新颖物体泛化能力差 |
数据要点: OneModel 1.7是唯一一个通过设计显式移除规划瓶颈的架构。虽然π0也旨在实现端到端生成,但其扩散过程引入了随机性,这可能对精度要求高的任务造成问题。OneModel 1.7的确定性隐式通路使其在工业环境中具有优势,因为可重复性至关重要。
行业影响与市场动态
隐式通路架构