OneModel 1.7隐式通路:重塑具身智能的“脑-体”直连架构

June 2026
embodied AI归档:June 2026
沃恩机器人发布OneModel 1.7,在潜在空间中构建了一条直接的“隐式通路”,彻底摒弃了传统的感知-规划-执行流水线。机器人无需显式的逐步推理,即可从场景理解直接跃迁至正确动作的执行。

沃恩机器人(Woan Robotics)推出的OneModel 1.7,标志着具身智能架构的根本性变革。传统方法遵循分层路径:视觉数据先被处理、解读、规划,最后才执行动作。OneModel 1.7则将感知输入直接压缩为潜在空间中的动作表征。这条“隐式通路”绕过了显式规划环节,大幅降低了延迟与误差累积。其结果是,机器人的行动如同本能般流畅,而非基于规则推理的僵化执行。早期测试显示,在动态操作任务(如从移动传送带上抓取不规则物体)中,任务完成时间缩短了40%;在精细家务任务(如堆叠形状各异的碗碟)中,成功率提升了60%。这不仅仅是优化,而是一次架构层面的范式跃迁。

技术深度解析

OneModel 1.7的核心创新在于构建了一个融合视觉与运动表征的共享潜在空间。传统具身AI流水线遵循串行架构:视觉编码器(如ResNet或ViT)提取特征,场景理解模块构建3D或语义地图,运动规划器(常采用基于采样的RRT或基于优化的轨迹规划)生成一系列路径点,最后底层控制器执行关节指令。每个阶段都会引入自身延迟(通常每阶段50-150毫秒)并累积误差。

OneModel 1.7用一个端到端的Transformer模型取代了这一切。视觉输入被分词后送入一个大型编码器-解码器Transformer。关键在于,解码器输出的不是规划方案,而是直接的电机扭矩或关节位置。这条“隐式通路”通过一个学习到的交叉注意力机制实现,该机制在潜在空间中连接视觉token与一组可学习的动作token。训练过程中,模型通过模仿学习(基于人类演示)和强化学习(基于任务完成的稀疏奖励信号)进行端到端优化。潜在空间充当了“所见”与“所为”的压缩表征,使模型能够泛化到未见过的物体几何形状与排列方式,而无需显式重新规划。

从工程角度看,该架构大幅减少了规划模块所需的参数量。开源社区已在类似项目中进行过探索,例如robomimic(GitHub: 2.1k星标),它提供了一个从演示中学习的框架;以及act(GitHub: 1.8k星标),一个基于Transformer的机器人操作策略。然而,OneModel 1.7凭借其潜在空间的规模(估计为4096维)以及一种新颖的“动作先验”损失函数脱颖而出,该损失函数鼓励潜在表征随时间保持平滑,从而避免动作抖动。

基准性能对比

| 模型/方法 | 任务成功率(插销插入) | 任务成功率(布料折叠) | 延迟(毫秒,从感知到动作) | 所需训练数据(演示次数) |
|---|---|---|---|---|
| 传统流水线(ViT + RRT) | 72% | 45% | 380 | 10,000 |
| RT-2(Google) | 85% | 62% | 210 | 50,000 |
| OneModel 1.7 | 94% | 81% | 95 | 15,000 |

数据要点: OneModel 1.7在成功率上比现有最佳端到端模型(RT-2)提升了24%,同时训练数据用量减少了70%,延迟降低了一半以上。这表明隐式通路不仅更快,而且样本效率更高,这对实际部署而言是至关重要的优势。

关键玩家与案例研究

沃恩机器人(Woan Robotics)是一家总部位于深圳的公司,成立于2021年,创始团队来自中国科学院和加州大学伯克利分校的前研究人员。该公司在具身智能领域一直相对低调。其前代模型OneModel 1.0(2023年发布)侧重于模块化集成。OneModel 1.7是他们在架构上的首次重大突破。团队由李伟博士领导,他2022年发表的论文《灵巧操作的潜在动作空间》为该模型奠定了理论基础。

竞争方案包括:
- Google DeepMind的RT-2:一个视觉-语言-动作模型,利用网络规模数据进行预训练,但仍依赖显式的动作分词。RT-2展现了令人印象深刻的泛化能力,但在高频力控制方面表现不佳。
- Physical Intelligence的π0(pi-zero):一个基于流匹配的模型,直接从视觉输入生成动作序列,思路类似但采用扩散方法而非带有隐式交叉注意力的Transformer。
- Tesla Optimus:采用更传统的分层控制器,结合学习到的代价函数,严重依赖基于仿真的训练。

竞争格局对比

| 公司/模型 | 架构类型 | 潜在空间方法 | 商业部署 | 关键弱点 |
|---|---|---|---|---|
| Woan OneModel 1.7 | 端到端Transformer | 隐式交叉注意力 | 试点工厂(2025年) | 仅限于操作任务 |
| Google RT-2 | VLA(视觉-语言-动作) | 显式动作token | 仅限研究 | 数据成本高 |
| Physical Intelligence π0 | 流匹配 | 动作序列上的扩散 | 仓库试验 | 推理速度较慢(200毫秒以上) |
| Tesla Optimus | 分层强化学习 | 学习到的代价函数 | 内部使用 | 对新颖物体泛化能力差 |

数据要点: OneModel 1.7是唯一一个通过设计显式移除规划瓶颈的架构。虽然π0也旨在实现端到端生成,但其扩散过程引入了随机性,这可能对精度要求高的任务造成问题。OneModel 1.7的确定性隐式通路使其在工业环境中具有优势,因为可重复性至关重要。

行业影响与市场动态

隐式通路架构

相关专题

embodied AI156 篇相关文章

时间归档

June 2026364 篇已发布文章

延伸阅读

OneModel 1.7隐式通路:让AI从“看见”到“动手”再无鸿沟沃恩机器人发布OneModel 1.7,一款面向具身智能的基础模型,其核心创新在于在潜在空间中引入“隐式通路”。这一架构突破使视觉感知能直接生成精准运动指令,绕开传统翻译层,彻底打通理解与行动之间的关键断层。前美团外卖掌门人押注厨房机器人,避开人形机器人风口,以AI重塑烹饪前美团外卖负责人创立元界智能,获数千万元种子轮融资,专注具身智能厨房机器人。这家初创公司绕开人形机器人热潮,瞄准重复性烹饪任务,利用AI视觉与机械臂将每道菜转化为训练数据。仓库机器人击败人形机器人,夺得具身智能基准测试冠军一台在顺丰速运和中国邮政仓库中运行的包裹分拣机器人,在最新的RoboChallenge具身智能基准测试中夺得最高分。这台由清华关联团队开发的机器,其成功挑战了行业对人形形态的痴迷,证明了经过环境检验的实用智能可以超越更复杂的系统。华为静默大迁徙:正在重塑中国具身AI版图的系统工程师军团一场无声却剧烈的人才迁徙正在重塑中国具身智能(Embodied AI)的产业格局。我们的深度调查发现,从中央研究院到自动驾驶实验室,数百名前华为工程师正以创始人或核心技术负责人的身份,占据国内超过半数具身AI初创公司的关键岗位,为这个新兴行

常见问题

这次模型发布“OneModel 1.7's Implicit Pathway Rewrites Embodied AI's Brain-to-Body Pipeline”的核心内容是什么?

Woan Robotics' OneModel 1.7 represents a fundamental shift in embodied AI architecture. Instead of the conventional layered approach—where visual data is processed, interpreted, pl…

从“OneModel 1.7 vs RT-2 benchmark comparison”看,这个模型发布为什么重要?

OneModel 1.7's core innovation is the construction of a shared latent space that fuses visual and motor representations. Traditional embodied AI pipelines follow a serial architecture: a vision encoder (e.g., a ResNet or…

围绕“Implicit pathway robotics architecture explained”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。