技术深度解析
Original Mind 战略的核心,在于摒弃了为语言和机器人分别训练模型的流行范式。相反,该公司正在构建一个共享的潜在空间,其中代码生成与机器人抓取是同一底层推理过程的两种表现形式。据称,该架构采用基于 Transformer 的主干网络,将自然语言指令与感觉运动数据(摄像头画面、关节角度、触觉反馈)统一输入到一个 token 流中。这让人联想到 Google 的 RT-2,但有一个关键区别:该模型在代码合成任务与操控轨迹的混合数据上进行端到端训练,迫使其同时学习任务的抽象结构(通过代码)和执行的具体物理规则(通过抓取)。
一项关键的技术创新是使用了“规划即代码”层。模型不直接输出关节角度,而是首先生成一个用自定义领域特定语言(DSL)编写的符号化计划,描述完成任务所需的一系列操作——例如“定位杯子,接近,对齐夹爪,施加 2N 力,提升 10 厘米”。然后,该计划由一个轻量级执行器编译为底层电机指令。这种分离使得模型能够以高层级、组合的方式推理任务逻辑,而执行器则负责处理物理世界中混乱、连续的动力学问题。该方法受到 MIT Improbable AI Lab 关于“语言作为机器人学习脚手架”研究的启发,但 Original Mind 更进一步,将代码生成作为任务规范的主要接口。
代码生成组件本身基于 CodeLlama-34B 模型的微调变体,其优化目标不仅是生成语法正确的代码,更是生成对于给定规范可证明正确的代码。该模型在一个包含 50 万个任务-代码对的自定义数据集上进行了训练,其中每个任务都用自然语言描述,对应的代码则是对模拟机器人环境的一系列 API 调用。该数据集通过 GPT-4 生成的合成数据进行扩充,然后使用形式化验证器进行正确性过滤。最终模型在 HumanEval 基准测试上达到了 78% 的通过率——与 GPT-4 的 67% 相比具有竞争力,但参数量小得多,表明效率更高。
在抓取方面,该模型使用基于扩散的策略,在 DROID 数据集(150 万个真实世界抓取片段)和 Meta Grasping Dataset 上进行训练。关键挑战在于弥合符号化计划与连续电机命令之间的鸿沟。Original Mind 通过训练一个“残差策略”来解决这个问题,该策略基于实时视觉反馈来修正执行器的输出。这个残差策略是一个小型神经网络(200 万个参数),以 100 Hz 的频率运行,而主模型则以 10 Hz 的频率运行。这种分层设计让人联想到强化学习中使用的“演员-评论家”架构,但应用于监督学习场景。
| 模型 | 参数量 | HumanEval 通过率 | 抓取成功率(YCB 物体) | 延迟(规划+执行) |
|---|---|---|---|---|
| Original Mind 统一模型 | ~35B(估计) | 78% | 89% | 1.2s |
| GPT-4 + RT-2(分离) | ~1.8T(估计) | 67% | 82% | 2.5s |
| CodeLlama-34B + ACT | ~34B + 2M | 74% | 85% | 1.8s |
| PaLM-E(Google) | ~562B | 62% | 79% | 3.1s |
数据要点: Original Mind 的统一架构在代码生成和抓取基准测试上均达到或超越了竞争对手,同时使用的参数量远少于 GPT-4 + RT-2。1.2 秒的规划与执行延迟对于实时机器人应用来说是一个重大优势,表明共享表示减少了冗余计算。
关键玩家与案例研究
Original Mind 并非孤军奋战,但其统一方法使其独树一帜。关键玩家包括:
- Google DeepMind (RT-2, PaLM-E): 最突出的竞争对手。RT-2 使用基于网络数据和机器人数据训练的视觉-语言-动作模型,但它不显式生成代码。PaLM-E 集成了语言、视觉和动作,但模型庞大(562B 参数),不适用于实时控制。Google 的策略是扩大模型规模,而 Original Mind 则专注于架构效率。
- Covariant (Robotics Foundation Model): Covariant 的 RFM-1 是一个多模态模型,在文本、图像和机器人动作上训练。它擅长抓取,但没有专门的代码生成组件。Covariant 的策略是构建一个通用机器人大脑,但缺乏代码提供的符号推理层。
- Physical Intelligence (π0): 一家由前 Google 研究人员创立的初创公司,π0 正在构建一个机器人基础模型。他们的方法与 Original Mind 类似,都使用基于扩散的策略,但不集成代码生成。他们的重点在于灵巧操作,而非高层级规划。
- F