代码生成与机器人抓取：AI 战场的新两极

一场悄然但决定性的转变正在人工智能领域发生。大语言模型的战场已不再是对话流畅度或事实记忆——而是代码生成。编写功能完整、逻辑严谨的代码，已成为检验推理、规划与结构化思维的终极压力测试。与此同时，在具身智能领域，抓取与操控物体的能力已取代行走或简单对话，成为物理智能的基础基准。相对低调的 Original Mind 公司，战略性地将自己定位在这两条轴线的交汇点。该公司并未将代码生成与机器人操控视为两个独立领域，而是正在开发一种统一架构，让两种能力共享同一套认知与推理基础。

技术深度解析

Original Mind 战略的核心，在于摒弃了为语言和机器人分别训练模型的流行范式。相反，该公司正在构建一个共享的潜在空间，其中代码生成与机器人抓取是同一底层推理过程的两种表现形式。据称，该架构采用基于 Transformer 的主干网络，将自然语言指令与感觉运动数据（摄像头画面、关节角度、触觉反馈）统一输入到一个 token 流中。这让人联想到 Google 的 RT-2，但有一个关键区别：该模型在代码合成任务与操控轨迹的混合数据上进行端到端训练，迫使其同时学习任务的抽象结构（通过代码）和执行的具体物理规则（通过抓取）。

一项关键的技术创新是使用了“规划即代码”层。模型不直接输出关节角度，而是首先生成一个用自定义领域特定语言（DSL）编写的符号化计划，描述完成任务所需的一系列操作——例如“定位杯子，接近，对齐夹爪，施加 2N 力，提升 10 厘米”。然后，该计划由一个轻量级执行器编译为底层电机指令。这种分离使得模型能够以高层级、组合的方式推理任务逻辑，而执行器则负责处理物理世界中混乱、连续的动力学问题。该方法受到 MIT Improbable AI Lab 关于“语言作为机器人学习脚手架”研究的启发，但 Original Mind 更进一步，将代码生成作为任务规范的主要接口。

代码生成组件本身基于 CodeLlama-34B 模型的微调变体，其优化目标不仅是生成语法正确的代码，更是生成对于给定规范可证明正确的代码。该模型在一个包含 50 万个任务-代码对的自定义数据集上进行了训练，其中每个任务都用自然语言描述，对应的代码则是对模拟机器人环境的一系列 API 调用。该数据集通过 GPT-4 生成的合成数据进行扩充，然后使用形式化验证器进行正确性过滤。最终模型在 HumanEval 基准测试上达到了 78% 的通过率——与 GPT-4 的 67% 相比具有竞争力，但参数量小得多，表明效率更高。

在抓取方面，该模型使用基于扩散的策略，在 DROID 数据集（150 万个真实世界抓取片段）和 Meta Grasping Dataset 上进行训练。关键挑战在于弥合符号化计划与连续电机命令之间的鸿沟。Original Mind 通过训练一个“残差策略”来解决这个问题，该策略基于实时视觉反馈来修正执行器的输出。这个残差策略是一个小型神经网络（200 万个参数），以 100 Hz 的频率运行，而主模型则以 10 Hz 的频率运行。这种分层设计让人联想到强化学习中使用的“演员-评论家”架构，但应用于监督学习场景。

| 模型 | 参数量 | HumanEval 通过率 | 抓取成功率（YCB 物体） | 延迟（规划+执行） |
|---|---|---|---|---|
| Original Mind 统一模型 | ~35B（估计） | 78% | 89% | 1.2s |
| GPT-4 + RT-2（分离） | ~1.8T（估计） | 67% | 82% | 2.5s |
| CodeLlama-34B + ACT | ~34B + 2M | 74% | 85% | 1.8s |
| PaLM-E（Google） | ~562B | 62% | 79% | 3.1s |

数据要点： Original Mind 的统一架构在代码生成和抓取基准测试上均达到或超越了竞争对手，同时使用的参数量远少于 GPT-4 + RT-2。1.2 秒的规划与执行延迟对于实时机器人应用来说是一个重大优势，表明共享表示减少了冗余计算。

关键玩家与案例研究

Original Mind 并非孤军奋战，但其统一方法使其独树一帜。关键玩家包括：

- Google DeepMind (RT-2, PaLM-E)： 最突出的竞争对手。RT-2 使用基于网络数据和机器人数据训练的视觉-语言-动作模型，但它不显式生成代码。PaLM-E 集成了语言、视觉和动作，但模型庞大（562B 参数），不适用于实时控制。Google 的策略是扩大模型规模，而 Original Mind 则专注于架构效率。
- Covariant (Robotics Foundation Model)： Covariant 的 RFM-1 是一个多模态模型，在文本、图像和机器人动作上训练。它擅长抓取，但没有专门的代码生成组件。Covariant 的策略是构建一个通用机器人大脑，但缺乏代码提供的符号推理层。
- Physical Intelligence (π0)： 一家由前 Google 研究人员创立的初创公司，π0 正在构建一个机器人基础模型。他们的方法与 Original Mind 类似，都使用基于扩散的策略，但不集成代码生成。他们的重点在于灵巧操作，而非高层级规划。
- F

时间归档

延伸阅读

常见问题

这次公司发布“Why Code Generation and Robotic Grasping Are AI's New Battlegrounds”主要讲了什么？

A quiet but decisive shift is underway in artificial intelligence. The battleground for large language models is no longer just conversational fluency or factual recall—it is code…

从“Original Mind unified architecture code generation grasping”看，这家公司的这次发布为什么值得关注？

At the core of Original Mind's strategy is a departure from the dominant paradigm of training separate models for language and robotics. Instead, the company is building a shared latent space where code generation and ro…

围绕“Original Mind vs Google RT-2 PaLM-E comparison”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。