技术深度解析
通用直觉的核心创新并非新的模型架构,而是一条全新的数据流水线。该公司构建了一套专有基础设施,用于从大量商业和开源游戏中摄取、解析和标注原始游戏遥测数据。这些数据不仅仅是截图或视频帧,而是包含游戏环境的完整状态——位置、速度、生命值、库存,以及导致每个结果的人类输入(键盘、鼠标、手柄)的精确序列。
训练流水线可能包含三个阶段:
1. 行为克隆(BC): 基于Transformer的模型通过监督学习进行训练,根据当前游戏状态预测下一个人类动作。这类似于大型语言模型预测下一个token的方式。模型学习到一个模仿人类行为的策略。
2. 逆强化学习(IRL): 为了超越简单的模仿,系统推断出人类正在优化的潜在奖励函数。例如,在赛车游戏中,模型会学习到人类重视速度、避开障碍物并保持控制——而不仅仅是按顺序按键。
3. 域随机化与微调: 学习到的策略随后被迁移到模拟物理环境中(例如,MuJoCo或Isaac Gym模拟器中的机械臂),并对物理参数(摩擦力、质量、光照)进行大量随机化,迫使模型学习鲁棒的特征,而不仅仅是游戏特定的捷径。
相关开源仓库:
- `minigrid`(GitHub,约5000星): 一个极简的网格世界环境,常用于测试行为克隆和逆强化学习算法。通用直觉的方法可以看作这些实验的大规模版本。
- `habitat-lab`(GitHub,约3000星): 一个用于在逼真3D环境中训练具身AI智能体的平台。该公司可能使用类似的模拟栈进行微调。
- `stable-baselines3`(GitHub,约10000星): 一个强化学习算法库。虽然通用直觉的核心方法是模仿学习,但他们可能使用强化学习在模拟环境中微调策略。
基准性能(假设性对比):
| 任务 | 传统强化学习(模拟到现实) | 行为克隆(实验室数据) | 通用直觉(游戏数据) |
|---|---|---|---|
| 机器人抓取(成功率) | 65% | 45% | 78%(预估) |
| 自主导航(碰撞率) | 12% | 22% | 8%(预估) |
| 数据采集成本(每100万样本) | 50,000美元(模拟计算) | 200,000美元(人工标注) | 5,000美元(游戏数据授权) |
| 场景多样性 | 低(受限于模拟器) | 中等(脚本化) | 非常高(非脚本化的人类行为) |
数据要点: 该表格展示了核心价值主张:游戏数据大幅降低了数据采集成本,同时可能提供比传统方法更高的多样性和更优的初始性能。关键未知因素是,预估的78%抓取成功率在真实世界部署中(而非受控实验室中)能否成立。
关键参与者与案例研究
通用直觉并非唯一认识到人类行为数据价值的公司。其他几家公司和研究团队也在探索类似的策略:
竞争方法:
| 公司/项目 | 方法 | 融资 | 重点领域 | 关键优势 |
|---|---|---|---|---|
| 通用直觉 | 游戏行为克隆 | 3.2亿美元(A轮) | 通用智能体 | 数据规模、任务多样性 |
| Physical Intelligence (π) | 机器人特定数据 + 强化学习 | 4亿美元(A轮) | 机器人操作 | 直接模拟到现实、硬件专长 |
| Covariant | 专有机器人集群数据 | 2.22亿美元(总计) | 仓储机器人 | 真实世界部署、闭环学习 |
| Google DeepMind (RT-2) | 网络规模的视觉-语言-动作 | 不适用(内部) | 通用机器人 | 大型预训练模型、零样本迁移 |
| OpenAI (VPT) | Minecraft游戏数据 | 不适用(研究) | 游戏内智能体 | 概念验证、开源数据集 |
案例研究:OpenAI的VPT(视频预训练)
OpenAI于2022年发布的视频预训练(VPT)项目,是通用直觉论点最直接的学术概念验证。VPT使用了7万小时的人类Minecraft游戏数据来训练一个基础模型,随后该模型可通过微调执行复杂任务,例如制作钻石镐——这需要50多个连续动作。该模型在多项任务上达到了人类水平的表现。通用直觉正在将这一想法扩展到数百款不同的游戏中,从即时战略游戏(星际争霸)到物理沙盒游戏(王国之泪),再到第一人称射击游戏(反恐精英)。
关键研究者观点:
斯坦福大学教授、机器人学习领域的领军人物Chelsea Finn博士曾指出:“从人类视频中进行模仿学习是通往通用机器人最可扩展的路径,但视频数据与机器人物理现实之间的领域差距仍然是核心瓶颈。”