技术深度解析
新瓦机器人的“世界遍历模型”(WTM)代表了与机器人导航领域两大主流范式——经典SLAM和现代VLM(视觉-语言模型)方法——的彻底决裂。
经典SLAM 依赖概率滤波(例如卡尔曼滤波、粒子滤波)来构建环境的静态地图,同时估计机器人在该地图中的位姿。这在受控的静态环境中效果良好,但当环境发生变化——椅子被移动、门被打开、有人走过——时就会失效。实时更新地图的计算成本随环境规模呈二次方增长,而且SLAM没有时间因果性的概念:它无法预测一扇正在关闭的门会在2秒后挡住通道。
基于VLM的导航(例如CLIP、RT-2、PaLM-E)将导航视为一个视觉问答问题:机器人看到图像,语言模型对其进行解读,然后输出电机指令。虽然灵活,但这种方法存在高延迟(通常每次推理200-500毫秒)、3D空间推理能力差,以及无法对连续时间进行建模的根本性缺陷——视频只是一系列离散帧,而非流动的因果过程。
WTM建立在三个新颖的架构组件之上:
1. 因果空间图(CSG): 与度量地图不同,WTM构建了一个图,其中节点代表“情境状态”(例如,“机器人在门口,门开着”),边代表因果转换(例如,“如果机器人向前移动1米,门的状态变为在身后”)。这是从经验中学习而来,而非预先编程。
2. 时间连续性引擎(TCE): 一个轻量级的循环神经网络,用于预测连续时间内的下一个状态,而非固定时间间隔。这使得机器人能够预测移动障碍物(例如,一个正在行走的人)并主动调整轨迹,而非被动反应。
3. 动作策略网络(APN): 一个小型Transformer(约3亿参数),将当前的CSG状态和TCE预测映射为低级电机指令。关键创新在于APN是与硬件无关的——它输出一个标准化的“动作向量”,由硬件特定的适配器将其转换为关节扭矩或轮速。
| 特性 | 经典SLAM | 基于VLM(RT-2) | WTM(新瓦) |
|---|---|---|---|
| 地图类型 | 静态度量地图 | 隐式(视觉记忆) | 因果图 |
| 时间建模 | 无 | 离散帧 | 连续时间流 |
| 每次决策延迟 | 10-50毫秒 | 200-500毫秒 | 15-30毫秒 |
| 对动态环境的适应性 | 差 | 中等 | 高 |
| 硬件独立性 | 低(紧密耦合) | 中等(需要摄像头) | 高(动作向量抽象) |
| 开源参考 | ORB-SLAM3(GitHub,7000星) | RT-2(Google,无公开模型) | 专有 |
数据要点: WTM相对于VLM方法的延迟优势(15-30毫秒 vs 200-500毫秒)对于拥挤空间中的实时导航至关重要。然而,其因果图方法在大规模场景下尚未得到验证——目前演示的最大CSG是一个包含10,000个节点的仓库模拟。扩展到城市级环境将需要大量的工程投入。
关键参与者与案例研究
新瓦机器人正进入一个拥挤但碎片化的市场。主要竞争对手及其策略如下:
1. 传统SLAM供应商: 像 SLAMcore(英国)和 禾赛科技(中国)这样的公司提供硬件优化的SLAM库。它们拥有多年的现场数据,但在架构上局限于静态环境。新瓦向OEM厂商的推销点是:“当你的机器人因为一个箱子掉在过道里就罢工时,为什么还要为SLAM许可付费?”
2. VLM优先的机器人实验室: Google DeepMind(RT-2、AutoRT)、Covariant(抓取与放置)和 Physical Intelligence(π0)正在追求用于机器人技术的大型基础模型。这些系统擅长语义理解(“拿起红色杯子”),但在精确、连续的导航方面表现挣扎。新瓦的WTM具有互补性——它可以在VLM的“大脑皮层”之下充当“运动皮层”。
3. 端到端学习初创公司: Skild AI(融资3亿美元)和 Figure AI(融资6.75亿美元)正在用机器人数据训练庞大的神经网络。它们的方法是蛮力式的:更多数据,更大模型。新瓦的赌注是,一个更小、结构更清晰的模型(WTM)将更具样本效率和泛化能力。
| 公司 | 方法 | 融资额 | 核心产品 | 目标市场 |
|---|---|---|---|---|
| 新瓦机器人 | WTM(因果+时间) | 700万美元天使轮 | WTM中间件 | 服务、物流、人形机器人OEM |
| Skild AI | 大型基础模型 | 3亿美元 | Skild Brain | 通用操作 |
| SLAMcore | SLAM+传感器融合 | 5000万美元 | SLAMcore SDK | 工业AGV、无人机 |
| Covariant | VLM+强化学习 | 2.25亿美元 | Covariant Brain | 仓库拣选 |
| Physical Intelligence | VLM+扩散模型 | 4亿美元 | π0 | 通用操作 |
数据要点: 新瓦的700万美元天使轮融资与竞争对手数亿美元的融资相比微不足道。这既是劣势(计算预算更少),也是优势(更聚焦)。