新瓦机器人融资700万美元,推出“世界遍历模型”:具身智能新范式

June 2026
embodied AI归档:June 2026
新瓦机器人(Newwa Robotics)凭借其“世界遍历模型”(WTM)获得700万美元天使轮融资。该模型是一种认知架构,旨在为机器人提供用于自主移动与交互的“通用大脑”。与主流的视觉-语言模型不同,WTM聚焦于空间因果性与时间连续性,有望实现从静态地图到动态自适应导航的根本性转变。

新瓦机器人,一家致力于为机器人开发名为“世界遍历模型”(WTM)的通用“大脑”的初创公司,宣布完成由多家硬科技投资者领投的700万美元天使轮融资。该公司的核心论点是,当前机器人智能的瓶颈在于过度依赖静态地图和预编程路径——这是SLAM(同步定位与地图构建)技术的遗留问题——这种模式在医院、仓库和户外地形等动态、非结构化环境中会失效。WTM被定位为一种直接替代方案:一种将空间和时间建模为连续、因果结构的认知架构,使机器人能够推理“如果我移动到这儿会发生什么?”,而不仅仅是“我在这张地图上的哪个位置?”。这是对“具身行动智能”的一次押注,以对抗主流的视觉-语言模型方法。

技术深度解析

新瓦机器人的“世界遍历模型”(WTM)代表了与机器人导航领域两大主流范式——经典SLAM和现代VLM(视觉-语言模型)方法——的彻底决裂。

经典SLAM 依赖概率滤波(例如卡尔曼滤波、粒子滤波)来构建环境的静态地图,同时估计机器人在该地图中的位姿。这在受控的静态环境中效果良好,但当环境发生变化——椅子被移动、门被打开、有人走过——时就会失效。实时更新地图的计算成本随环境规模呈二次方增长,而且SLAM没有时间因果性的概念:它无法预测一扇正在关闭的门会在2秒后挡住通道。

基于VLM的导航(例如CLIP、RT-2、PaLM-E)将导航视为一个视觉问答问题:机器人看到图像,语言模型对其进行解读,然后输出电机指令。虽然灵活,但这种方法存在高延迟(通常每次推理200-500毫秒)、3D空间推理能力差,以及无法对连续时间进行建模的根本性缺陷——视频只是一系列离散帧,而非流动的因果过程。

WTM建立在三个新颖的架构组件之上:

1. 因果空间图(CSG): 与度量地图不同,WTM构建了一个图,其中节点代表“情境状态”(例如,“机器人在门口,门开着”),边代表因果转换(例如,“如果机器人向前移动1米,门的状态变为在身后”)。这是从经验中学习而来,而非预先编程。

2. 时间连续性引擎(TCE): 一个轻量级的循环神经网络,用于预测连续时间内的下一个状态,而非固定时间间隔。这使得机器人能够预测移动障碍物(例如,一个正在行走的人)并主动调整轨迹,而非被动反应。

3. 动作策略网络(APN): 一个小型Transformer(约3亿参数),将当前的CSG状态和TCE预测映射为低级电机指令。关键创新在于APN是与硬件无关的——它输出一个标准化的“动作向量”,由硬件特定的适配器将其转换为关节扭矩或轮速。

| 特性 | 经典SLAM | 基于VLM(RT-2) | WTM(新瓦) |
|---|---|---|---|
| 地图类型 | 静态度量地图 | 隐式(视觉记忆) | 因果图 |
| 时间建模 | 无 | 离散帧 | 连续时间流 |
| 每次决策延迟 | 10-50毫秒 | 200-500毫秒 | 15-30毫秒 |
| 对动态环境的适应性 | 差 | 中等 | 高 |
| 硬件独立性 | 低(紧密耦合) | 中等(需要摄像头) | 高(动作向量抽象) |
| 开源参考 | ORB-SLAM3(GitHub,7000星) | RT-2(Google,无公开模型) | 专有 |

数据要点: WTM相对于VLM方法的延迟优势(15-30毫秒 vs 200-500毫秒)对于拥挤空间中的实时导航至关重要。然而,其因果图方法在大规模场景下尚未得到验证——目前演示的最大CSG是一个包含10,000个节点的仓库模拟。扩展到城市级环境将需要大量的工程投入。

关键参与者与案例研究

新瓦机器人正进入一个拥挤但碎片化的市场。主要竞争对手及其策略如下:

1. 传统SLAM供应商:SLAMcore(英国)和 禾赛科技(中国)这样的公司提供硬件优化的SLAM库。它们拥有多年的现场数据,但在架构上局限于静态环境。新瓦向OEM厂商的推销点是:“当你的机器人因为一个箱子掉在过道里就罢工时,为什么还要为SLAM许可付费?”

2. VLM优先的机器人实验室: Google DeepMind(RT-2、AutoRT)、Covariant(抓取与放置)和 Physical Intelligence(π0)正在追求用于机器人技术的大型基础模型。这些系统擅长语义理解(“拿起红色杯子”),但在精确、连续的导航方面表现挣扎。新瓦的WTM具有互补性——它可以在VLM的“大脑皮层”之下充当“运动皮层”。

3. 端到端学习初创公司: Skild AI(融资3亿美元)和 Figure AI(融资6.75亿美元)正在用机器人数据训练庞大的神经网络。它们的方法是蛮力式的:更多数据,更大模型。新瓦的赌注是,一个更小、结构更清晰的模型(WTM)将更具样本效率和泛化能力。

| 公司 | 方法 | 融资额 | 核心产品 | 目标市场 |
|---|---|---|---|---|
| 新瓦机器人 | WTM(因果+时间) | 700万美元天使轮 | WTM中间件 | 服务、物流、人形机器人OEM |
| Skild AI | 大型基础模型 | 3亿美元 | Skild Brain | 通用操作 |
| SLAMcore | SLAM+传感器融合 | 5000万美元 | SLAMcore SDK | 工业AGV、无人机 |
| Covariant | VLM+强化学习 | 2.25亿美元 | Covariant Brain | 仓库拣选 |
| Physical Intelligence | VLM+扩散模型 | 4亿美元 | π0 | 通用操作 |

数据要点: 新瓦的700万美元天使轮融资与竞争对手数亿美元的融资相比微不足道。这既是劣势(计算预算更少),也是优势(更聚焦)。

相关专题

embodied AI204 篇相关文章

时间归档

June 20263070 篇已发布文章

延伸阅读

29岁港产博士的柔性机械臂,一年融资1亿美元,重塑具身智能格局一位29岁的香港博士创立的具身智能初创公司,在一年内完成四轮融资,其核心产品是一款仿生柔性机械臂。该技术融合软体机器人与AI世界模型,突破了传统工业机械臂的刚性限制,在非结构化环境中展现出前所未有的灵巧性。广州“芯片-机器人”共生闭环:中国硬件复兴的底层密码千年商都广州,正悄然褪去贸易港口的旧标签,蜕变为硬科技创新的熔炉。AINews 深度解析:一场由机器人产业对定制芯片的“饥渴”需求引爆的共生循环,正在催生本土芯片设计新势力,并反向赋能机器人以成本、时延与智能的绝对优势。这不仅是产业扩张,更华为、腾讯、百度激战机器人“大脑”:AI新前沿的生态之争华为、腾讯、百度三大中国科技巨头在数周内相继发布竞争性具身智能平台,标志着机器人产业从硬件竞赛转向认知架构的决战。这场围绕“机器人大脑”的争夺,已演变为一场全面的生态系统战争。八台人形机器人连续工作66小时:具身智能的工业转折点在一项里程碑式的测试中,八台人形机器人在真实工厂环境中连续六天、每天工作11小时。这标志着行业基准从“能否完成任务”转向“能否持续完成任务”——这是迈向商业化、重塑工业劳动形态的关键一步。

常见问题

这起“Newwa Robotics Raises $7M for World Traversal Model, a New Paradigm in Embodied AI”融资事件讲了什么?

Newwa Robotics, a startup developing a universal 'brain' for robots called the World Traversal Model (WTM), announced a $7 million angel round led by multiple hard-tech investors.…

从“What is the World Traversal Model (WTM) and how does it differ from SLAM?”看,为什么这笔融资值得关注?

Newwa's World Traversal Model (WTM) represents a radical departure from the two dominant paradigms in robot navigation: classical SLAM and modern VLM-based approaches. Classical SLAM relies on probabilistic filtering (e.…

这起融资事件在“Newwa Robotics vs Skild AI vs Covariant: which embodied AI approach is better?”上释放了什么行业信号?

它通常意味着该赛道正在进入资源加速集聚期,后续值得继续关注团队扩张、产品落地、商业化验证和同类公司跟进。