技术深度解析
FP3的架构堪称数据表示与物理问题匹配的典范。该模型基于扩散Transformer(DiT)骨干网络构建——这类模型在图像和视频合成等生成式任务中已被证明极为高效。在此,扩散过程被应用于动作序列而非像素。输入是一系列点云——通常来自深度相机或LiDAR的每帧16384个点——这些点云经过体素化处理后,通过一个3D稀疏卷积编码器,再进入Transformer。这与基于2D的策略有本质区别:后者用ResNet或ViT编码RGB图像,然后试图通过交叉注意力或深度估计头将特征投影到3D空间。FP3完全消除了这一投影步骤。
13亿的参数规模值得关注。作为对比,Google DeepMind的RT-2估计有550亿参数,但运行在2D图像和文本token上。FP3以约1/40的参数规模,在标准操作基准测试中实现了具有竞争力甚至更优的性能,原因在于其输入表示每字节携带了远更多的几何信息。6万条轨迹的预训练数据集,采集自模拟环境(主要是RLBench和自定义的Franka Emika Panda数据集)以及部分真实世界遥操作,涵盖了多样化的任务:抓取放置、销孔插入、抽屉开启和布料折叠。每条轨迹平均包含120个步骤,总计约720万个点云-动作对。
一项关键的工程贡献是采用了一种新颖的点云token化方案,在保持局部几何结构的同时实现了计算上的可行性。团队在GitHub上以fp3-robot仓库开源了核心组件,该仓库已获得超过2300颗星。仓库包含预训练检查点、一个PyTorch Lightning训练脚本,以及一个ROS 2集成包,可在单张NVIDIA RTX 4090 GPU上以30Hz频率实现实时推理。
基准测试结果(来自FP3论文):
| 模型 | 输入模态 | 参数规模 | RLBench成功率(18项任务平均) | 真实世界抓取放置(未见物体) | 推理延迟(毫秒) |
|---|---|---|---|---|---|
| FP3(我们的) | 点云 | 1.3B | 87.2% | 84.5% | 33 |
| RT-2-X | 2D图像+文本 | 55B(估计) | 72.4% | 63.1% | 120 |
| Octo(1.5B) | 2D图像 | 1.5B | 68.9% | 55.3% | 45 |
| PerAct | 体素化3D | 0.6M | 65.3% | 48.7% | 280 |
数据要点: FP3在模拟和真实世界基准测试中,相比最佳2D模型实现了15-20个百分点的提升,且延迟低于RT-2-X。这证实了直接3D输入不仅在哲学上更简洁,在需要精确空间推理的操作任务中实际上也更优越。
关键玩家与案例研究
FP3的故事离不开其领导者:高阳。作为清华大学人工智能研究院(THUAI)的助理教授,以及千寻智能的联合创始人兼首席科学家,他架起了学术严谨性与产品速度之间的桥梁。千寻智能在2025年第四季度完成B轮融资后估值超过12亿美元,是中国最知名的具身智能初创公司之一。其旗舰产品千寻G1人形机器人目前依赖基于VLM的控制栈。FP3被广泛预期将在预计于2027年初推出的G2代中取代该控制栈。
3D策略领域的其他玩家包括:
- Google DeepMind的RT-2-X:当前视觉-语言-动作模型的事实标准。它采用2D图像+文本提示的方法。虽然具有通用性,但在需要精确深度估计的任务中表现挣扎,例如将销钉插入公差为0.1毫米的孔中。
- Physical Intelligence(π0):由前Google Brain研究员创立的初创公司。其π0模型采用了类似的扩散Transformer方法,但基于2D图像。他们尚未采用点云输入。
- Covariant的RFM-1:一个基于2D图像和文本训练的机器人基础模型。它在结构化环境中的抓取放置任务上表现出色,但在严重遮挡的杂乱场景中失败。
- NVIDIA的Isaac GR00T:一个机器人基础模型平台,但其核心模型(例如GR00T N1)仍以2D为中心,依赖深度估计网络作为后处理步骤。
竞争格局对比:
| 公司/模型 | 输入 | 参数规模 | 预训练数据 | 真实世界部署 |
|---|---|---|---|---|
| FP3(清华/千寻) | 点云 | 1.3B | 6万条轨迹 | 计划用于G2(2027年) |
| RT-2-X(Google) | 2D图像+文本 | 55B | 约10万条轨迹 | 研究实验室 |
| π0(Physical Intelligence) | 2D图像 | 1.2B | 约5万条轨迹 | 与选定合作伙伴进行Beta测试 |
| RFM-1(Covariant) | 2D图像+文本 | 1.8B | 约8万条轨迹 | 商业仓库 |
数据要点: FP3是唯一大规模使用原始3D输入的模型。所有竞争对手都依赖2D图像,这使得FP3成为一个很可能成为未来标准的领域的先行者。