FP3突破机器人2D视觉瓶颈：3D基础模型斩获ICRA 2026最佳论文奖

IEEE国际机器人与自动化大会（ICRA）2026公布了最佳论文奖最终入围名单，其中一项研究堪称范式革命：FP3，一个大规模3D基础策略模型。该模型由清华大学助理教授、具身智能独角兽千寻智能联合创始人兼首席科学家高阳领衔，是一个基于扩散Transformer架构、拥有13亿参数的大模型，在包含点云观测的6万条操作轨迹上完成了预训练。其核心创新激进却简洁：用原始3D点云取代当前主导机器人学习的2D图像输入，使模型天生具备对几何、遮挡和空间关系的理解能力。这彻底超越了那些试图通过后处理推断3D信息的视觉语言模型（VLM）的局限。FP3在模拟和真实世界的基准测试中均实现了15-20个百分点的性能提升，且推理延迟低于Google DeepMind的RT-2-X。该模型已开源，核心组件在GitHub仓库fp3-robot上获得超过2300颗星，并可在单张NVIDIA RTX 4090 GPU上以30Hz频率实时运行。

技术深度解析

FP3的架构堪称数据表示与物理问题匹配的典范。该模型基于扩散Transformer（DiT）骨干网络构建——这类模型在图像和视频合成等生成式任务中已被证明极为高效。在此，扩散过程被应用于动作序列而非像素。输入是一系列点云——通常来自深度相机或LiDAR的每帧16384个点——这些点云经过体素化处理后，通过一个3D稀疏卷积编码器，再进入Transformer。这与基于2D的策略有本质区别：后者用ResNet或ViT编码RGB图像，然后试图通过交叉注意力或深度估计头将特征投影到3D空间。FP3完全消除了这一投影步骤。

13亿的参数规模值得关注。作为对比，Google DeepMind的RT-2估计有550亿参数，但运行在2D图像和文本token上。FP3以约1/40的参数规模，在标准操作基准测试中实现了具有竞争力甚至更优的性能，原因在于其输入表示每字节携带了远更多的几何信息。6万条轨迹的预训练数据集，采集自模拟环境（主要是RLBench和自定义的Franka Emika Panda数据集）以及部分真实世界遥操作，涵盖了多样化的任务：抓取放置、销孔插入、抽屉开启和布料折叠。每条轨迹平均包含120个步骤，总计约720万个点云-动作对。

一项关键的工程贡献是采用了一种新颖的点云token化方案，在保持局部几何结构的同时实现了计算上的可行性。团队在GitHub上以fp3-robot仓库开源了核心组件，该仓库已获得超过2300颗星。仓库包含预训练检查点、一个PyTorch Lightning训练脚本，以及一个ROS 2集成包，可在单张NVIDIA RTX 4090 GPU上以30Hz频率实现实时推理。

基准测试结果（来自FP3论文）：

| 模型 | 输入模态 | 参数规模 | RLBench成功率（18项任务平均） | 真实世界抓取放置（未见物体） | 推理延迟（毫秒） |
|---|---|---|---|---|---|
| FP3（我们的） | 点云 | 1.3B | 87.2% | 84.5% | 33 |
| RT-2-X | 2D图像+文本 | 55B（估计） | 72.4% | 63.1% | 120 |
| Octo（1.5B） | 2D图像 | 1.5B | 68.9% | 55.3% | 45 |
| PerAct | 体素化3D | 0.6M | 65.3% | 48.7% | 280 |

数据要点： FP3在模拟和真实世界基准测试中，相比最佳2D模型实现了15-20个百分点的提升，且延迟低于RT-2-X。这证实了直接3D输入不仅在哲学上更简洁，在需要精确空间推理的操作任务中实际上也更优越。

关键玩家与案例研究

FP3的故事离不开其领导者：高阳。作为清华大学人工智能研究院（THUAI）的助理教授，以及千寻智能的联合创始人兼首席科学家，他架起了学术严谨性与产品速度之间的桥梁。千寻智能在2025年第四季度完成B轮融资后估值超过12亿美元，是中国最知名的具身智能初创公司之一。其旗舰产品千寻G1人形机器人目前依赖基于VLM的控制栈。FP3被广泛预期将在预计于2027年初推出的G2代中取代该控制栈。

3D策略领域的其他玩家包括：

- Google DeepMind的RT-2-X：当前视觉-语言-动作模型的事实标准。它采用2D图像+文本提示的方法。虽然具有通用性，但在需要精确深度估计的任务中表现挣扎，例如将销钉插入公差为0.1毫米的孔中。
- Physical Intelligence（π0）：由前Google Brain研究员创立的初创公司。其π0模型采用了类似的扩散Transformer方法，但基于2D图像。他们尚未采用点云输入。
- Covariant的RFM-1：一个基于2D图像和文本训练的机器人基础模型。它在结构化环境中的抓取放置任务上表现出色，但在严重遮挡的杂乱场景中失败。
- NVIDIA的Isaac GR00T：一个机器人基础模型平台，但其核心模型（例如GR00T N1）仍以2D为中心，依赖深度估计网络作为后处理步骤。

竞争格局对比：

| 公司/模型 | 输入 | 参数规模 | 预训练数据 | 真实世界部署 |
|---|---|---|---|---|
| FP3（清华/千寻） | 点云 | 1.3B | 6万条轨迹 | 计划用于G2（2027年） |
| RT-2-X（Google） | 2D图像+文本 | 55B | 约10万条轨迹 | 研究实验室 |
| π0（Physical Intelligence） | 2D图像 | 1.2B | 约5万条轨迹 | 与选定合作伙伴进行Beta测试 |
| RFM-1（Covariant） | 2D图像+文本 | 1.8B | 约8万条轨迹 | 商业仓库 |

数据要点： FP3是唯一大规模使用原始3D输入的模型。所有竞争对手都依赖2D图像，这使得FP3成为一个很可能成为未来标准的领域的先行者。

时间归档

延伸阅读

常见问题

这次模型发布“FP3 Breaks Robot 2D Vision Barrier: 3D Foundation Model Wins ICRA 2026 Best Paper”的核心内容是什么？

The IEEE International Conference on Robotics and Automation (ICRA) 2026 has announced its Best Paper finalists, and one entry stands out as a paradigm shift: FP3, a large-scale 3D…

从“FP3 vs RT-2 benchmark comparison”看，这个模型发布为什么重要？

FP3's architecture is a masterclass in matching data representation to the physical problem. The model is built on a Diffusion Transformer (DiT) backbone, a class of models that has proven highly effective for generative…

围绕“Qianxun Intelligence G2 robot FP3 integration”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。