FP3突破机器人2D视觉瓶颈:3D基础模型斩获ICRA 2026最佳论文奖

June 2026
归档:June 2026
由清华大学高阳团队开发的FP3,一个13亿参数的3D基础策略模型,已入围ICRA 2026最佳论文奖最终名单。它用直接点云观测取代传统2D图像输入,首次赋予机器人真正的几何深度感知能力,标志着具身智能领域的一次范式跃迁。

IEEE国际机器人与自动化大会(ICRA)2026公布了最佳论文奖最终入围名单,其中一项研究堪称范式革命:FP3,一个大规模3D基础策略模型。该模型由清华大学助理教授、具身智能独角兽千寻智能联合创始人兼首席科学家高阳领衔,是一个基于扩散Transformer架构、拥有13亿参数的大模型,在包含点云观测的6万条操作轨迹上完成了预训练。其核心创新激进却简洁:用原始3D点云取代当前主导机器人学习的2D图像输入,使模型天生具备对几何、遮挡和空间关系的理解能力。这彻底超越了那些试图通过后处理推断3D信息的视觉语言模型(VLM)的局限。FP3在模拟和真实世界的基准测试中均实现了15-20个百分点的性能提升,且推理延迟低于Google DeepMind的RT-2-X。该模型已开源,核心组件在GitHub仓库fp3-robot上获得超过2300颗星,并可在单张NVIDIA RTX 4090 GPU上以30Hz频率实时运行。

技术深度解析

FP3的架构堪称数据表示与物理问题匹配的典范。该模型基于扩散Transformer(DiT)骨干网络构建——这类模型在图像和视频合成等生成式任务中已被证明极为高效。在此,扩散过程被应用于动作序列而非像素。输入是一系列点云——通常来自深度相机或LiDAR的每帧16384个点——这些点云经过体素化处理后,通过一个3D稀疏卷积编码器,再进入Transformer。这与基于2D的策略有本质区别:后者用ResNet或ViT编码RGB图像,然后试图通过交叉注意力或深度估计头将特征投影到3D空间。FP3完全消除了这一投影步骤。

13亿的参数规模值得关注。作为对比,Google DeepMind的RT-2估计有550亿参数,但运行在2D图像和文本token上。FP3以约1/40的参数规模,在标准操作基准测试中实现了具有竞争力甚至更优的性能,原因在于其输入表示每字节携带了远更多的几何信息。6万条轨迹的预训练数据集,采集自模拟环境(主要是RLBench和自定义的Franka Emika Panda数据集)以及部分真实世界遥操作,涵盖了多样化的任务:抓取放置、销孔插入、抽屉开启和布料折叠。每条轨迹平均包含120个步骤,总计约720万个点云-动作对。

一项关键的工程贡献是采用了一种新颖的点云token化方案,在保持局部几何结构的同时实现了计算上的可行性。团队在GitHub上以fp3-robot仓库开源了核心组件,该仓库已获得超过2300颗星。仓库包含预训练检查点、一个PyTorch Lightning训练脚本,以及一个ROS 2集成包,可在单张NVIDIA RTX 4090 GPU上以30Hz频率实现实时推理。

基准测试结果(来自FP3论文):

| 模型 | 输入模态 | 参数规模 | RLBench成功率(18项任务平均) | 真实世界抓取放置(未见物体) | 推理延迟(毫秒) |
|---|---|---|---|---|---|
| FP3(我们的) | 点云 | 1.3B | 87.2% | 84.5% | 33 |
| RT-2-X | 2D图像+文本 | 55B(估计) | 72.4% | 63.1% | 120 |
| Octo(1.5B) | 2D图像 | 1.5B | 68.9% | 55.3% | 45 |
| PerAct | 体素化3D | 0.6M | 65.3% | 48.7% | 280 |

数据要点: FP3在模拟和真实世界基准测试中,相比最佳2D模型实现了15-20个百分点的提升,且延迟低于RT-2-X。这证实了直接3D输入不仅在哲学上更简洁,在需要精确空间推理的操作任务中实际上也更优越。

关键玩家与案例研究

FP3的故事离不开其领导者:高阳。作为清华大学人工智能研究院(THUAI)的助理教授,以及千寻智能的联合创始人兼首席科学家,他架起了学术严谨性与产品速度之间的桥梁。千寻智能在2025年第四季度完成B轮融资后估值超过12亿美元,是中国最知名的具身智能初创公司之一。其旗舰产品千寻G1人形机器人目前依赖基于VLM的控制栈。FP3被广泛预期将在预计于2027年初推出的G2代中取代该控制栈。

3D策略领域的其他玩家包括:

- Google DeepMind的RT-2-X:当前视觉-语言-动作模型的事实标准。它采用2D图像+文本提示的方法。虽然具有通用性,但在需要精确深度估计的任务中表现挣扎,例如将销钉插入公差为0.1毫米的孔中。
- Physical Intelligence(π0):由前Google Brain研究员创立的初创公司。其π0模型采用了类似的扩散Transformer方法,但基于2D图像。他们尚未采用点云输入。
- Covariant的RFM-1:一个基于2D图像和文本训练的机器人基础模型。它在结构化环境中的抓取放置任务上表现出色,但在严重遮挡的杂乱场景中失败。
- NVIDIA的Isaac GR00T:一个机器人基础模型平台,但其核心模型(例如GR00T N1)仍以2D为中心,依赖深度估计网络作为后处理步骤。

竞争格局对比:

| 公司/模型 | 输入 | 参数规模 | 预训练数据 | 真实世界部署 |
|---|---|---|---|---|
| FP3(清华/千寻) | 点云 | 1.3B | 6万条轨迹 | 计划用于G2(2027年) |
| RT-2-X(Google) | 2D图像+文本 | 55B | 约10万条轨迹 | 研究实验室 |
| π0(Physical Intelligence) | 2D图像 | 1.2B | 约5万条轨迹 | 与选定合作伙伴进行Beta测试 |
| RFM-1(Covariant) | 2D图像+文本 | 1.8B | 约8万条轨迹 | 商业仓库 |

数据要点: FP3是唯一大规模使用原始3D输入的模型。所有竞争对手都依赖2D图像,这使得FP3成为一个很可能成为未来标准的领域的先行者。

时间归档

June 2026667 篇已发布文章

延伸阅读

ICRA 2026:灵巧手跨越鸿沟,从“能动”迈向“精通”ICRA 2026 见证了灵巧手的分水岭时刻:它们不再是升级版的工业夹爪,而是全面落地的具身智能终端。直驱力控、反向驱动性与多模态触觉融合成为标配,这些手如今能完成装配、折气球狗、发牌等复杂长周期任务,标志着行业焦点从“能否运动”转向“能否数据海绵理论:朱玉可的金字塔策略如何解锁人形机器人规模化在ICRA 2026上,UT Austin副教授朱玉可提出了一个“数据金字塔”框架,将互联网视频、合成数据和真实机器人数据视为互补层级,并以世界模型作为“数据海绵”吸收和统一它们。该方法通过SONIC项目10000小时训练里程碑验证,直接解ICRA 2026双料最佳论文奖:机器人学理论与硬件的划时代共振ICRA 2026在维也纳落下帷幕,三项重磅消息震动学界:罕见的双最佳论文奖、以388票高票当选的最佳硬件展品,以及东京大学全新人形机器人实验室的成立。AINews为您独家深度解析,这些事件如何共同勾勒出机器人学的未来图景。中国机器人军团席卷ICRA 2026:具身智能的深水战正式打响在维也纳举办的ICRA 2026上,宇树科技、千寻智能、帕西尼、智元机器人等十余家中国机器人公司占据主展厅核心位置,展示了融合大语言模型、世界模型与实时运动控制的系统。日本研究者公开承认中国领先地位,标志着全球机器人力量格局发生决定性转变。

常见问题

这次模型发布“FP3 Breaks Robot 2D Vision Barrier: 3D Foundation Model Wins ICRA 2026 Best Paper”的核心内容是什么?

The IEEE International Conference on Robotics and Automation (ICRA) 2026 has announced its Best Paper finalists, and one entry stands out as a paradigm shift: FP3, a large-scale 3D…

从“FP3 vs RT-2 benchmark comparison”看,这个模型发布为什么重要?

FP3's architecture is a masterclass in matching data representation to the physical problem. The model is built on a Diffusion Transformer (DiT) backbone, a class of models that has proven highly effective for generative…

围绕“Qianxun Intelligence G2 robot FP3 integration”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。