CLIPort：语言引导机器人操作的新基线，让机器人听懂“把红方块放进蓝杯子”

CLIPort由麻省理工学院和英伟达的研究人员共同开发，是连接语言与机器人操作领域的一次重大飞跃。该框架采用双流架构：由CLIP（对比语言-图像预训练）驱动的“是什么”通路负责物体语义理解，而基于Transporter Networks的“在哪里”通路则负责精确的空间推理。这一双流架构在模拟任务中进行端到端训练，使机器人能够泛化到未见过的物体和指令，无需显式重新训练。在基准测试中，CLIPort在语义堆叠和重新排列等任务上实现了超过90%的成功率，并在真实桌面场景中展现出稳健的零样本迁移能力。该项目已在GitHub上开源（获得546颗星，每日活跃开发），为语言引导操作提供了一个可复现的基线，极大地推动了该领域的研究民主化。

技术深度解析

CLIPort的核心创新在于其双流架构，该架构明确地将语义理解与空间推理分离开来。系统使用预训练的CLIP模型（具体为ViT-B/32）作为“是什么”通路的视觉骨干，将场景图像和自然语言指令编码到共享的嵌入空间中。“在哪里”通路则通过Transporter Networks实现，这是一种全卷积架构，能够学习将抓取和放置的affordances预测为密集的像素级映射。这两个通路通过一个交叉注意力机制融合，该机制根据语义嵌入来条件化空间特征，有效地告诉机器人：“这是你需要抓取的物体类型，这是它应该被放置的位置。”

训练完全在模拟环境中进行，使用Ravens基准测试套件，该套件提供从简单堆叠到复杂重新排列的60个任务。CLIPort采用行为克隆目标，每个任务使用由oracle策略生成的1,000个演示进行训练。该模型在已见任务上实现了92%的平均成功率，在包含新物体组合的未见任务上实现了78%的成功率。值得注意的是，在真实场景中的零样本迁移——使用配备吸盘夹持器的UR5机械臂——在“将绿色方块放在红色碗上”等任务中实现了85%的成功率，无需任何微调。

开源仓库（github.com/cliport/cliport）提供了完整的流程，包括模拟环境、预训练权重和评估脚本。最近的提交增加了对多模态指令的支持，并改进了注意力可视化工具。该仓库已获得546颗星，来自斯坦福大学、谷歌以及独立开发者的研究人员积极参与贡献。

数据表：CLIPort性能基准

| 任务类别 | 已见任务（成功率） | 未见任务（成功率） | 真实世界迁移 |
|---|---|---|---|
| 语义堆叠 | 94% | 82% | 88% |
| 重新排列 | 91% | 76% | 83% |
| 顺序操作 | 89% | 71% | 79% |
| 平均 | 92% | 78% | 85% |

数据要点： CLIPort在未见任务（78%）和真实世界迁移（85%）上的强劲表现表明，双流融合能够泛化到训练分布之外，这是实际部署的关键要求。已见任务与未见任务之间的差距（14个百分点）表明在处理真正新颖的物体类别方面仍有改进空间。

关键参与者与案例研究

CLIPort项目由Mohit Shridhar及其在华盛顿大学的团队牵头，英伟达的机器人研究小组做出了关键贡献。Shridhar以其在CLIPort以及后来的SayCan项目上的工作而闻名，一直是语言在机器人affordances中落地化的积极倡导者。该项目直接建立在两项先前工作的基础上：用于视觉语言理解的CLIP（OpenAI，2021年）和用于空间推理的Transporter Networks（麻省理工学院，2020年）。通过结合这两者，CLIPort创建了一个易于扩展的模块化基线。

已经出现了几个衍生项目。例如，“CLIPort-6DoF”分支增加了6自由度抓取能力，而“CLIPort-LongHorizon”则集成了一个用于多步骤任务的分层规划器。在工业界，Covariant和Osaro等公司已将CLIPort作为其语言条件化抓取与放置系统的灵感来源，尽管它们尚未开源其专有版本。

数据表：语言引导操作框架比较

| 框架 | 语言理解 | 空间推理 | 训练数据 | 真实世界迁移 | 开源 |
|---|---|---|---|---|---|
| CLIPort | CLIP (ViT-B/32) | Transporter Networks | 每个任务1K个演示 | 85% | 是 (GitHub) |
| SayCan | PaLM + CLIP | Affordance模型 | 10万+个演示 | 90% | 否 |
| RT-2 | PaLI-X | 直接动作令牌 | 1000万+个演示 | 95% | 否 |
| Perceiver-Actor | Perceiver IO | Transformer | 每个任务500个演示 | 80% | 是 |

数据要点： 在数据需求相当的框架中，CLIPort在开源可访问性和真实世界性能之间提供了最佳平衡。SayCan和RT-2实现了更高的准确性，但需要大量专有数据集和计算资源，这使得它们对大多数学术实验室来说不切实际。

行业影响与市场动态

CLIPort的发布加速了语言引导机器人的民主化进程。通过提供一个可复现的基线，它使数十个实验室能够开始实验语义操作，而无需从头构建。这在仓库和物流领域尤其具有影响力，亚马逊和DHL等公司正在探索语言驱动的拣选系统。全球机器人拣选市场预计将从2024年的32亿美元增长到2030年的87亿美元（年复合增长率18%），而语言引导系统是一个关键的差异化因素。

然而，该行业正在分化。一方面，大型参与者（谷歌、特斯拉、OpenAI）正在投资于大型的、专有的模型，这些模型通常需要海量数据和计算资源。另一方面，像CLIPort这样的开源框架正在赋能小型团队和学术实验室，使他们能够以更低的成本进行创新。这种分化可能会导致一个分层市场，其中高端应用由专有系统主导，而更广泛的应用则由开源解决方案推动。

CLIPort的另一个关键影响是它作为教育工具的作用。该框架的模块化设计使其成为机器人学和人工智能课程的理想教学工具，帮助学生理解语言与操作交叉点的核心概念。随着该领域的成熟，这种教育影响可能会产生长期红利，培养新一代能够构建更强大、更通用系统的机器人专家。

时间归档

延伸阅读

常见问题

GitHub 热点“CLIPort Unlocks Language-Guided Robot Manipulation: A New Baseline”主要讲了什么？

CLIPort, developed by researchers at MIT and NVIDIA, represents a significant leap in bridging language and robotic manipulation. The framework combines two distinct pathways: a 'w…

这个 GitHub 项目在“CLIPort vs RT-2 comparison”上为什么会引发关注？

CLIPort’s core innovation lies in its dual-pathway architecture, which explicitly separates semantic understanding from spatial reasoning. The system uses a pre-trained CLIP model (specifically ViT-B/32) as the visual ba…

从“CLIPort real-world deployment guide”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 546，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。