技术深度解析
清华大学团队的中间表征(IR)架构堪称模块化设计的典范。其核心在于定义了一个共享的潜在空间,能够捕获任何模态(文本、图像、视频或电机指令)的本质语义,同时滤除原始数据的噪声。该架构由三个组件构成:
1. 模态专用编码器:每种输入类型(文本、图像、视频、动作序列)由专用编码器处理。文本使用预训练的BERT模型,视觉使用ViT-L/16,动作使用时序卷积网络。这些编码器生成共同维度(1024维)的嵌入向量。
2. 中间表征融合模块:这是关键创新。团队没有直接拼接嵌入向量或使用交叉注意力,而是引入了一组可学习的“锚点令牌”——64个可学习向量,定义了IR空间的坐标轴。每种模态的嵌入通过交叉注意力机制投影到这些锚点上,生成稀疏、可解释的表征。这些锚点被训练来捕获高层概念,如“物体身份”、“空间关系”、“动作类型”和“时序顺序”。这让人联想到DeepMind的Object-Centric Learning中的“槽注意力”机制,但应用于跨模态对齐。
3. 模态专用解码器:每种输出模态拥有自己的解码器,接收IR表征并生成目标输出。对于机器人控制,这是输出关节角度的扩散策略;对于视频生成,则是级联视频扩散模型。
关键优势在于IR空间是模态无关的。一旦训练完成,你可以通过训练一个新编码器将新输入模态(如触觉反馈)映射到同一IR空间,而无需重新训练系统其余部分。这是一个巨大的工程胜利。
基准性能:团队在RLBench基准(18个操作任务)上评估了IR-Robot,并与三个基线进行了比较:RT-2(Google DeepMind的端到端视觉-语言-动作模型)、PerAct(基于Perceiver)和CLIPort(CLIP + Transporter)。结果如下表所示。
| 模型 | 平均成功率(18个任务) | 对新颖物体的泛化能力 | 所需训练数据 |
|---|---|---|---|
| RT-2(端到端) | 52.1% | 38% | 100万+ episodes |
| PerAct | 61.3% | 45% | 50万 episodes |
| CLIPort | 58.7% | 42% | 30万 episodes |
| IR-Robot(我们的) | 78.4% | 71% | 20万 episodes |
数据要点:IR-Robot比最佳基线(PerAct)提升了26.3个百分点,同时所需训练数据减少60%。对新颖物体的泛化能力——这是实际部署的关键能力——几乎是RT-2的两倍。这表明中间表征捕获了与视觉外观无关的任务相关特征。
在视频生成方面,IR-Video在Something-Something v2(174个动作类别)上进行了评估,并与Video LDM、Imagen Video和Make-A-Video进行了比较。
| 模型 | FID(↓) | CLIP Score(↑) | 时间一致性 |
|---|---|---|---|
| Video LDM | 12.3 | 0.72 | 0.81 |
| Imagen Video | 14.1 | 0.68 | 0.79 |
| Make-A-Video | 11.8 | 0.74 | 0.83 |
| IR-Video(我们的) | 8.7 | 0.81 | 0.91 |
数据要点:IR-Video的FID分数8.7比Make-A-Video提升26%,其时间一致性分数(由人类评分员评定)也显著更高。IR空间将时序顺序显式编码为锚点维度之一,这防止了物体在帧间出现/消失的常见失败模式。
团队已在GitHub上开源了核心IR框架,仓库名为`ir-framework`(目前1200星)。该仓库包含预训练编码器、锚点令牌初始化代码以及用于推理的Colab笔记本。这是对社区的重要贡献,允许其他研究人员接入自己的模态。
关键参与者与案例研究
清华大学IIAI(赵昊团队):赵昊是清华大学人工智能研究院教授,一直是有形AI领域的领军人物。他此前关于“神经状态机”(NeurIPS 2023)的工作为机器人中的结构化表征奠定了基础。四篇CVPR 2026论文代表了三年研究的结晶。团队包括12位合著者,第一作者李伟(IR-Robot)和陈逸飞(IR-Video)分别领导各自项目。
竞争方法:多模态AI领域目前分为端到端模型(Google DeepMind的RT-2、OpenAI的Sora)和模块化方法(Meta的Habitat、NVIDIA的Isaac Sim)。清华大学的IR方法介于两者之间——它是模块化的,但拥有一个可学习的共享空间,而非手工设计的接口。
| 方法 | 代表 | 优势 | 劣势 |
|---|---|---|---|
| 端到端 | RT-2, Sora | 简单的训练流程,涌现能力 | 数据需求大,泛化性差,可解释性低 |
| 模块化 | Habitat, Isaac Sim | 可组合性强,易于调试 | 接口手工设计,跨模态信息丢失 |
| 中间表征(IR) | IR-Robot, IR-Video | 数据高效,泛化性强,可扩展 | 需要设计锚点空间,训练复杂度中等 |