AI的第三种语言：中间表征如何破解多模态融合难题

清华大学人工智能研究院（IIAI）赵昊教授团队的核心洞见在于：直接的跨模态映射——将文本直接翻译为像素级视频或关节角度——从根本上说是脆弱的。当系统试图一步从“拿起杯子”跳到电机指令时，在非结构化环境中必然失败。解决方案是一种结构化的中间表征（IR），它充当共享的语义抽象层。每种模态——语言、视觉、动作——都先转换到这个公共空间，再从中转换出去，而非试图进行不可能的直接翻译。四篇CVPR 2026论文在不同任务中展示了这一方法：一篇用于语言引导的机器人操作（IR-Robot），一篇用于文本生成视频（IR-Video），另外两篇分别涉及跨模态检索和具身导航。实验结果表明，IR-Robot在RLBench基准测试中平均成功率高达78.4%，比最佳基线（PerAct）提升26.3个百分点，且所需训练数据减少60%；IR-Video在Something-Something v2数据集上FID分数达到8.7，比Make-A-Video提升26%，时间一致性也显著更高。该团队已在GitHub上开源核心IR框架（仓库名ir-framework，已获1200星），包含预训练编码器、锚点令牌初始化代码及Colab推理笔记本，为社区提供了重要贡献。

技术深度解析

清华大学团队的中间表征（IR）架构堪称模块化设计的典范。其核心在于定义了一个共享的潜在空间，能够捕获任何模态（文本、图像、视频或电机指令）的本质语义，同时滤除原始数据的噪声。该架构由三个组件构成：

1. 模态专用编码器：每种输入类型（文本、图像、视频、动作序列）由专用编码器处理。文本使用预训练的BERT模型，视觉使用ViT-L/16，动作使用时序卷积网络。这些编码器生成共同维度（1024维）的嵌入向量。

2. 中间表征融合模块：这是关键创新。团队没有直接拼接嵌入向量或使用交叉注意力，而是引入了一组可学习的“锚点令牌”——64个可学习向量，定义了IR空间的坐标轴。每种模态的嵌入通过交叉注意力机制投影到这些锚点上，生成稀疏、可解释的表征。这些锚点被训练来捕获高层概念，如“物体身份”、“空间关系”、“动作类型”和“时序顺序”。这让人联想到DeepMind的Object-Centric Learning中的“槽注意力”机制，但应用于跨模态对齐。

3. 模态专用解码器：每种输出模态拥有自己的解码器，接收IR表征并生成目标输出。对于机器人控制，这是输出关节角度的扩散策略；对于视频生成，则是级联视频扩散模型。

关键优势在于IR空间是模态无关的。一旦训练完成，你可以通过训练一个新编码器将新输入模态（如触觉反馈）映射到同一IR空间，而无需重新训练系统其余部分。这是一个巨大的工程胜利。

基准性能：团队在RLBench基准（18个操作任务）上评估了IR-Robot，并与三个基线进行了比较：RT-2（Google DeepMind的端到端视觉-语言-动作模型）、PerAct（基于Perceiver）和CLIPort（CLIP + Transporter）。结果如下表所示。

| 模型 | 平均成功率（18个任务） | 对新颖物体的泛化能力 | 所需训练数据 |
|---|---|---|---|
| RT-2（端到端） | 52.1% | 38% | 100万+ episodes |
| PerAct | 61.3% | 45% | 50万 episodes |
| CLIPort | 58.7% | 42% | 30万 episodes |
| IR-Robot（我们的） | 78.4% | 71% | 20万 episodes |

数据要点：IR-Robot比最佳基线（PerAct）提升了26.3个百分点，同时所需训练数据减少60%。对新颖物体的泛化能力——这是实际部署的关键能力——几乎是RT-2的两倍。这表明中间表征捕获了与视觉外观无关的任务相关特征。

在视频生成方面，IR-Video在Something-Something v2（174个动作类别）上进行了评估，并与Video LDM、Imagen Video和Make-A-Video进行了比较。

| 模型 | FID（↓） | CLIP Score（↑） | 时间一致性 |
|---|---|---|---|
| Video LDM | 12.3 | 0.72 | 0.81 |
| Imagen Video | 14.1 | 0.68 | 0.79 |
| Make-A-Video | 11.8 | 0.74 | 0.83 |
| IR-Video（我们的） | 8.7 | 0.81 | 0.91 |

数据要点：IR-Video的FID分数8.7比Make-A-Video提升26%，其时间一致性分数（由人类评分员评定）也显著更高。IR空间将时序顺序显式编码为锚点维度之一，这防止了物体在帧间出现/消失的常见失败模式。

团队已在GitHub上开源了核心IR框架，仓库名为`ir-framework`（目前1200星）。该仓库包含预训练编码器、锚点令牌初始化代码以及用于推理的Colab笔记本。这是对社区的重要贡献，允许其他研究人员接入自己的模态。

关键参与者与案例研究

清华大学IIAI（赵昊团队）：赵昊是清华大学人工智能研究院教授，一直是有形AI领域的领军人物。他此前关于“神经状态机”（NeurIPS 2023）的工作为机器人中的结构化表征奠定了基础。四篇CVPR 2026论文代表了三年研究的结晶。团队包括12位合著者，第一作者李伟（IR-Robot）和陈逸飞（IR-Video）分别领导各自项目。

竞争方法：多模态AI领域目前分为端到端模型（Google DeepMind的RT-2、OpenAI的Sora）和模块化方法（Meta的Habitat、NVIDIA的Isaac Sim）。清华大学的IR方法介于两者之间——它是模块化的，但拥有一个可学习的共享空间，而非手工设计的接口。

| 方法 | 代表 | 优势 | 劣势 |
|---|---|---|---|
| 端到端 | RT-2, Sora | 简单的训练流程，涌现能力 | 数据需求大，泛化性差，可解释性低 |
| 模块化 | Habitat, Isaac Sim | 可组合性强，易于调试 | 接口手工设计，跨模态信息丢失 |
| 中间表征（IR） | IR-Robot, IR-Video | 数据高效，泛化性强，可扩展 | 需要设计锚点空间，训练复杂度中等 |

时间归档

延伸阅读

常见问题

这篇关于“AI's Third Language: How Intermediate Representations Solve the Multimodal Puzzle”的文章讲了什么？

The core insight from the Tsinghua team, led by Professor Zhao Hao at the Institute for Artificial Intelligence (IIAI), is that direct cross-modal mapping — translating text direct…

从“What is an intermediate representation in AI and how does it differ from end-to-end learning?”看，这件事为什么值得关注？

The Tsinghua team's intermediate representation (IR) architecture is a masterclass in modular design. At its core, the system defines a shared latent space that captures the essential semantics of any modality — text, im…

如果想继续追踪“Can the IR approach be applied to autonomous driving sensor fusion?”，应该重点看什么？

可以继续查看本文整理的原文链接、相关文章和 AI 分析部分，快速了解事件背景、影响与后续进展。