AI的第三种语言:中间表征如何破解多模态融合难题

May 2026
multimodal AIrobotics归档:May 2026
清华大学团队提出颠覆性多模态AI新范式:不再强行建立语言、视觉与动作之间的直接映射,而是引入共享的“中间表征”——一种简化跨模态翻译的第三种语言。四篇被CVPR 2026接收的论文揭示了统一设计哲学,有望重塑机器人、AR/VR与自动驾驶领域。

清华大学人工智能研究院(IIAI)赵昊教授团队的核心洞见在于:直接的跨模态映射——将文本直接翻译为像素级视频或关节角度——从根本上说是脆弱的。当系统试图一步从“拿起杯子”跳到电机指令时,在非结构化环境中必然失败。解决方案是一种结构化的中间表征(IR),它充当共享的语义抽象层。每种模态——语言、视觉、动作——都先转换到这个公共空间,再从中转换出去,而非试图进行不可能的直接翻译。四篇CVPR 2026论文在不同任务中展示了这一方法:一篇用于语言引导的机器人操作(IR-Robot),一篇用于文本生成视频(IR-Video),另外两篇分别涉及跨模态检索和具身导航。实验结果表明,IR-Robot在RLBench基准测试中平均成功率高达78.4%,比最佳基线(PerAct)提升26.3个百分点,且所需训练数据减少60%;IR-Video在Something-Something v2数据集上FID分数达到8.7,比Make-A-Video提升26%,时间一致性也显著更高。该团队已在GitHub上开源核心IR框架(仓库名ir-framework,已获1200星),包含预训练编码器、锚点令牌初始化代码及Colab推理笔记本,为社区提供了重要贡献。

技术深度解析

清华大学团队的中间表征(IR)架构堪称模块化设计的典范。其核心在于定义了一个共享的潜在空间,能够捕获任何模态(文本、图像、视频或电机指令)的本质语义,同时滤除原始数据的噪声。该架构由三个组件构成:

1. 模态专用编码器:每种输入类型(文本、图像、视频、动作序列)由专用编码器处理。文本使用预训练的BERT模型,视觉使用ViT-L/16,动作使用时序卷积网络。这些编码器生成共同维度(1024维)的嵌入向量。

2. 中间表征融合模块:这是关键创新。团队没有直接拼接嵌入向量或使用交叉注意力,而是引入了一组可学习的“锚点令牌”——64个可学习向量,定义了IR空间的坐标轴。每种模态的嵌入通过交叉注意力机制投影到这些锚点上,生成稀疏、可解释的表征。这些锚点被训练来捕获高层概念,如“物体身份”、“空间关系”、“动作类型”和“时序顺序”。这让人联想到DeepMind的Object-Centric Learning中的“槽注意力”机制,但应用于跨模态对齐。

3. 模态专用解码器:每种输出模态拥有自己的解码器,接收IR表征并生成目标输出。对于机器人控制,这是输出关节角度的扩散策略;对于视频生成,则是级联视频扩散模型。

关键优势在于IR空间是模态无关的。一旦训练完成,你可以通过训练一个新编码器将新输入模态(如触觉反馈)映射到同一IR空间,而无需重新训练系统其余部分。这是一个巨大的工程胜利。

基准性能:团队在RLBench基准(18个操作任务)上评估了IR-Robot,并与三个基线进行了比较:RT-2(Google DeepMind的端到端视觉-语言-动作模型)、PerAct(基于Perceiver)和CLIPort(CLIP + Transporter)。结果如下表所示。

| 模型 | 平均成功率(18个任务) | 对新颖物体的泛化能力 | 所需训练数据 |
|---|---|---|---|
| RT-2(端到端) | 52.1% | 38% | 100万+ episodes |
| PerAct | 61.3% | 45% | 50万 episodes |
| CLIPort | 58.7% | 42% | 30万 episodes |
| IR-Robot(我们的) | 78.4% | 71% | 20万 episodes |

数据要点:IR-Robot比最佳基线(PerAct)提升了26.3个百分点,同时所需训练数据减少60%。对新颖物体的泛化能力——这是实际部署的关键能力——几乎是RT-2的两倍。这表明中间表征捕获了与视觉外观无关的任务相关特征。

在视频生成方面,IR-Video在Something-Something v2(174个动作类别)上进行了评估,并与Video LDM、Imagen Video和Make-A-Video进行了比较。

| 模型 | FID(↓) | CLIP Score(↑) | 时间一致性 |
|---|---|---|---|
| Video LDM | 12.3 | 0.72 | 0.81 |
| Imagen Video | 14.1 | 0.68 | 0.79 |
| Make-A-Video | 11.8 | 0.74 | 0.83 |
| IR-Video(我们的) | 8.7 | 0.81 | 0.91 |

数据要点:IR-Video的FID分数8.7比Make-A-Video提升26%,其时间一致性分数(由人类评分员评定)也显著更高。IR空间将时序顺序显式编码为锚点维度之一,这防止了物体在帧间出现/消失的常见失败模式。

团队已在GitHub上开源了核心IR框架,仓库名为`ir-framework`(目前1200星)。该仓库包含预训练编码器、锚点令牌初始化代码以及用于推理的Colab笔记本。这是对社区的重要贡献,允许其他研究人员接入自己的模态。

关键参与者与案例研究

清华大学IIAI(赵昊团队):赵昊是清华大学人工智能研究院教授,一直是有形AI领域的领军人物。他此前关于“神经状态机”(NeurIPS 2023)的工作为机器人中的结构化表征奠定了基础。四篇CVPR 2026论文代表了三年研究的结晶。团队包括12位合著者,第一作者李伟(IR-Robot)和陈逸飞(IR-Video)分别领导各自项目。

竞争方法:多模态AI领域目前分为端到端模型(Google DeepMind的RT-2、OpenAI的Sora)和模块化方法(Meta的Habitat、NVIDIA的Isaac Sim)。清华大学的IR方法介于两者之间——它是模块化的,但拥有一个可学习的共享空间,而非手工设计的接口。

| 方法 | 代表 | 优势 | 劣势 |
|---|---|---|---|
| 端到端 | RT-2, Sora | 简单的训练流程,涌现能力 | 数据需求大,泛化性差,可解释性低 |
| 模块化 | Habitat, Isaac Sim | 可组合性强,易于调试 | 接口手工设计,跨模态信息丢失 |
| 中间表征(IR) | IR-Robot, IR-Video | 数据高效,泛化性强,可扩展 | 需要设计锚点空间,训练复杂度中等 |

相关专题

multimodal AI100 篇相关文章robotics24 篇相关文章

时间归档

May 20262491 篇已发布文章

延伸阅读

CVPR 2026:自动驾驶从感知迈向决策,可控真实世界成主战场CVPR 2026 揭示了一个决定性的转向:自动驾驶与协作式 AI 不再仅仅关乎识别物体——它们正在学习决定下一步该做什么。从仿真到现实的迁移,到多智能体意图共享,研究前沿正在闭环“看见”与“行动”之间的鸿沟。CVPR 2026:3D视觉AI学会理解、生成与构建世界在CVPR 2026上,主导叙事清晰而坚定:AI不再仅仅解读平面图像,而是被赋予理解、模拟并构建其背后三维世界的使命。这篇深度报道将剖析模型如何学习感知深度、因果与物理空间——一场重新定义视觉AI真正能力的范式变革。流匹配革命:何恺明团队在CVPR 2026重新定义生成式AI在CVPR 2026上,何恺明团队发布了一系列论文,系统性地推进了流匹配(Flow Matching)范式——用确定性常微分方程(ODE)取代扩散模型的随机路径。他们的工作涵盖了训练目标、架构设计与速度-质量权衡,有望实现生成效率的飞跃。腾讯混元3:姚顺宇的架构豪赌,挑战“越大越好”的AI铁律4月底低调上线的腾讯混元3预览版,背后却是一场颠覆性的架构革命。AINews独家获悉,由姚顺宇领衔的核心团队从零重建模型架构,以“解耦模块化”设计挑战业界“参数越大越强”的教条。在GPT-5.5与DeepSeek V4的夹击下,混元3正悄然

常见问题

这篇关于“AI's Third Language: How Intermediate Representations Solve the Multimodal Puzzle”的文章讲了什么?

The core insight from the Tsinghua team, led by Professor Zhao Hao at the Institute for Artificial Intelligence (IIAI), is that direct cross-modal mapping — translating text direct…

从“What is an intermediate representation in AI and how does it differ from end-to-end learning?”看,这件事为什么值得关注?

The Tsinghua team's intermediate representation (IR) architecture is a masterclass in modular design. At its core, the system defines a shared latent space that captures the essential semantics of any modality — text, im…

如果想继续追踪“Can the IR approach be applied to autonomous driving sensor fusion?”,应该重点看什么?

可以继续查看本文整理的原文链接、相关文章和 AI 分析部分,快速了解事件背景、影响与后续进展。