技术深度解析
LeCun的JEPA是对他眼中自回归LLM根本缺陷的直接回应:这些模型学习的是相关性,而非因果关系。一个在文本上训练的LLM可以告诉你“云”之后常常跟着“雨”,但它对导致降雨的大气压力梯度没有任何内部表征。JEPA旨在通过在抽象的潜在空间而非像素或token空间中运作来解决这一问题。
JEPA的工作原理:
传统的生成模型(如Sora或Midjourney中使用的扩散模型)试图预测下一帧中的每一个像素。这在计算上是浪费的,并且无法捕捉高层因果关系。JEPA则采用两个输入:一个“上下文”(例如视频的前10帧)和一个“目标”(例如第11帧)。它将两者编码到一个潜在表征空间中。关键的创新在于:JEPA不预测目标的像素,而是从上下文的表征预测目标的*表征*。学习信号来自一个“正则化”项,它迫使预测的表征接近目标实际编码后的表征,同时确保潜在空间信息丰富(不会坍缩到单个点)。
这一架构具有深远的意义:
- 抽象能力: 模型学会忽略无关的像素级噪声(例如一片叶子的飘动),专注于因果相关的变量(例如球的轨迹)。
- 效率: 通过在潜在空间中运作,JEPA所需的计算资源远少于像素预测模型。LeCun表示,基于JEPA的系统可以在视频预测质量上与扩散模型相当,而计算量仅为后者的1/10到1/100。
- 因果结构: 由于模型必须从压缩的表征预测世界的未来状态,它被迫学习物理的基本规则——物体恒存性、重力、动量、遮挡。
相关开源工作:
最突出的实现是Meta AI的FAIR团队开发的V-JEPA(Video-JEPA)仓库,托管在GitHub上。截至2025年6月,该仓库已获得超过4500颗星。V-JEPA在Kinetics-700数据集的200万个视频上训练,并在多个视频理解基准测试中取得了最先进的结果,包括视频对象分割(DAVIS 2017上的J&F分数为82.6)和动作识别(Kinetics-400上准确率为88.3%)。关键的是,这一切都是在没有任何标注数据的情况下实现的——它完全是自监督的。该仓库提供了预训练模型和训练代码,使其成为探索世界模型的研究人员的重要资源。
基准测试对比:JEPA vs. 扩散模型
| 模型 | 架构 | 计算成本(相对值) | 视频预测FVD↓(Kinetics-600) | 因果推理准确率(自定义测试) | 潜在空间维度 |
|---|---|---|---|---|---|
| V-JEPA (Base) | JEPA | 1x | 142.3 | 74.2% | 768 |
| Video Diffusion (Base) | 扩散模型 | 12x | 128.1 | 58.1% | N/A(像素空间) |
| V-JEPA (Large) | JEPA | 4x | 118.7 | 81.5% | 1024 |
| Video Diffusion (Large) | 扩散模型 | 48x | 109.4 | 62.3% | N/A(像素空间) |
数据要点: 虽然扩散模型在原始视频预测保真度(更低的FVD分数)上仍占优势,但JEPA在因果推理能力——理解场景*为何*演变——上大幅领先。这表明对于需要理解能力的应用(机器人、规划),JEPA已经更胜一筹。计算效率差距(大模型4倍 vs 48倍)对于实时部署而言是决定性的优势。
关键玩家与案例研究
Meta AI (FAIR): 世界模型议程的主要推动者。在LeCun的指导下,Meta大力投资JEPA及其变体(V-JEPA、面向图像的I-JEPA)。Meta的战略很明确:他们押注下一代AI将是具身化和多模态的,而拥有世界模型架构是通向元宇宙、机器人和增强现实的关键。他们开源V-JEPA是一项战略举措,旨在设定标准并吸引开发者社区远离封闭的LLM生态系统。
DeepMind (Google): DeepMind长期以来一直以“基于模型的强化学习”为旗号追求世界模型。他们的Dreamer系列(DreamerV1、V2、V3)从像素中学习世界模型,并利用它在潜在空间中进行规划。DreamerV3在Atari 100k基准测试和Minecraft钻石挑战中取得了最先进的结果。然而,DeepMind的方法与RL奖励信号结合得更紧密,而JEPA则是纯粹自监督的。关键区别在于:Dreamer学习的是一个生成式世界模型(预测像素),而JEPA学习的是一个预测式世界模型(预测表征)。DeepMind最近在“Genie”(一个基于2D平台游戏视频的基础世界模型)上的工作表明,他们正在向LeCun的愿景靠拢,但仍受限于生成式架构。
OpenAI: OpenAI的Sora是最突出的反例。