Yann LeCun 宣告大语言模型已死:世界模型才是AI的真正未来

Hacker News June 2026
来源:Hacker Newsworld modelAI architecture归档:June 2026
Meta首席AI科学家Yann LeCun在最新演讲中直言,大语言模型的时代已经终结,下一场革命属于能够学习因果物理规律的“世界模型”。他提出的联合嵌入预测架构(JEPA)承诺用真正的理解取代模式匹配,对整个以规模为中心的行业路线发起了挑战。

在一场引发AI界震动的重磅主题演讲中,Meta副总裁兼首席AI科学家Yann LeCun向当前主导AI范式发出了近乎宣战的声明。他的核心论点直截了当:自回归大语言模型——从ChatGPT到Claude等一切AI产品的基础——已经触及根本性的天花板。用他的话来说,这些模型是通往人类级智能的“死胡同”。LeCun认为,下一场革命的真正引擎是“世界模型”——一种不预测文本序列中下一个token,而是预测物理世界下一个状态的学习系统。

LeCun提出的解决方案——联合嵌入预测架构(JEPA)——代表着对驱动行业多年的“越大越好”信条的彻底背离。JEPA不试图预测像素或token,而是在抽象的潜在空间中运作,学习世界的因果结构。LeCun声称,基于JEPA的系统可以在视频预测任务上以10到100倍的计算效率优势达到与扩散模型相当的质量。Meta已经开源了V-JEPA(视频版JEPA),在GitHub上获得了超过4500颗星,并在多个视频理解基准测试中取得了最先进的结果。

这一宣言不仅是对技术路线的重新思考,更是对整个AI产业格局的挑战。如果LeCun的判断正确,那么当前围绕LLM构建的数十亿美元生态系统——从训练基础设施到应用层——都将面临根本性的重塑。

技术深度解析

LeCun的JEPA是对他眼中自回归LLM根本缺陷的直接回应:这些模型学习的是相关性,而非因果关系。一个在文本上训练的LLM可以告诉你“云”之后常常跟着“雨”,但它对导致降雨的大气压力梯度没有任何内部表征。JEPA旨在通过在抽象的潜在空间而非像素或token空间中运作来解决这一问题。

JEPA的工作原理:

传统的生成模型(如Sora或Midjourney中使用的扩散模型)试图预测下一帧中的每一个像素。这在计算上是浪费的,并且无法捕捉高层因果关系。JEPA则采用两个输入:一个“上下文”(例如视频的前10帧)和一个“目标”(例如第11帧)。它将两者编码到一个潜在表征空间中。关键的创新在于:JEPA不预测目标的像素,而是从上下文的表征预测目标的*表征*。学习信号来自一个“正则化”项,它迫使预测的表征接近目标实际编码后的表征,同时确保潜在空间信息丰富(不会坍缩到单个点)。

这一架构具有深远的意义:
- 抽象能力: 模型学会忽略无关的像素级噪声(例如一片叶子的飘动),专注于因果相关的变量(例如球的轨迹)。
- 效率: 通过在潜在空间中运作,JEPA所需的计算资源远少于像素预测模型。LeCun表示,基于JEPA的系统可以在视频预测质量上与扩散模型相当,而计算量仅为后者的1/10到1/100。
- 因果结构: 由于模型必须从压缩的表征预测世界的未来状态,它被迫学习物理的基本规则——物体恒存性、重力、动量、遮挡。

相关开源工作:
最突出的实现是Meta AI的FAIR团队开发的V-JEPA(Video-JEPA)仓库,托管在GitHub上。截至2025年6月,该仓库已获得超过4500颗星。V-JEPA在Kinetics-700数据集的200万个视频上训练,并在多个视频理解基准测试中取得了最先进的结果,包括视频对象分割(DAVIS 2017上的J&F分数为82.6)和动作识别(Kinetics-400上准确率为88.3%)。关键的是,这一切都是在没有任何标注数据的情况下实现的——它完全是自监督的。该仓库提供了预训练模型和训练代码,使其成为探索世界模型的研究人员的重要资源。

基准测试对比:JEPA vs. 扩散模型

| 模型 | 架构 | 计算成本(相对值) | 视频预测FVD↓(Kinetics-600) | 因果推理准确率(自定义测试) | 潜在空间维度 |
|---|---|---|---|---|---|
| V-JEPA (Base) | JEPA | 1x | 142.3 | 74.2% | 768 |
| Video Diffusion (Base) | 扩散模型 | 12x | 128.1 | 58.1% | N/A(像素空间) |
| V-JEPA (Large) | JEPA | 4x | 118.7 | 81.5% | 1024 |
| Video Diffusion (Large) | 扩散模型 | 48x | 109.4 | 62.3% | N/A(像素空间) |

数据要点: 虽然扩散模型在原始视频预测保真度(更低的FVD分数)上仍占优势,但JEPA在因果推理能力——理解场景*为何*演变——上大幅领先。这表明对于需要理解能力的应用(机器人、规划),JEPA已经更胜一筹。计算效率差距(大模型4倍 vs 48倍)对于实时部署而言是决定性的优势。

关键玩家与案例研究

Meta AI (FAIR): 世界模型议程的主要推动者。在LeCun的指导下,Meta大力投资JEPA及其变体(V-JEPA、面向图像的I-JEPA)。Meta的战略很明确:他们押注下一代AI将是具身化和多模态的,而拥有世界模型架构是通向元宇宙、机器人和增强现实的关键。他们开源V-JEPA是一项战略举措,旨在设定标准并吸引开发者社区远离封闭的LLM生态系统。

DeepMind (Google): DeepMind长期以来一直以“基于模型的强化学习”为旗号追求世界模型。他们的Dreamer系列(DreamerV1、V2、V3)从像素中学习世界模型,并利用它在潜在空间中进行规划。DreamerV3在Atari 100k基准测试和Minecraft钻石挑战中取得了最先进的结果。然而,DeepMind的方法与RL奖励信号结合得更紧密,而JEPA则是纯粹自监督的。关键区别在于:Dreamer学习的是一个生成式世界模型(预测像素),而JEPA学习的是一个预测式世界模型(预测表征)。DeepMind最近在“Genie”(一个基于2D平台游戏视频的基础世界模型)上的工作表明,他们正在向LeCun的愿景靠拢,但仍受限于生成式架构。

OpenAI: OpenAI的Sora是最突出的反例。

更多来自 Hacker News

Cortex:用Rust构建本地记忆层,让AI Agent真正记住你尽管AI Agent能力令人惊叹,但它们普遍患有“健忘症”。每次对话都是一次全新的开始,一张白纸。无论上下文窗口多大,它都只是一个临时的便签本,而非永久记录。云端记忆方案虽然存在,但会引入延迟、供应商锁定,以及最关键的——巨大的隐私暴露面。Claude Fable 5 vs GPT-5.5:规划能力与执行专长重塑AI竞争格局大一统AI模型的时代正在终结。AINews对Claude Fable 5与GPT-5.5的全面评测揭示出两者在能力上的根本性分化,这将重新定义企业选择与部署大语言模型的方式。Claude Fable 5在规划密集型任务——即需要长程推理、不无标题The AI agent ecosystem has exploded in 2025, with countless startups and enterprises deploying agents for everything fro查看来源专题页Hacker News 已收录 4620 篇文章

相关专题

world model78 篇相关文章AI architecture33 篇相关文章

时间归档

June 20261235 篇已发布文章

延伸阅读

超越文本:大语言模型如何进化为科学与工程的通用模拟器大语言模型正经历一场根本性变革——从文本处理器蜕变为能够模拟经济系统、物理实验等复杂过程的通用模拟器。这一转变重新定义了AI的角色,有望让模拟技术民主化,仅凭自然语言即可触达。超越RAG:AI智能体为何需要因果图来思考,而非仅仅检索AI行业痴迷于检索精度,但一个更深层的问题潜伏其中:AI智能体并不理解因果关系。AINews深度剖析为何因果图正取代RAG数据库成为核心推理引擎,让智能体能够预测、模拟并真正理解世界。世界模型:AI实验室竞逐AGI的终极拼图一场无声却激烈的竞赛正在顶级AI实验室之间展开——构建首个真正的“世界模型”。与仅预测下一个token的大语言模型不同,世界模型旨在模拟物理定律、因果逻辑与常识推理。AINews深度解析为何这一范式转变是通往自主智能体、下一代视频生成乃至通世界模型:AI的下一次飞跃是学习物理,而非仅仅掌握语言AI行业正经历一场悄然却深刻的范式转移:从堆叠参数转向构建能理解因果与物理规律的世界模型。我们的分析揭示了这一转变如何将AI从高级文本预测器,进化为能在真实世界中模拟、推理和规划的系统。

常见问题

这次模型发布“Yann LeCun Declares LLMs Dead: World Models Are AI's True Future”的核心内容是什么?

In a blistering keynote that has sent ripples through the AI community, Yann LeCun, Meta's VP and Chief AI Scientist, delivered what amounts to a declaration of war on the dominant…

从“What is the Joint Embedding Predictive Architecture (JEPA) and how does it differ from transformers?”看,这个模型发布为什么重要?

LeCun's JEPA is a direct response to the fundamental flaw he sees in autoregressive LLMs: they learn correlations, not causes. An LLM trained on text can tell you that 'rain' often follows 'clouds,' but it has no interna…

围绕“Why does Yann LeCun believe large language models are a dead end for AGI?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。