技术深度解析
Sora的架构代表了视频扩散模型规模化的一次重大飞跃。与以往通常逐帧生成或使用潜在插值的视频模型不同,Sora采用了基于Transformer的扩散架构,在时空片段(spacetime patches)上运行。这些片段通过变分自编码器从原始视频数据压缩而来,使得模型能够将视频作为一系列token进行处理,类似于语言模型处理文本的方式。这种‘视觉token’方法使得模型能够在不受严格尺寸或时长限制的海量多样化视频数据上进行训练。
该模型最重大的技术成就是其涌现出的世界模拟能力。在对数百万视频的训练过程中,Sora形成了对基础物理、物体恒存性和三维空间的内部表征。研究人员指出,它能够模拟简单的因果关系(如球体弹跳或水花飞溅),而无需显式编程。这表明该模型并非仅仅拼接视觉模式,而是在构建一个内部世界模型——这是实现通用智能的关键组件。
目前已出现多个开源项目,试图复现Sora方法的某些方面。GitHub上的VideoGPT仓库虽然较为简单,但探索了用于视频生成的Transformer架构。更相关的是受David Ha和Jürgen Schmidhuber原始论文启发的研究者创建的World Models GitHub仓库,它提供了训练循环神经网络以建模环境动态的代码。虽然规模不及Sora,但这些项目表明了研究界正将焦点从‘生成’转向‘模拟’。
近期的性能基准测试凸显了纯粹视觉保真度与计算/世界理解成本之间的权衡。
| 模型 / 方法 | 主要架构 | 关键指标 (FVD分数) | 训练算力 (预估PF-日) | 显著能力 |
|---|---|---|---|---|
| Sora (OpenAI) | 时空片段上的扩散Transformer (DiT) | ~250 (预估) | 10,000+ | 长期连贯性,基础物理模拟 |
| Genie (Google DeepMind) | 时空Transformer + 动态模型 | 不适用 (非视频生成) | 5,000+ | 仅从视频中学习可操作的世界模型 |
| Stable Video Diffusion (Stability AI) | 潜在视频扩散 | ~500 | 1,500 | 高单场景保真度,较短序列 |
| Pika / Runway Gen-2 | 定制扩散变体 | ~400-600 | 500-2,000 | 强大的风格控制,快速迭代 |
数据启示: 表格清晰地揭示了算力与能力之间的权衡。Sora和Genie凭借高出数个数量级的训练算力,瞄准的是基础性的世界理解,而其他模型则针对特定、可商业化的视觉输出进行了优化。Sora预估的高昂算力成本,恰恰说明了为何其能力正被视为战略资产,而非商品化服务。
关键参与者与案例研究
战略格局正分化为两大阵营:一是构建终端用户创意工具的公司,二是为未来AI智能体投资基础世界模型的公司。
OpenAI的战略考量: OpenAI一贯展现出一种模式:先开发出令人惊叹的演示(GPT-3、DALL-E 2、Sora),然后将其底层技术整合到更广泛的平台中(ChatGPT、GPT-4生态系统)。Sora完美契合了这一模式。该模型模拟真实动态的能力,恰恰是在虚拟或现实环境中运作的AI智能体所需要的。Sam Altman多次强调公司构建AGI的使命,而可靠的世界模型是这一使命的前提。Sora的技术很可能正被整合到OpenAI传闻中的‘基础世界模型’计划及其机器人研究(需要理解物理交互)等项目之中。
Google DeepMind的并行路径: DeepMind的方法从一开始就更明确地聚焦于世界模型。他们在Sora发布后不久宣布的Genie模型,能够根据图像提示生成交互式环境,或从互联网视频中学习可玩的世界。与Sora不同,Genie的设计目标不是制作精美的视频,而是创建可操作、可控制的模拟。Demis Hassabis长期以来一直主张,学习世界模型是通往高级AI的关键路径。DeepMind的SIMAs(可扩展可指导多世界智能体)项目进一步证明了这一点,该项目在各种视频游戏环境中训练通用型AI智能体。
Meta的具身AI推进: 在Yann LeCun的愿景下,Meta AI大力投入V-JEPA(视频联合嵌入预测架构),该模型通过在抽象表征空间中预测视频缺失部分来进行学习。LeCun认为,与Sora这类生成模型相比,这种自监督方法效率更高,并能带来更稳健的世界理解。Meta的目标是利用这些模型为其VR/AR元宇宙和机器人技术中的具身AI提供动力。