技术深度解析
流式视频生成并非对现有文生视频模型的简单优化,而是一个根本不同的架构挑战。当前最先进的视频生成模型,如OpenAI的Sora、Runway的Gen-3和Pika Labs,都遵循“先生成后交付”范式。用户提交提示词,模型通过扩散或自回归Transformer处理数秒至数分钟,然后输出一段固定长度的片段(通常4-60秒)。这种模式对于后期制作或社交媒体内容尚可接受,但无法满足任何需要实时反馈的应用——直播、视频通话、游戏或交互式叙事。
流式生成彻底颠覆了这一模式。系统必须连续生成帧,且延迟低到用户感知不到输入与输出之间的延迟。这带来了几个严格的工程要求:
1. 超低延迟推理:每帧必须在50-100毫秒内生成,以维持实时感知(24-30帧/秒)。这排除了标准扩散模型,因为后者通常每帧需要10-50步去噪。相反,流式架构很可能依赖一致性模型、潜在一致性模型(LCM)或直接基于Transformer的自回归生成(单次前向传播预测下一帧)的变体。一个值得关注的开源参考是Latent Consistency Model (LCM) 仓库(github.com/luosiallen/latent-consistency-model),它因能在1-4步内生成高质量图像而获得超过8000颗星。对于视频,StreamingT2V 仓库(github.com/Picsart-AI-Research/StreamingT2V)直接相关——它引入了一种条件注意力机制,可在长视频流中保持时间一致性,在24帧/秒下生成120帧且质量可接受。然而,其当前延迟(在A100上每帧约200毫秒)仍高于实时阈值。
2. 无限流的时间连贯性:流式模型不能依赖固定长度的上下文窗口。它必须维护一个过去帧的运行记忆,以确保平滑过渡并避免漂移。这通常通过时间注意力层和循环状态(类似于LSTM,但在潜在空间中)的组合来实现。模型还必须处理“概念漂移”——如果用户在中途更改场景描述,模型应平滑变形而非跳切。这需要一种连续的潜在插值机制。
3. 内存与计算效率:实时生成视频在计算上非常昂贵。以24帧/秒生成单帧1080p视频,每帧需要处理约620万像素,即每秒1.49亿像素。要在消费级硬件(或成本合理的云实例)上运行,模型必须经过重度优化。技术包括:使用更小的潜在空间(例如4倍或8倍空间压缩)、量化(INT8或FP8)以及自回归模型的推测解码。VideoLDM 架构(来自“Align Your Latents”论文)提供了基础,但其3D U-Net对于实时来说过于沉重。更有希望的是智谱AI的CogVideoX系列,它使用8倍压缩的3D VAE和Transformer主干,能在约30秒内生成5秒片段——仍未达到实时,但方向正确。
| 模型/方法 | 每帧延迟 | 最大流长度 | 所需硬件 | 开源? |
|---|---|---|---|---|
| StreamingT2V (Picsart) | ~200ms | 120帧 (5秒) | A100 80GB | 是 (8k星) |
| CogVideoX (智谱) | 每5秒片段约6秒 | 5秒 | A100 80GB | 是 (部分) |
| Sora (OpenAI) | 每60秒片段约10-20分钟 | 60秒 | 专有 | 否 |
| Runway Gen-3 | 每10秒片段约30-60秒 | 10秒 | 专有 | 否 |
| 星界智能 (预估目标) | <50ms | 无限 | 待定 | 否 |
数据要点: 当前开源模型与实时要求之间的差距仍然很大——StreamingT2V最接近,每帧200毫秒,但仍比50毫秒目标慢4倍。星界智能需要在保持质量的同时实现4-10倍的推理速度提升,很可能通过模型蒸馏、硬件协同设计和新型架构的组合来实现。
关键玩家与案例研究
王宇欣进军流式视频生成并非孤立事件。其他几个玩家也在竞相实现实时视频AI,各自采用不同的技术方法和市场焦点。
1. 元始科技(王的前雇主)
元始科技是王宇欣曾担任早期核心成员的公司,一直是生成式AI领域的黑马。该公司以高效扩散模型的研究闻名,拥有浓厚的研究文化。王在那里的经历很可能让他接触到了最前沿的模型压缩和推理优化技术,这些技术直接适用于流式生成。元始科技尚未公开披露其在该领域的具体进展。