前华为云高管再创业，Frame Leap Tech 获数千万美元融资：能否重新定义交互式 AI 视频？

总部位于北京的初创公司 Frame Leap Technology，由前华为云媒体创新实验室主任、交互媒体方向一号位杨昌鹏创立，已完成数千万美元的天使轮融资。本轮投资方包括创新工场、国谦资本、01.AI、Plug and Play China 以及英动资本。所融资金将用于加速公司核心视频推理平台的研发、首款产品 'Leadde' 的发布以及全球人才的招募。

Frame Leap 并非在构建另一个文生视频工具。相反，它专注于 '交互式视频推理'——一种能够根据用户输入实时生成和修改视频内容的系统，从而实现分支叙事、动态场景变换和个性化故事线。该公司的核心创新在于其视频推理平台，该平台采用了一种混合神经符号架构，将用于叙事理解的大语言模型与用于帧合成的视频扩散模型相结合。系统维护着一个 '故事状态'——对当前场景、角色、物体和情节进展的结构化表示。当用户提供输入（例如 '打开门' 或 '逃跑'）时，大语言模型会解读该动作，更新故事状态，并触发视频生成管线，以生成与前一输出无缝衔接的下一帧序列。

这种方法需要解决几个工程挑战：延迟（要求亚秒级响应时间）、连贯性（跨分支路径保持视觉和叙事一致性）以及计算效率（实时运行大语言模型加视频扩散模型极其消耗 GPU）。Frame Leap 可能采用推测解码、模型蒸馏、量化以及时间压缩等技术来应对这些挑战。与现有文生视频工具（如 OpenAI 的 Sora 或 Runway Gen-3 Alpha）相比，Frame Leap 试图解决一个根本更困难的问题——虽然现有工具在一次性生成方面令人印象深刻，但它们缺乏 Frame Leap 所瞄准的交互性。其代价是计算成本——交互式视频每分钟输出的成本可能比线性生成高出 10 到 100 倍。

技术深度解析

Frame Leap 的核心创新在于其 视频推理平台，这是一个远超传统扩散模型视频生成的系统架构。当前最先进的模型，如 OpenAI 的 Sora 或 Runway Gen-3 Alpha，采用文生视频范式：用户提供一个提示词，模型生成一段固定长度的片段，在生成过程中没有任何用户交互。Frame Leap 的目标是通过实现 实时、交互式分支 来颠覆这一模式。

该平台的核心是一个 混合神经符号架构，它将用于叙事理解的大语言模型与用于帧合成的视频扩散模型相结合。系统维护着一个 '故事状态'——对当前场景、角色、物体和情节进展的结构化表示。当用户提供输入（例如 '打开门' 或 '逃跑'）时，大语言模型会解读该动作，更新故事状态，并触发视频生成管线，以生成与前一输出无缝衔接的下一帧序列。

这种方法需要解决几个工程挑战：

1. 延迟：实时交互要求亚秒级响应时间。Frame Leap 很可能采用推测解码和模型蒸馏来降低推理延迟。他们可能还使用了一个 '视频缓存' 系统，用于预渲染常见的过渡。

2. 连贯性：跨分支路径保持视觉和叙事一致性并非易事。该平台可能使用一个 交叉注意力机制，该机制根据前一帧和更新后的故事状态来条件化每一新帧，从而防止出现突兀的视觉不连续性。

3. 计算效率：实时运行大语言模型加视频扩散模型极其消耗 GPU。Frame Leap 可能利用量化（例如 FP8 或 INT4）和 时间压缩——生成关键帧并插值中间帧——来减少计算量。

一个相关的开源项目是 Stability AI 的 Stable Video Diffusion (SVD)，它为视频生成提供了基础，但缺乏交互性。另一个是 AnimateDiff，一个 GitHub 仓库（目前约 15k 星），它能够从静态图像生成运动。Frame Leap 的专有工作很可能建立在类似的扩散骨干网络上，但增加了关键的推理层。

数据表格：视频生成方法对比

| 特性 | 传统文生视频 (Sora, Runway) | Frame Leap 的交互式视频 |
|---|---|---|
| 用户交互 | 一次性提示 | 连续、实时输入 |
| 输出长度 | 固定 (5-60 秒) | 无限、分支 |
| 叙事控制 | 无 | 完整的分支逻辑 |
| 延迟 | 数分钟 | 亚秒级 (目标) |
| 计算成本 | 每段视频较高 | 每会话非常高 |
| 当前成熟度 | 已有商业产品 | 原型阶段 |

数据要点： Frame Leap 试图解决一个比现有视频生成器根本更困难的问题。虽然当前工具在一次性生成方面令人印象深刻，但它们缺乏 Frame Leap 所瞄准的交互性。其代价是计算成本——交互式视频每分钟输出的成本可能比线性生成高出 10 到 100 倍。

关键人物与案例研究

创始团队的背景至关重要。杨昌鹏 在华为云工作多年，期间领导媒体创新实验室，并担任交互媒体方向的 '一号位'。这一角色涉及为华为的云流媒体服务开发实时视频处理管线，包括低延迟编码和自适应码率流媒体。他的团队很可能参与过华为 CloudLive 以及面向企业客户的交互式视频解决方案等项目。

投资方组合同样具有战略意义：

- 创新工场：由李开复领导，他是一位杰出的 AI 投资者，曾任 Google/Apple 高管。创新工场投资了包括 01.AI 在内的众多 AI 初创公司。他们的参与表明对技术方向的信心。
- 01.AI：由李开复创立，专注于大语言模型和 AI 基础设施。他们的参与暗示了潜在的技术合作——Frame Leap 可以利用 01.AI 的大语言模型能力来增强其叙事推理引擎。
- Plug and Play China：全球创新平台的中国分支。他们的投资表明对国际扩张和潜在企业合作的兴趣。
- 国谦资本和英动资本：与科技生态系统有深厚联系的中国风险投资公司。

交互式视频领域的竞争对手虽少，但正在增长。Inworld AI（由 Intel Capital 支持）专注于游戏中 AI 驱动的 NPC，实现实时对话和行为。Charisma.ai 提供了一个具有分支叙事的交互式故事讲述平台，但主要针对预渲染内容。两者都不提供完全由 AI 实时生成的视频。

数据表格：竞争格局

| 公司 | 产品 | 技术 | 交互性 | 视频生成 |
|---|---|---|---|---|
| Frame Leap Technology | Leadde (即将推出) | 混合神经符号架构，LLM + 视频扩散模型 | 实时、分支叙事 | 完全 AI 生成 |
| Inworld AI | NPC 引擎 | 大语言模型，行为树 | 实时对话 | 无 (用于游戏引擎) |
| Charisma.ai | 交互式故事平台 | 叙事引擎，分支逻辑 | 分支叙事 | 无 (使用预渲染内容) |
| OpenAI (Sora) | Sora | 扩散 Transformer | 无 | 一次性生成 |
| Runway | Gen-3 Alpha | 扩散模型 | 无 | 一次性生成 |

时间归档

延伸阅读

常见问题

这起“Frame Leap Tech Raises Millions: Can Huawei Veteran Reinvent Interactive AI Video?”融资事件讲了什么？

Frame Leap Technology, a Beijing-based startup founded by Yang Changpeng—former director of Huawei Cloud's Media Innovation Lab and the No.1 figure in interactive media direction—h…

从“Frame Leap Technology angel funding investors list”看，为什么这笔融资值得关注？

Frame Leap's core innovation is its video reasoning platform, a system architecture that goes far beyond traditional diffusion-based video generation. Current state-of-the-art models like OpenAI's Sora or Runway Gen-3 Al…

这起融资事件在“Yang Changpeng Huawei Cloud interactive media background”上释放了什么行业信号？

它通常意味着该赛道正在进入资源加速集聚期，后续值得继续关注团队扩张、产品落地、商业化验证和同类公司跟进。