AI导演代理将手机废片变爆款视频：Cutto的创作革命

关梦龙，字节跳动旗下CapCut团队的早期核心成员，近日推出了名为Cutto的全新AI产品，将其定位为“表达助手”或AI导演代理。驱动Cutto的核心洞察是：绝大多数用户的手机里都存着几百GB被遗忘的照片和视频片段——这些原始素材从未被转化为可分享的内容，因为创作过程过于复杂且耗时。与当前拥挤的AI视频生成工具（如Sora、Runway或Pika）正面竞争不同，Cutto将整个创作流程重新构想为一个代理驱动过程：用户提供原始素材和大致意图，而AI负责构图、节奏、叙事结构乃至情感基调。这标志着从“人类剪辑、AI辅助”到“AI主导、人类引导”的根本性转变。

技术深度解析

Cutto的架构建立在一个多代理框架之上，将视频创作过程分解为多个由AI独立管理的阶段。其核心是一个大型语言模型（LLM）作为“导演代理”，负责解读用户意图——通常以简单的文本提示表达，如“制作一个有趣的旅行回顾”或“创建一个生日混剪”。这个导演代理随后协调一组专门的子代理：

1. 媒体选择代理： 使用基于CLIP的嵌入向量扫描用户的照片库，根据与提示的语义相似性识别相关图像和片段。它会过滤掉重复、模糊和低质量的媒体，然后根据美学评分（使用在专业摄影数据集上训练的模型）对候选素材进行排名。

2. 叙事结构代理： 使用基于Transformer的故事规划模型（类似于GPT-4的思维链推理）生成粗略的故事板。它决定镜头的顺序、节奏和情感弧线——例如，从缓慢、怀旧的时刻逐渐推向高潮，然后进入结局。

3. 剪辑代理： 负责技术执行：修剪片段、添加转场（淡入淡出、擦除、缩放）、应用调色（使用学习到的风格迁移模型），并与背景音乐同步。该代理利用开源仓库FFmpeg的微调版本进行底层视频处理，但增加了一个预测最佳剪辑点的神经层。

4. 音频代理： 从精选库中选择免版税音乐（或通过小型扩散模型生成自定义曲目），以匹配视频的情感基调。它还会根据场景上下文调整音量并添加音效（如掌声、自然声）。

5. 质量保证代理： 使用多模态模型（例如微调的CLIP + ViT）进行最终检查，确保视觉一致性，避免突兀的转场，并确认输出与用户的原始意图一致。

一个值得注意的开源参考点是LangChain（GitHub上超过90,000颗星），它提供了将这些代理串联起来的编排框架。不过，Cutto团队构建了一个自定义编排层，针对移动设备上的低延迟推理进行了优化，使用ONNX Runtime进行模型量化和边缘部署。

基准数据（初步数据，来自Cutto内部测试）：

| 指标 | Cutto（代理驱动） | 传统手动剪辑（CapCut） | AI视频生成（如Runway Gen-3） |
|---|---|---|---|
| 制作30秒视频所需时间 | 2-5分钟 | 30-60分钟 | 10-20分钟（但需要大量提示工程） |
| 用户满意度（1-10分） | 7.2 | 8.1（熟练用户） | 6.5（常偏离意图） |
| 媒体利用率 | 85%（用户图库） | 40%（用户手动挑选） | 不适用（从零生成） |
| 每视频计算成本 | $0.02 | $0（人力时间） | $0.10-$0.50 |

数据要点： Cutto大幅缩短了创作时间，同时保持了合理的质量，但在满意度上仍落后于熟练的人类剪辑师。成本优势显而易见，表明它将吸引那些看重速度而非完美的普通用户。

关键玩家与案例研究

关梦龙的背景是Cutto可信度的核心。作为字节跳动CapCut团队的早期成员（该团队到2024年月活跃用户已超过3亿），他亲眼见证了移动视频剪辑的爆发式增长。CapCut的成功建立在让业余用户也能使用专业级剪辑工具的基础上——但这仍然需要手动操作。Cutto代表了下一个合乎逻辑的步骤：完全消除手动操作。

该领域的其他玩家包括：

- Runway ML： 其Gen-3模型专注于文本到视频的生成，但需要精确的提示，且常常产生令人不安的结果。该公司已融资超过5亿美元，目标用户是专业电影制作人。
- Pika Labs： 提供类似的文本到视频界面，但在超过10秒的片段中难以保持叙事连贯性。其用户群更具实验性。
- Synthesia： 专注于企业视频的AI虚拟形象，但不处理个人照片库。
- Luma AI： 以3D场景捕捉闻名，但最近通过Dream Machine转向了视频生成。

| 产品 | 核心方法 | 目标用户 | 主要局限 |
|---|---|---|---|
| Cutto | 代理驱动的策展+剪辑 | 拥有大量照片库的普通用户 | 需要用户自己的媒体；创意控制较少 |
| Runway Gen-3 | 文本到视频生成 | 专业人士、电影制作人 | 高成本、依赖提示、恐怖谷效应 |
| CapCut | 手动剪辑+AI辅助 | 普通消费者 | 仍需大量手动操作 |
| Pika Labs | 文本到视频（短片段） | 爱好者、社交媒体用户 | 无叙事结构、时长较短 |

数据要点： Cutto占据了一个独特的利基市场——它不生成新内容，而是策展和编辑现有媒体。这避免了困扰其他AI视频生成工具的版权和质量问题。

时间归档

延伸阅读

常见问题

这次公司发布“AI Agent Turns Phone Junk Photos Into Viral Videos: Cutto's Creative Revolution”主要讲了什么？

Guan Menglong, a key early member of ByteDance's CapCut team, has launched a new AI product called Cutto, positioning it as an 'expression assistant' or AI director agent. The core…

从“How does Cutto AI agent work on mobile?”看，这家公司的这次发布为什么值得关注？

Cutto's architecture is built on a multi-agent framework that decomposes the video creation process into discrete, AI-managed stages. At its core, the system uses a large language model (LLM) as the 'director agent' that…

围绕“Cutto vs CapCut AI features comparison”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。