AI导演代理将手机废片变爆款视频:Cutto的创作革命

May 2026
AI agentByteDance归档:May 2026
前字节跳动CapCut早期成员关梦龙携新作Cutto重新定义内容创作——这款AI导演代理能将你手机里100GB的废片一键生成具备爆款潜质的视频。它不再只是提升效率,而是让AI主导叙事、人类把控方向,标志着从工具型剪辑向代理驱动创作的范式转移。

关梦龙,字节跳动旗下CapCut团队的早期核心成员,近日推出了名为Cutto的全新AI产品,将其定位为“表达助手”或AI导演代理。驱动Cutto的核心洞察是:绝大多数用户的手机里都存着几百GB被遗忘的照片和视频片段——这些原始素材从未被转化为可分享的内容,因为创作过程过于复杂且耗时。与当前拥挤的AI视频生成工具(如Sora、Runway或Pika)正面竞争不同,Cutto将整个创作流程重新构想为一个代理驱动过程:用户提供原始素材和大致意图,而AI负责构图、节奏、叙事结构乃至情感基调。这标志着从“人类剪辑、AI辅助”到“AI主导、人类引导”的根本性转变。

技术深度解析

Cutto的架构建立在一个多代理框架之上,将视频创作过程分解为多个由AI独立管理的阶段。其核心是一个大型语言模型(LLM)作为“导演代理”,负责解读用户意图——通常以简单的文本提示表达,如“制作一个有趣的旅行回顾”或“创建一个生日混剪”。这个导演代理随后协调一组专门的子代理:

1. 媒体选择代理: 使用基于CLIP的嵌入向量扫描用户的照片库,根据与提示的语义相似性识别相关图像和片段。它会过滤掉重复、模糊和低质量的媒体,然后根据美学评分(使用在专业摄影数据集上训练的模型)对候选素材进行排名。

2. 叙事结构代理: 使用基于Transformer的故事规划模型(类似于GPT-4的思维链推理)生成粗略的故事板。它决定镜头的顺序、节奏和情感弧线——例如,从缓慢、怀旧的时刻逐渐推向高潮,然后进入结局。

3. 剪辑代理: 负责技术执行:修剪片段、添加转场(淡入淡出、擦除、缩放)、应用调色(使用学习到的风格迁移模型),并与背景音乐同步。该代理利用开源仓库FFmpeg的微调版本进行底层视频处理,但增加了一个预测最佳剪辑点的神经层。

4. 音频代理: 从精选库中选择免版税音乐(或通过小型扩散模型生成自定义曲目),以匹配视频的情感基调。它还会根据场景上下文调整音量并添加音效(如掌声、自然声)。

5. 质量保证代理: 使用多模态模型(例如微调的CLIP + ViT)进行最终检查,确保视觉一致性,避免突兀的转场,并确认输出与用户的原始意图一致。

一个值得注意的开源参考点是LangChain(GitHub上超过90,000颗星),它提供了将这些代理串联起来的编排框架。不过,Cutto团队构建了一个自定义编排层,针对移动设备上的低延迟推理进行了优化,使用ONNX Runtime进行模型量化和边缘部署。

基准数据(初步数据,来自Cutto内部测试):

| 指标 | Cutto(代理驱动) | 传统手动剪辑(CapCut) | AI视频生成(如Runway Gen-3) |
|---|---|---|---|
| 制作30秒视频所需时间 | 2-5分钟 | 30-60分钟 | 10-20分钟(但需要大量提示工程) |
| 用户满意度(1-10分) | 7.2 | 8.1(熟练用户) | 6.5(常偏离意图) |
| 媒体利用率 | 85%(用户图库) | 40%(用户手动挑选) | 不适用(从零生成) |
| 每视频计算成本 | $0.02 | $0(人力时间) | $0.10-$0.50 |

数据要点: Cutto大幅缩短了创作时间,同时保持了合理的质量,但在满意度上仍落后于熟练的人类剪辑师。成本优势显而易见,表明它将吸引那些看重速度而非完美的普通用户。

关键玩家与案例研究

关梦龙的背景是Cutto可信度的核心。作为字节跳动CapCut团队的早期成员(该团队到2024年月活跃用户已超过3亿),他亲眼见证了移动视频剪辑的爆发式增长。CapCut的成功建立在让业余用户也能使用专业级剪辑工具的基础上——但这仍然需要手动操作。Cutto代表了下一个合乎逻辑的步骤:完全消除手动操作。

该领域的其他玩家包括:

- Runway ML: 其Gen-3模型专注于文本到视频的生成,但需要精确的提示,且常常产生令人不安的结果。该公司已融资超过5亿美元,目标用户是专业电影制作人。
- Pika Labs: 提供类似的文本到视频界面,但在超过10秒的片段中难以保持叙事连贯性。其用户群更具实验性。
- Synthesia: 专注于企业视频的AI虚拟形象,但不处理个人照片库。
- Luma AI: 以3D场景捕捉闻名,但最近通过Dream Machine转向了视频生成。

| 产品 | 核心方法 | 目标用户 | 主要局限 |
|---|---|---|---|
| Cutto | 代理驱动的策展+剪辑 | 拥有大量照片库的普通用户 | 需要用户自己的媒体;创意控制较少 |
| Runway Gen-3 | 文本到视频生成 | 专业人士、电影制作人 | 高成本、依赖提示、恐怖谷效应 |
| CapCut | 手动剪辑+AI辅助 | 普通消费者 | 仍需大量手动操作 |
| Pika Labs | 文本到视频(短片段) | 爱好者、社交媒体用户 | 无叙事结构、时长较短 |

数据要点: Cutto占据了一个独特的利基市场——它不生成新内容,而是策展和编辑现有媒体。这避免了困扰其他AI视频生成工具的版权和质量问题。

相关专题

AI agent137 篇相关文章ByteDance25 篇相关文章

时间归档

May 20262342 篇已发布文章

延伸阅读

AnySearch登顶开发者排行榜:AI智能体翘首以盼的搜索引擎终于来了一周之内,AnySearch火箭般蹿升至Skills.sh开发者排行榜榜首,在Reddit和X上引爆了一场关于AI智能体究竟需要什么样的搜索功能的激烈辩论。这款产品并非又一款搜索引擎,而是一个旨在用实时、结构化数据为大型语言模型提供支撑的中OpenClaw 信号 AI 范式转变:从被动助手到主动代理OpenClaw 不再只是对话式 AI——它主动执行任务,如策划新闻简报和规划健康路线。这标志着从被动辅助到主动代理的根本性转变,由高通节能边缘平台驱动。SentiCat给AI代理一张脸:为什么关系是下一个前沿SentiPulse推出SentiCat,将Live2D动画人脸嫁接在强大代理后端上。虚拟角色SUSU与用户建立情感纽带,而底层AI猫处理数据分析与生产力任务——这是一场哲学赌注:AI的下一个前沿是关系,而非功能。淘天集团AI优先招聘释放行业信号:AI正从实验走向规模化生产淘天集团最新实习生招聘计划,是AI从实验项目迈向工业化生产的明确市场信号。技术岗位占比超90%,并首次设立三大全新AI专属职位,该公司正全力构建人才梯队,旨在将其电商生态内的AI智能体与复杂AI系统投入实际运营。这一战略性招聘,折射出行业正

常见问题

这次公司发布“AI Agent Turns Phone Junk Photos Into Viral Videos: Cutto's Creative Revolution”主要讲了什么?

Guan Menglong, a key early member of ByteDance's CapCut team, has launched a new AI product called Cutto, positioning it as an 'expression assistant' or AI director agent. The core…

从“How does Cutto AI agent work on mobile?”看,这家公司的这次发布为什么值得关注?

Cutto's architecture is built on a multi-agent framework that decomposes the video creation process into discrete, AI-managed stages. At its core, the system uses a large language model (LLM) as the 'director agent' that…

围绕“Cutto vs CapCut AI features comparison”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。