技术深度解析
Jellyfish的架构是一个由专业AI模块组成的流水线,每个模块处理传统电影制作流程的一个阶段,其中央的“一致性管理器”扮演着影视连续性监督的角色。
1. 剧本解析与智能分镜: 流程始于一个大语言模型(LLM),很可能基于Llama 3或Qwen的微调变体,它充当“导演”角色。它不仅仅是总结剧本,而是进行剧本分解,识别角色、地点、动作和情感节点。利用预定义的电影语法(例如,“情感揭示用特写”,“建立场景用广角镜头”),LLM生成一个详细的分镜列表,描述每个镜头的摄像机角度、角色表情和关键动作。
2. 一致性引擎——核心创新: 这是Jellyfish的关键子系统。对于剧本中引入的每个角色和主要道具,该引擎使用文生图模型(例如SDXL)生成一个参考性的“标准”图像。该图像与一个唯一标识符一同存储于向量数据库中。对于后续每一个涉及该角色的镜头,系统不会简单地提示“一个穿西装的男人”,而是检索该标准嵌入向量,并利用IP-Adapter或LoRA(低秩自适应) 等技术来调节图像生成模型,确保角色的面部特征、发型和关键着装保持稳定。相同的过程也适用于重复出现的场景和道具。这超越了基础的提示词工程,形成了一种资产管理形式。
3. AI视频生成与电影摄影: 凭借一致的角色嵌入向量和详细的镜头描述,Jellyfish调用视频生成模型。它可能采用两阶段流程:首先使用经过调节的Stable Diffusion流程生成关键帧图像,然后使用如AnimateDiff或Stable Video Diffusion这样的运动模块进行动画化。镜头描述(“缓慢推近”、“角色向左转”)指导着运动参数。开源社区正在积极改进这些组件;诸如animatediff-cli-prompt-travel和用于一致性视频编辑的CoDeF等代码库与此层级相关。
4. 自动化后期制作: 生成的视频片段连同镜头元数据被送入时间线组装器。该模块使用剧本对话生成的音频(通过XTTS v2等模型),并将其与角色唇形匹配,可能使用轻量级的唇形同步模型。它添加基本的转场、模板生成的标题卡,以及来自免版税库或AI生成的配乐。
| 流水线阶段 | 核心技术 | 解决的关键挑战 | 开源代码库示例 |
| :--- | :--- | :--- | :--- |
| 剧本到分镜 | 微调LLM(如Llama-3-8B) | 将叙事意图转化为电影语言 | spacy-llm(用于结构化解析) |
| 一致性管理 | IP-Adapter, LoRA, 向量数据库 | 跨镜头保持角色/物体身份一致 | ip-adapter(GitHub: 3.5k+ stars) |
| 图像生成 | Stable Diffusion XL, ControlNet | 使生成图像与镜头描述对齐 | diffusers(Hugging Face库) |
| 视频动画 | AnimateDiff, SVD | 从静态图像创建自然、有导向的运动 | animatediff(GitHub: 4.2k+ stars) |
| 音频/剪辑 | XTTS, 自动编辑脚本 | 同步音频、控制节奏、添加基础特效 | OpenVoice(语音克隆) |
核心洞察: Jellyfish的技术栈是对一流开源组件的务实整合,而非基础性AI研究。其竞争优势在于编排逻辑和一致性引擎,这既是AI问题,同样也是软件层架构问题。
关键参与者与案例分析
Jellyfish这类工具的崛起,正在内容创作栈中创造一个新层级,位于原始AI模型提供商和最终发布平台之间。
现有生产模式: 在中国等市场,传统的微短剧制作涉及如欢喜传媒或爱奇艺自有短剧单元等工作室。一部典型的100集系列剧成本可能在5万至20万美元,耗时2-4周,需要编剧、拍摄和剪辑团队。成本和速度壁垒限制了实验性和小众叙事的发展。
新兴的AI原生技术栈:
* 端到端平台(Jellyfish的直接竞争者): 虽然尚无完美克隆,但像Pika Labs和Runway这样的平台正在增加叙事功能。HeyGen的虚拟人视频用于解说类内容,但缺乏多镜头叙事一致性。Synthesia专注于企业虚拟人。Jellyfish的独特之处在于其开源、叙事优先、专为竖屏短剧设计的特点。
* 组件提供商: Jellyfish依赖于Stability AI(Stable Diffusion)、Meta(Llama)和Hugging Face的生态系统。其脆弱性在于对上游模型进步的依赖。