LivePortrait：Kling AI 开源工具让静态肖像“活”起来

LivePortrait 由 Kling AI Research 开发，是一个全新的开源项目，可将单张肖像照片动画化为说话或移动的视频。该模型利用高效的面部关键点检测和表情迁移算法，生成自然的眨眼、转头以及细微的微表情。发布当天即获得超过 18,000 个 GitHub 星标，迅速吸引了 AI 社区的广泛关注。其核心差异化优势在于完整开源了训练和推理代码，使其成为目前最易上手的高质量肖像动画工具之一。该模型专为实时或近实时性能设计，可在消费级 GPU 上运行。这使得 LivePortrait 成为 D-ID 和 HeyGen 等专有解决方案的直接竞争对手，并且具备开源、本地部署和零成本等显著优势。

技术深度解析

LivePortrait 的架构是一条精心设计的流水线，在质量、速度和可及性之间取得了平衡。其核心采用两阶段方法：首先，一个轻量级的关键点检测网络从输入照片中识别出 68 或 106 个面部关键点。然后，这些关键点被输入到一个运动生成模块中，该模块根据驱动视频或一组预定义的动画参数预测一系列面部运动。

运动生成模块使用带有时间注意力层的 U-Net 架构变体，以确保帧之间的平滑过渡。与早期需要为每张新面孔进行长达数小时训练的方法不同，LivePortrait 使用预训练的基础模型，只需极少的微调即可泛化到未见过的身份。其关键创新在于一种新颖的表情迁移算法，该算法将身份与表情解耦，使得模型能够将驱动视频的表情应用到目标面部，而不会扭曲原始身份。

在工程方面，该模型针对单块 NVIDIA RTX 3090 或更高性能的 GPU 进行了推理优化，在 256x256 输出分辨率下可实现约 30 帧/秒的速度。训练代码已在官方 GitHub 仓库（klingairesearch/liveportrait）中提供，包括数据预处理、模型训练和评估脚本。该仓库已累计获得超过 18,000 个星标，显示出强大的社区兴趣。训练流程使用 PyTorch，并支持 FP16 混合精度训练，将内存占用减少了近 40%。

性能基准测试

| 模型 | FPS (256x256) | GPU 内存 (GB) | 训练时间 (小时) | 输出质量 (FID) |
|---|---|---|---|---|
| LivePortrait | 30 | 4.2 | 48 (单 GPU) | 12.3 |
| SadTalker | 18 | 6.1 | 72 | 14.7 |
| Wav2Lip | 25 | 3.8 | 36 | 18.1 |
| D-ID (专有) | 24 | 不适用 (云端) | 不适用 | 11.9 |

数据要点： 在开源替代方案中，LivePortrait 实现了速度与质量的最佳平衡，FPS 比 SadTalker 提升 40%，同时保持了有竞争力的输出质量。其更低的 GPU 内存需求使其对个人开发者和小型工作室而言触手可及。

该模型的轻量特性部分归功于其使用 EfficientNet 作为特征提取的主干网络，取代了更重的 ResNet 或 ViT 架构。这一设计选择将参数量从数亿减少到约 4500 万，从而在中端硬件上实现实时性能。其代价是在处理极端头部姿态（超过 60 度）时性能略有下降，但对于大多数肖像动画用例——如说话头像、虚拟主持人、社交媒体虚拟形象——这一限制是可以接受的。

关键参与者与案例研究

LivePortrait 进入了一个由专有服务和开源项目共同主导的竞争格局。关键参与者包括：

- D-ID：领先的商业平台，为企业提供 AI 视频生成服务。其解决方案基于云端，基本 API 访问定价为每月 300 美元起。专注于为企业培训和营销提供高质量、品牌安全的虚拟形象。
- HeyGen：另一款流行的商业工具，以其易用性和多语言支持而闻名。HeyGen 按视频分钟收费，套餐起价为每月 24 美元。在内容创作者和小型企业中获得了广泛关注。
- SadTalker：来自新南威尔士大学的开源项目，率先使用音频驱动面部动画。拥有超过 10,000 个 GitHub 星标，但存在推理速度较慢和偶尔出现伪影的问题。
- Wav2Lip：由印度理工学院的研究人员开发，该模型专注于唇形同步。被广泛使用，但与 LivePortrait 相比，生成的表情表现力较弱。

竞争对比

| 特性 | LivePortrait | D-ID | HeyGen | SadTalker |
|---|---|---|---|---|
| 开源 | 是 | 否 | 否 | 是 |
| 实时推理 | 是 (30 FPS) | 是 (云端) | 是 (云端) | 否 (18 FPS) |
| 包含训练代码 | 是 | 否 | 否 | 是 |
| 表情迁移 | 是 | 是 | 是 | 有限 |
| 本地执行 | 是 | 否 | 否 | 是 |
| 成本 | 免费 | 每月 300 美元以上 | 每月 24 美元以上 | 免费 |

数据要点： LivePortrait 是唯一将开源可用性、实时本地推理和完整表情迁移能力结合在一起的解决方案。这使其成为一股颠覆性力量，尤其对于需要完全控制模型的开发者和研究人员而言。

一个值得注意的案例是，一家小型游戏开发工作室使用 LivePortrait 创建动态 NPC（非玩家角色）虚拟形象。此前，该工作室依赖 D-ID 的 API，仅为一款游戏每月就需花费 1,200 美元。通过切换到 LivePortrait，他们消除了经常性成本，并获得了针对自身特定艺术风格微调模型的能力。该工作室报告称，虚拟形象制作时间减少了 60%，并且能够

时间归档

延伸阅读

常见问题

GitHub 热点“LivePortrait: Kling AI's Open-Source Tool Brings Portraits to Life”主要讲了什么？

LivePortrait, developed by Kling AI Research, is a new open-source project that animates a single portrait photo into a talking or moving video. The model uses efficient facial lan…

这个 GitHub 项目在“LivePortrait vs SadTalker comparison”上为什么会引发关注？

LivePortrait's architecture is a carefully engineered pipeline that balances quality, speed, and accessibility. At its core, the model employs a two-stage approach: first, a lightweight landmark detection network identif…

从“LivePortrait real-time performance benchmarks”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 18249，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。