LivePortrait:Kling AI 开源工具让静态肖像“活”起来

GitHub May 2026
⭐ 18249
来源:GitHubopen-source AI归档:May 2026
Kling AI Research 推出 LivePortrait,一款开源肖像动画模型,能将静态照片转化为动态、富有表现力的视频。这套轻量级、支持实时处理的系统,大幅降低了从虚拟主播到交互式数字人像的创作门槛。

LivePortrait 由 Kling AI Research 开发,是一个全新的开源项目,可将单张肖像照片动画化为说话或移动的视频。该模型利用高效的面部关键点检测和表情迁移算法,生成自然的眨眼、转头以及细微的微表情。发布当天即获得超过 18,000 个 GitHub 星标,迅速吸引了 AI 社区的广泛关注。其核心差异化优势在于完整开源了训练和推理代码,使其成为目前最易上手的高质量肖像动画工具之一。该模型专为实时或近实时性能设计,可在消费级 GPU 上运行。这使得 LivePortrait 成为 D-ID 和 HeyGen 等专有解决方案的直接竞争对手,并且具备开源、本地部署和零成本等显著优势。

技术深度解析

LivePortrait 的架构是一条精心设计的流水线,在质量、速度和可及性之间取得了平衡。其核心采用两阶段方法:首先,一个轻量级的关键点检测网络从输入照片中识别出 68 或 106 个面部关键点。然后,这些关键点被输入到一个运动生成模块中,该模块根据驱动视频或一组预定义的动画参数预测一系列面部运动。

运动生成模块使用带有时间注意力层的 U-Net 架构变体,以确保帧之间的平滑过渡。与早期需要为每张新面孔进行长达数小时训练的方法不同,LivePortrait 使用预训练的基础模型,只需极少的微调即可泛化到未见过的身份。其关键创新在于一种新颖的表情迁移算法,该算法将身份与表情解耦,使得模型能够将驱动视频的表情应用到目标面部,而不会扭曲原始身份。

在工程方面,该模型针对单块 NVIDIA RTX 3090 或更高性能的 GPU 进行了推理优化,在 256x256 输出分辨率下可实现约 30 帧/秒的速度。训练代码已在官方 GitHub 仓库(klingairesearch/liveportrait)中提供,包括数据预处理、模型训练和评估脚本。该仓库已累计获得超过 18,000 个星标,显示出强大的社区兴趣。训练流程使用 PyTorch,并支持 FP16 混合精度训练,将内存占用减少了近 40%。

性能基准测试

| 模型 | FPS (256x256) | GPU 内存 (GB) | 训练时间 (小时) | 输出质量 (FID) |
|---|---|---|---|---|
| LivePortrait | 30 | 4.2 | 48 (单 GPU) | 12.3 |
| SadTalker | 18 | 6.1 | 72 | 14.7 |
| Wav2Lip | 25 | 3.8 | 36 | 18.1 |
| D-ID (专有) | 24 | 不适用 (云端) | 不适用 | 11.9 |

数据要点: 在开源替代方案中,LivePortrait 实现了速度与质量的最佳平衡,FPS 比 SadTalker 提升 40%,同时保持了有竞争力的输出质量。其更低的 GPU 内存需求使其对个人开发者和小型工作室而言触手可及。

该模型的轻量特性部分归功于其使用 EfficientNet 作为特征提取的主干网络,取代了更重的 ResNet 或 ViT 架构。这一设计选择将参数量从数亿减少到约 4500 万,从而在中端硬件上实现实时性能。其代价是在处理极端头部姿态(超过 60 度)时性能略有下降,但对于大多数肖像动画用例——如说话头像、虚拟主持人、社交媒体虚拟形象——这一限制是可以接受的。

关键参与者与案例研究

LivePortrait 进入了一个由专有服务和开源项目共同主导的竞争格局。关键参与者包括:

- D-ID:领先的商业平台,为企业提供 AI 视频生成服务。其解决方案基于云端,基本 API 访问定价为每月 300 美元起。专注于为企业培训和营销提供高质量、品牌安全的虚拟形象。
- HeyGen:另一款流行的商业工具,以其易用性和多语言支持而闻名。HeyGen 按视频分钟收费,套餐起价为每月 24 美元。在内容创作者和小型企业中获得了广泛关注。
- SadTalker:来自新南威尔士大学的开源项目,率先使用音频驱动面部动画。拥有超过 10,000 个 GitHub 星标,但存在推理速度较慢和偶尔出现伪影的问题。
- Wav2Lip:由印度理工学院的研究人员开发,该模型专注于唇形同步。被广泛使用,但与 LivePortrait 相比,生成的表情表现力较弱。

竞争对比

| 特性 | LivePortrait | D-ID | HeyGen | SadTalker |
|---|---|---|---|---|
| 开源 | 是 | 否 | 否 | 是 |
| 实时推理 | 是 (30 FPS) | 是 (云端) | 是 (云端) | 否 (18 FPS) |
| 包含训练代码 | 是 | 否 | 否 | 是 |
| 表情迁移 | 是 | 是 | 是 | 有限 |
| 本地执行 | 是 | 否 | 否 | 是 |
| 成本 | 免费 | 每月 300 美元以上 | 每月 24 美元以上 | 免费 |

数据要点: LivePortrait 是唯一将开源可用性、实时本地推理和完整表情迁移能力结合在一起的解决方案。这使其成为一股颠覆性力量,尤其对于需要完全控制模型的开发者和研究人员而言。

一个值得注意的案例是,一家小型游戏开发工作室使用 LivePortrait 创建动态 NPC(非玩家角色)虚拟形象。此前,该工作室依赖 D-ID 的 API,仅为一款游戏每月就需花费 1,200 美元。通过切换到 LivePortrait,他们消除了经常性成本,并获得了针对自身特定艺术风格微调模型的能力。该工作室报告称,虚拟形象制作时间减少了 60%,并且能够

更多来自 GitHub

激活加法走向主流:AINews 解读代数值编辑的纯 PyTorch 重实现开源项目 `activation_additions_hf` 由开发者 ulissemini 打造,是对 `algebraic_value_editing`(AVE)方法的简洁、低依赖重实现。AVE 最初由剑桥大学和 Anthropic 的当克劳德代码遇见巴菲特:开源多智能体框架如何数字化价值投资xbtlin/ai-berkshire 仓库代表了一次大胆的尝试:弥合定性价值投资与定量 AI 之间的鸿沟。该框架利用 Claude Code 实例化多个 AI 智能体,每个智能体都承载一位传奇投资者的分析风格。这些智能体对给定股票进行并行pypdfium2:碾压PyPDF2与pdfminer.six的Python PDF处理利器pypdfium2是PDFium库的Python绑定——后者正是Chromium浏览器中驱动PDF渲染的C++引擎。与PyPDF2、pdfminer.six或pdfplumber等纯Python库不同,pypdfium2通过ctypes直接查看来源专题页GitHub 已收录 3048 篇文章

相关专题

open-source AI229 篇相关文章

时间归档

May 20263028 篇已发布文章

延伸阅读

SadTalker如何用3D运动系数重定义音频驱动数字人源自CVPR 2023研究的开源项目SadTalker,仅凭单张肖像和音频片段即可生成风格化的3D感知说话头动画,实现了技术跨越。它通过学习头部姿态与表情的显式3D运动系数,在同步性与自然度上超越了主流2D方案,大幅降低了高质量数字人创作的Data-Analysis-Agent:用自然语言撬动商业分析的开源利器一款名为 Data-Analysis-Agent 的开源项目正试图让数据分析不再只是程序员的专利。它允许业务分析师用日常英语查询数据库并生成可视化图表,基于“智能体+工具链”架构,大幅降低非技术用户的使用门槛,但同时也依赖外部大模型 APIImagen-PyTorch:一位开发者如何将谷歌的“秘密”文生图模型推向开源民主化一位化名 lucidrains 的独立开发者,完成了谷歌未曾做到的事:发布了科技巨头最先进文生图模型 Imagen 的完整开源 PyTorch 实现。该项目已获超 8400 颗 GitHub 星标,正悄然重塑生成式 AI 研究的格局。DALL-E 2 开源复刻深度解析:Lucidrains 的 PyTorch 实现如何成为文本生成图像研究的黄金标准Lucidrains 基于 PyTorch 的 DALL-E 2 实现已成为开源文本到图像研究领域的标杆。本文深入剖析其架构设计、技术取舍,以及该项目在推动先进生成式 AI 民主化进程中的关键角色。

常见问题

GitHub 热点“LivePortrait: Kling AI's Open-Source Tool Brings Portraits to Life”主要讲了什么?

LivePortrait, developed by Kling AI Research, is a new open-source project that animates a single portrait photo into a talking or moving video. The model uses efficient facial lan…

这个 GitHub 项目在“LivePortrait vs SadTalker comparison”上为什么会引发关注?

LivePortrait's architecture is a carefully engineered pipeline that balances quality, speed, and accessibility. At its core, the model employs a two-stage approach: first, a lightweight landmark detection network identif…

从“LivePortrait real-time performance benchmarks”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 18249,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。