LivePortrait:Kling AI 开源工具让静态肖像“活”起来

GitHub May 2026
⭐ 18249
来源:GitHubopen source AI归档:May 2026
Kling AI Research 推出 LivePortrait,一款开源肖像动画模型,能将静态照片转化为动态、富有表现力的视频。这套轻量级、支持实时处理的系统,大幅降低了从虚拟主播到交互式数字人像的创作门槛。

LivePortrait 由 Kling AI Research 开发,是一个全新的开源项目,可将单张肖像照片动画化为说话或移动的视频。该模型利用高效的面部关键点检测和表情迁移算法,生成自然的眨眼、转头以及细微的微表情。发布当天即获得超过 18,000 个 GitHub 星标,迅速吸引了 AI 社区的广泛关注。其核心差异化优势在于完整开源了训练和推理代码,使其成为目前最易上手的高质量肖像动画工具之一。该模型专为实时或近实时性能设计,可在消费级 GPU 上运行。这使得 LivePortrait 成为 D-ID 和 HeyGen 等专有解决方案的直接竞争对手,并且具备开源、本地部署和零成本等显著优势。

技术深度解析

LivePortrait 的架构是一条精心设计的流水线,在质量、速度和可及性之间取得了平衡。其核心采用两阶段方法:首先,一个轻量级的关键点检测网络从输入照片中识别出 68 或 106 个面部关键点。然后,这些关键点被输入到一个运动生成模块中,该模块根据驱动视频或一组预定义的动画参数预测一系列面部运动。

运动生成模块使用带有时间注意力层的 U-Net 架构变体,以确保帧之间的平滑过渡。与早期需要为每张新面孔进行长达数小时训练的方法不同,LivePortrait 使用预训练的基础模型,只需极少的微调即可泛化到未见过的身份。其关键创新在于一种新颖的表情迁移算法,该算法将身份与表情解耦,使得模型能够将驱动视频的表情应用到目标面部,而不会扭曲原始身份。

在工程方面,该模型针对单块 NVIDIA RTX 3090 或更高性能的 GPU 进行了推理优化,在 256x256 输出分辨率下可实现约 30 帧/秒的速度。训练代码已在官方 GitHub 仓库(klingairesearch/liveportrait)中提供,包括数据预处理、模型训练和评估脚本。该仓库已累计获得超过 18,000 个星标,显示出强大的社区兴趣。训练流程使用 PyTorch,并支持 FP16 混合精度训练,将内存占用减少了近 40%。

性能基准测试

| 模型 | FPS (256x256) | GPU 内存 (GB) | 训练时间 (小时) | 输出质量 (FID) |
|---|---|---|---|---|
| LivePortrait | 30 | 4.2 | 48 (单 GPU) | 12.3 |
| SadTalker | 18 | 6.1 | 72 | 14.7 |
| Wav2Lip | 25 | 3.8 | 36 | 18.1 |
| D-ID (专有) | 24 | 不适用 (云端) | 不适用 | 11.9 |

数据要点: 在开源替代方案中,LivePortrait 实现了速度与质量的最佳平衡,FPS 比 SadTalker 提升 40%,同时保持了有竞争力的输出质量。其更低的 GPU 内存需求使其对个人开发者和小型工作室而言触手可及。

该模型的轻量特性部分归功于其使用 EfficientNet 作为特征提取的主干网络,取代了更重的 ResNet 或 ViT 架构。这一设计选择将参数量从数亿减少到约 4500 万,从而在中端硬件上实现实时性能。其代价是在处理极端头部姿态(超过 60 度)时性能略有下降,但对于大多数肖像动画用例——如说话头像、虚拟主持人、社交媒体虚拟形象——这一限制是可以接受的。

关键参与者与案例研究

LivePortrait 进入了一个由专有服务和开源项目共同主导的竞争格局。关键参与者包括:

- D-ID:领先的商业平台,为企业提供 AI 视频生成服务。其解决方案基于云端,基本 API 访问定价为每月 300 美元起。专注于为企业培训和营销提供高质量、品牌安全的虚拟形象。
- HeyGen:另一款流行的商业工具,以其易用性和多语言支持而闻名。HeyGen 按视频分钟收费,套餐起价为每月 24 美元。在内容创作者和小型企业中获得了广泛关注。
- SadTalker:来自新南威尔士大学的开源项目,率先使用音频驱动面部动画。拥有超过 10,000 个 GitHub 星标,但存在推理速度较慢和偶尔出现伪影的问题。
- Wav2Lip:由印度理工学院的研究人员开发,该模型专注于唇形同步。被广泛使用,但与 LivePortrait 相比,生成的表情表现力较弱。

竞争对比

| 特性 | LivePortrait | D-ID | HeyGen | SadTalker |
|---|---|---|---|---|
| 开源 | 是 | 否 | 否 | 是 |
| 实时推理 | 是 (30 FPS) | 是 (云端) | 是 (云端) | 否 (18 FPS) |
| 包含训练代码 | 是 | 否 | 否 | 是 |
| 表情迁移 | 是 | 是 | 是 | 有限 |
| 本地执行 | 是 | 否 | 否 | 是 |
| 成本 | 免费 | 每月 300 美元以上 | 每月 24 美元以上 | 免费 |

数据要点: LivePortrait 是唯一将开源可用性、实时本地推理和完整表情迁移能力结合在一起的解决方案。这使其成为一股颠覆性力量,尤其对于需要完全控制模型的开发者和研究人员而言。

一个值得注意的案例是,一家小型游戏开发工作室使用 LivePortrait 创建动态 NPC(非玩家角色)虚拟形象。此前,该工作室依赖 D-ID 的 API,仅为一款游戏每月就需花费 1,200 美元。通过切换到 LivePortrait,他们消除了经常性成本,并获得了针对自身特定艺术风格微调模型的能力。该工作室报告称,虚拟形象制作时间减少了 60%,并且能够

更多来自 GitHub

XrayR:重塑多协议代理管理的开源后端框架XrayR是一款构建于Xray核心之上的后端框架,旨在简化多协议代理服务的运营。它支持V2Ray、Trojan和Shadowsocks协议,并能与SSpanel、V2Board等多个面板集成。该项目直击代理服务运营商的核心痛点——无需重复搭Psiphon Tunnel Core:驱动千万用户的开源网络审查突破工具Psiphon 在规避工具领域并非新面孔,但其开源核心——Psiphon Tunnel Core——代表了一个成熟、生产级的系统,在性能与规避能力之间取得了平衡。与简单的 VPN 或 Tor 网络不同,Psiphon 采用动态、多协议的方法acme.sh:零依赖的Shell脚本,默默支撑着半个互联网的SSLacme.sh是一个纯Unix Shell脚本(符合POSIX标准),实现了ACME协议,用于自动化SSL/TLS证书的签发与续期。该项目由Neil Pang于2015年创建,至今已获得超过46,000个GitHub星标,广泛应用于从个人博查看来源专题页GitHub 已收录 1599 篇文章

相关专题

open source AI171 篇相关文章

时间归档

May 2026785 篇已发布文章

延伸阅读

SadTalker如何用3D运动系数重定义音频驱动数字人源自CVPR 2023研究的开源项目SadTalker,仅凭单张肖像和音频片段即可生成风格化的3D感知说话头动画,实现了技术跨越。它通过学习头部姿态与表情的显式3D运动系数,在同步性与自然度上超越了主流2D方案,大幅降低了高质量数字人创作的ExLlamaV2 单卡RTX 4090跑70B大模型:本地AI革命已至ExLlamaV2,一款专为推理优化的开源库,彻底打破了大型语言模型的硬件门槛,证明70B参数模型可在单张消费级RTX 4090显卡上流畅运行。通过激进的4位GPTQ量化技术,它实现了前所未有的速度与内存效率,重新定义了本地、私有AI的可能Vision Transformer:谷歌研究如何终结CNN在计算机视觉领域长达十年的统治谷歌研究院推出的Vision Transformer(ViT)彻底打破了卷积神经网络在计算机视觉领域长达十年的主导地位。通过将图像视为一系列图像块并应用纯Transformer编码器,ViT在图像分类任务上达到了业界顶尖水平——但前提是必须OpenAgent:零星AI框架,能否重新定义多智能体编排?OpenAgent以零星标、零分支、零社区验证的“三无”姿态闯入AI智能体框架赛道。然而,它那简化多智能体编排的豪言壮语,值得我们对这个“黑马”项目进行深度剖析,探究其可能对自主工作流未来带来的变革。

常见问题

GitHub 热点“LivePortrait: Kling AI's Open-Source Tool Brings Portraits to Life”主要讲了什么?

LivePortrait, developed by Kling AI Research, is a new open-source project that animates a single portrait photo into a talking or moving video. The model uses efficient facial lan…

这个 GitHub 项目在“LivePortrait vs SadTalker comparison”上为什么会引发关注?

LivePortrait's architecture is a carefully engineered pipeline that balances quality, speed, and accessibility. At its core, the model employs a two-stage approach: first, a lightweight landmark detection network identif…

从“LivePortrait real-time performance benchmarks”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 18249,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。