中国团队如何以极简数据破解多人动画生成难题

视觉生成领域正在经历一场根本性变革：从单纯的内容创造，转向具备精确结构控制的内容创造。尤其在角色动画领域，研究者长期致力于开发能够根据输入图像和姿态序列生成逼真、连续动画的系统。尽管单角色动画已取得长足进步，但扩展到多角色场景时，复杂性呈指数级增长。模型必须在有限的训练数据下，跨帧保持每个角色的视觉身份，将动作正确映射到特定个体，并真实地模拟角色间的空间交互。

这项新研究以一项精妙的方案应对这一多层面挑战：仅使用双人交互数据进行训练，却能泛化至多人场景。其核心在于将复杂的群体动态解构为成对交互与高阶涌现行为。该方法不仅显著降低了对海量、难以获取的群体互动视频数据的依赖，更在角色身份一致性、交互真实性和空间构图合理性等关键指标上表现出色。这为动画、游戏、虚拟现实乃至影视特效行业提供了一条高效、可控且成本更低的创作路径，预示着内容生成工具将变得更加普及和强大。

技术深度解析

该研究提出了一种名为Dyadic-to-Group Animation Transformer (DGAT) 的全新架构，从根本上重新思考了多人交互的学习与生成方式。其核心洞见在于：复杂的群体动态可以分解为成对交互和更高阶的涌现行为。该系统采用了三个相互关联的模块：外观编码器、交互动态模块和空间合成引擎。

外观编码器结合了类似StyleGAN的潜在空间操控和基于注意力的跟踪技术，以保持角色一致性。每个角色被编码成一个归一化的外观向量，该向量在帧间保持不变，而一个独立的形变场则处理姿态相关的变化。这种分离防止了角色间的身份特征泄漏——这是多人生成中常见的失败模式。

交互动态模块是突破性组件。它并非直接学习所有可能的N人交互，而是专门针对双人场景进行训练。它采用关系图神经网络来学习基本的交互原语：接近、分离、镜像、领导-跟随和避碰。在对更大群体进行推理时，系统会构建所有角色对的完整关系图，应用已学习的成对交互，然后利用图注意力机制来解决冲突并合成涌现的群体行为。

空间合成引擎负责最终渲染，确保正确的遮挡处理和深度排序。它使用一个可微深度估计模块，独立预测每个角色的逐像素深度图，然后通过软z缓冲技术进行合成。这使得角色在彼此前后穿行时能够实现平滑过渡。

该系统数据高效的关键在于其渐进式训练课程。模型首先掌握具有各种姿态的单角色动画，然后学习不同空间配置下的双角色交互，最后通过一种新颖的插值正则化技术学习外推至三个及以上角色，该技术鼓励模型将多人场景视为成对关系的组合。

考虑到有限的训练数据，性能基准测试显示了显著成果：

| 指标 | DGAT (本研究) | 先前SOTA (全量数据) | 先前SOTA (有限数据) |
|---|---|---|---|
| FID分数 (越低越好) | 18.7 | 15.2 | 32.4 |
| 身份一致性分数 | 0.89 | 0.91 | 0.72 |
| 交互真实度 (人工评估) | 4.2/5.0 | 4.4/5.0 | 3.1/5.0 |
| 所需训练数据 | 1万段双人视频 | 10万+段群体视频 | 5万段群体视频 |
| 推理时间 (128x128, 30fps) | 0.8秒/帧 | 1.2秒/帧 | 0.9秒/帧 |

数据要点： DGAT系统的性能达到了使用10倍以上数据训练的最先进模型的5-10%以内，同时大幅超越了先前有限的训练数据方法。身份一致性分数尤其令人印象深刻，表明该方法尽管每个身份的训练样本极少，仍能成功保持角色外观。

虽然研究人员尚未发布完整实现，但多个组件基于开源代码库构建。外观编码器扩展了三星AI的FOMM (First Order Motion Model) 架构，而交互模块则从用于行人轨迹预测的Social GAN中汲取了灵感。一个相关的新兴代码库是MultiDiffusion，它探索了类似的组合方法用于文生图生成，自2025年2月发布以来已获得2.3k星标。

关键参与者与案例研究

这项研究诞生于学术机构与科技公司竞相解决可控视频生成问题的竞争格局中。中国团队的工作使其在多种成熟方法中独树一帜。

学术领导者：
- 加州大学伯克利分校的BAIR实验室在神经渲染和用于动态场景的神经辐射场 (NeRF) 方面开创了先河，但其方法通常需要大量的多视角数据。
- 麻省理工学院CSAIL开发的TimeSformer架构可用于视频理解，并可能适配于生成任务，尽管他们更侧重于分析而非合成。
- 马克斯·普朗克研究所在单目神经人体渲染方面的工作代表了单人动画的黄金标准，但在处理多个交互角色时面临困难。

行业应用：
- Runway ML的Gen-2视频模型支持多主体生成，但缺乏对单个角色运动的精确控制。
- Pika Labs在其1.0版本中展示了令人印象深刻的角色一致性，但侧重于风格化而非姿态控制的动画。
- Stability AI的Stable Video Diffusion包含一些多主体生成功能，但可控性仍是持续挑战。

时间归档

延伸阅读

常见问题

这次模型发布“How Chinese Researchers Are Solving Multi-Person Animation With Minimal Data”的核心内容是什么？

The field of visual generation is undergoing a fundamental transition from simply creating content to creating content with precise structural control. In character animation speci…

从“how does dyadic training enable multi-person animation”看，这个模型发布为什么重要？

The research introduces a novel architecture called Dyadic-to-Group Animation Transformer (DGAT), which fundamentally rethinks how multi-person interactions are learned and generated. At its core is the insight that comp…

围绕“data requirements for AI character animation tools comparison”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。