DragNUWA:拖拽式视频编辑能否真正走向主流?

GitHub April 2026
⭐ 720
来源:GitHub归档:April 2026
微软亚洲研究院Project NUWA团队推出的DragNUWA,将“拖拽”式交互引入AI视频生成,号称让视频编辑变得直观简单。然而,720颗GitHub星标、无预训练模型——这究竟是技术突破,还是仅供观赏的研究成果?AINews带你深入技术真相。

DragNUWA由微软亚洲研究院Project NUWA团队开发,是让非专业人士也能轻松控制视频生成方向的重要一步。其核心创新在于将图像编辑工具(如DragGAN)中广受欢迎的“拖拽”交互范式,拓展到了视频的时间维度。用户无需输入文字提示,只需指定物体上关键点的运动轨迹,模型即可生成该物体沿指定路径运动的视频。技术上,DragNUWA在潜在扩散模型(LDM)框架内,结合了光流估计与空间注意力机制。其流程分为三个阶段:首先训练一个文本到视频的基础模型;其次以光流作为额外条件进行微调;最后通过轻量级模块引入基于拖拽的控制。然而,当前实现存在显著局限:光流编码器带来巨大计算开销,在A100 GPU上生成512x512分辨率、16帧的视频需耗时超过2分钟;拖拽控制仅限于稀疏关键点,复杂形变(如飘动的旗帜)处理不佳;模型在遮挡场景下容易出现重影或物体突然消失的问题。与Runway Gen-3、Pika Labs等闭源竞品相比,DragNUWA提供了最直接的运动控制,但速度严重落后且无可用模型。该项目代码已开源,但权重文件尚未发布,GitHub星标仅720颗,社区关注度有限。

技术深度解析

DragNUWA处于两个热门研究领域的交叉点:基于扩散模型的视频生成与交互式图像编辑。要理解其架构,我们首先需要认清挑战所在。像Stable Video Diffusion或AnimateDiff这样的视频生成模型,已经能够生成时间上连贯的片段,但精确控制特定物体的运动仍然是一个未解难题。文本提示过于粗糙——说“猫向左跳”并不能指定跳跃的弧线、速度或最终位置。DragNUWA通过引入一种新的条件信号——一组控制点及其目标轨迹——来解决这一问题。

架构概览

该框架基于潜在扩散模型(LDM)主干,与Stable Diffusion类似。关键修改包括:
1. 光流编码器:一个独立的网络(通常是预训练的RAFT或其轻量变体)从输入视频中估计密集光流。该光流被编码为特征图,通过交叉注意力或特征拼接注入到U-Net解码器中。
2. 带拖拽令牌的空间注意力:DragNUWA没有使用标准的自注意力机制,而是采用了一种改进的注意力层,其中用户指定的拖拽点被表示为可学习的“拖拽令牌”。这些令牌关注帧的空间特征,有效地告诉模型“这个像素应该移动到那个位置”。
3. 多阶段训练:作者采用了三阶段课程学习策略:
- 阶段1:在大规模数据集(如WebVid-10M)上训练文本到视频的LDM,以学习基本的运动先验。
- 阶段2:冻结基础模型,使用视频帧及其真实光流的配对数据训练光流编码器。
- 阶段3:使用拖拽监督对整个模型进行微调,其中合成拖拽轨迹是通过扰动现有视频中的物体关键点生成的。

不足之处

虽然该方法设计精巧,但当前实现存在若干局限。首先,光流编码器带来了显著的计算开销——据报道,在A100 GPU上推理512x512分辨率、16帧的视频需要超过2分钟。其次,拖拽控制仅限于稀疏关键点;复杂形变(例如飘动的旗帜)处理效果不佳。第三,模型在遮挡场景下表现挣扎:如果被拖拽的物体经过另一个物体后方,结果常常出现重影或物体突然消失。

与替代方案的比较

| 特性 | DragNUWA | DragGAN(图像) | Runway Gen-3 | Pika Labs |
|---|---|---|---|---|
| 输入模态 | 视频 + 拖拽点 | 图像 + 拖拽点 | 文本提示 | 文本提示 |
| 运动控制 | 显式轨迹 | 隐式(通过优化) | 隐式(文本) | 隐式(文本) |
| 时间一致性 | 良好(光流引导) | 不适用(单张图像) | 优秀 | 良好 |
| 推理速度 | 约2分钟/16帧 | 约10秒/张图像 | 约30秒/5秒片段 | 约45秒/3秒片段 |
| 预训练模型可用 | 否 | 是 | 是(API) | 是(API) |
| 开源 | 部分(仅代码) | 是 | 否 | 否 |

数据要点: DragNUWA提供了最直接的运动控制,但代价是严重的速度惩罚,且没有可用的模型。闭源替代方案(Runway、Pika)优先考虑速度和打磨程度,牺牲了精细控制。这种权衡定义了当前的市场空白。

相关开源仓库
- ProjectNUWA/DragNUWA(⭐720):本文的主题。代码可用,但无权重文件。最近的提交集中在文档上,而非模型发布。
- Stability-AI/generative-models(⭐25k+):许多视频扩散模型的基础,包括DragNUWA可能使用的模型。
- NVlabs/DragGAN(⭐35k+):启发DragNUWA的图像版前身。功能完整,带有预训练模型。

关键玩家与案例研究

DragNUWA项目由来自微软亚洲研究院(MSRA) 的研究人员领导,该实验室以计算机视觉和自然语言处理领域的基础性工作而闻名。团队成员包括Yifan Jiang、Yue Wu和Ziwei Liu等人,他们此前在可控生成领域已有发表。MSRA的策略是典型的:发布前沿研究以建立知识产权并吸引人才,而产品化则留给内部团队(如Azure AI)或外部合作伙伴。

竞品对比

| 产品 | 公司 | 方法 | 优势 | 劣势 |
|---|---|---|---|---|
| Runway Gen-3 | Runway ML | 扩散Transformer | 高质量、快速、界面精美 | 无拖拽控制、订阅费用 |
| Pika Labs | Pika | 扩散 + 运动模块 | 简单的文本到视频、适合社交媒体 | 编辑能力有限、无关键帧控制 |
| ComfyUI + AnimateDiff | 社区 | 模块化扩散 | 完全控制、免费 | 学习曲线陡峭、无拖拽界面 |
| DragNUWA | MSRA | 光流 + 拖拽令牌 | 直接运动控制 | 无模型、速度慢、仅限研究 |

案例研究:独立动画师

设想一位动态图形设计师,想要制作一个标志飞过屏幕的动画。使用c

更多来自 GitHub

Chipyard:UC Berkeley 开源框架,或将重塑 RISC-V 芯片设计格局Chipyard 由 UC Berkeley ASPIRE 实验室开发,代表了定制芯片设计范式的根本性转变。与传统的、僵化且耗时的单体式硬件设计流程不同,Chipyard 提供了一种基于生成器(generator)的模块化方法,构建于 ChAstral:让GitHub星标终于变得真正有用的开源利器GitHub的星标功能一直以来都只是一个单向度的书签:你点击星标,仓库就消失在一个扁平的、按时间排序的列表里。Astral,一款由开发者社区打造的轻量级开源工具,彻底改变了这一现状。它能导入你星标的仓库,让你分配自定义标签、执行批量操作,并GitHub Stars Manager:终结GitHub“星标”管理混乱的开源利器GitHub原生的星标仓库功能,坦白说,不过是一个美化版的书签列表。你可以给仓库加星,然后勉强搜索这个列表——仅此而已。没有文件夹系统,没有标签,没有批量导出,也无法按语言或最后更新时间筛选。对于每周给数十个项目加星的开发者来说,这个列表很查看来源专题页GitHub 已收录 1142 篇文章

时间归档

April 20262655 篇已发布文章

延伸阅读

视频世界模型:AR扩散革命如何重塑AI对运动的理解一个名为“awesome-video-world-models-with-ar-diffusion”的GitHub精选仓库正迅速走红,单日收获超450颗星。它系统梳理了自回归模型与扩散过程在视频预测和生成领域的融合路径,标志着AI理解和模拟MagicAnimate:扩散模型如何攻克人类视频生成的最后堡垒Magic Research推出的MagicAnimate框架,通过巧妙改造扩散模型并引入专用注意力机制,实现了从单张图像和动作序列生成时间连贯人类动画的重大突破。它有效解决了AI生成视频中顽固的闪烁与抖动问题,将动态内容生成的边界推向新高AnimateDiff运动模块革命:即插即用视频生成如何让AI内容创作民主化AnimateDiff框架代表了AI视频生成领域的范式转变。它将运动学习与内容创作解耦,使任何拥有预训练图像模型的人都能以极少的额外训练成本生成连贯的视频序列。这项技术突破正迅速推动动态内容创作的民主化进程。宇树科技发布官方PyBullet仿真平台,四足机器人开发迈向平民化时代商用四足机器人领军企业宇树科技正式开源其Go1与A1平台的PyBullet高精度仿真环境。这一战略举措旨在降低前沿机器人算法的研发门槛,让研究者无需实体硬件即可在仿真中验证运动控制、步态规划与强化学习策略,或将重塑行业创新生态。

常见问题

GitHub 热点“DragNUWA: Can Drag-and-Drop Video Editing Finally Go Mainstream?”主要讲了什么?

DragNUWA, developed by the Project NUWA team at Microsoft Research Asia, represents a significant step in making video generation controllable by non-experts. The core innovation i…

这个 GitHub 项目在“DragNUWA vs Runway Gen-3 motion control comparison”上为什么会引发关注?

DragNUWA sits at the intersection of two hot research areas: diffusion-based video generation and interactive image editing. To understand its architecture, we must first appreciate the challenge. Video generation models…

从“How to use DragNUWA without pretrained weights”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 720,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。