NeurIPS 2025 | 硬刚可灵1.5!阿里通义&清华等开源Wan-Move:指哪动哪的“神笔马良”

运动 轨迹 视频 Move Wan
发布于 2025-12-23
4

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读

文章主旨:

Wan-Move框架实现了无需架构修改的精确运动控制视频生成,并通过点轨迹引导和隐空间映射改进了现有技术,支持广泛应用场景。

关键要点:

  • Wan-Move通过隐空间特征复制实现运动控制,无需额外模块,适合大规模微调。
  • 创建了MoveBench基准,用于评估运动控制质量,标注精确且多样性高。
  • 实验表明,Wan-Move在视频质量和运动控制精度上优于现有方法,媲美商业产品。
  • 支持多物体、复杂动态场景及长持续时间视频生成,具有强泛化能力。
  • 局限性包括对遮挡或轨迹丢失的敏感性,且存在双重用途风险。

内容结构:

1. 背景与问题

  • 现有视频生成模型在运动控制方面存在粒度粗糙、难以扩展的问题。

2. 提出的方案

  • Wan-Move框架通过点轨迹隐空间映射实现细粒度运动控制,无需修改基础模型。
  • 用空间映射和特征复制注入运动引导,避免额外模块带来的复杂性。

3. 关键技术

  • 利用密集点轨迹表示运动。
  • 隐空间特征投影与传播技术。
  • 即插即用式运动条件注入方式。

4. 实验与结果

  • 实验显示Wan-Move在运动控制精度和视频质量上显著优于现有方法。
  • 支持单物体、多物体、复杂动态场景及高幅度运动控制应用。

5. MoveBench基准

  • 提供高质量标注的评估基准,覆盖多样内容类别和长时动态场景。

6. 局限性与影响

  • 轨迹遮挡可能导致运动控制丧失,需进一步优化。
  • 模型具有双重用途潜力,需注意误用风险。

文章总结:

Wan-Move框架为运动可控视频生成提供了高效开源解决方案,赋能创意产业,同时需关注技术滥用风险。

AI生成未来