NeurIPS 2025 | 硬刚可灵1.5!阿里通义&清华等开源Wan-Move:指哪动哪的“神笔马良”
版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
AI生成未来
扫码关注公众号
扫码阅读
手机扫码阅读
文章主旨:
Wan-Move框架实现了无需架构修改的精确运动控制视频生成,并通过点轨迹引导和隐空间映射改进了现有技术,支持广泛应用场景。
关键要点:
- Wan-Move通过隐空间特征复制实现运动控制,无需额外模块,适合大规模微调。
- 创建了MoveBench基准,用于评估运动控制质量,标注精确且多样性高。
- 实验表明,Wan-Move在视频质量和运动控制精度上优于现有方法,媲美商业产品。
- 支持多物体、复杂动态场景及长持续时间视频生成,具有强泛化能力。
- 局限性包括对遮挡或轨迹丢失的敏感性,且存在双重用途风险。
内容结构:
1. 背景与问题
- 现有视频生成模型在运动控制方面存在粒度粗糙、难以扩展的问题。
2. 提出的方案
- Wan-Move框架通过点轨迹隐空间映射实现细粒度运动控制,无需修改基础模型。
- 用空间映射和特征复制注入运动引导,避免额外模块带来的复杂性。
3. 关键技术
- 利用密集点轨迹表示运动。
- 隐空间特征投影与传播技术。
- 即插即用式运动条件注入方式。
4. 实验与结果
- 实验显示Wan-Move在运动控制精度和视频质量上显著优于现有方法。
- 支持单物体、多物体、复杂动态场景及高幅度运动控制应用。
5. MoveBench基准
- 提供高质量标注的评估基准,覆盖多样内容类别和长时动态场景。
6. 局限性与影响
- 轨迹遮挡可能导致运动控制丧失,需进一步优化。
- 模型具有双重用途潜力,需注意误用风险。
文章总结:
Wan-Move框架为运动可控视频生成提供了高效开源解决方案,赋能创意产业,同时需关注技术滥用风险。
AI生成未来
AI生成未来
扫码关注公众号
还在用多套工具管项目?
一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。
查看方案
AI生成未来的其他文章
人形机器人全能运动新突破:HUGWBC实现多模态步态精细调控与实时操控(上交&上海AI lab)
点击下方卡片,关注“AI生成未来”
后台回复“GAI”?
CVPR 2024 Highlight | 让SD乖乖学会文本生360°全景!PanFusion 强势来袭!
点击下方卡片,关注“AI生成未来”>>后台回复“
大语言模型的前世今生:万字长文完整梳理所有里程碑式大语言模型(LLMs)
点击下方卡片,关注“AI生成未来”>>后台回复“
如何从文本生成图像和视频?9个常用生成器一览!
如何从文本生成图像和视频?9个常用生成器一览!
大语言模型高效推理知多少?三万字长文带你揭开神秘面纱(数据级、模型级和系统级)
击下方卡片,关注“AI生成未来”>>后台回复“GAI
加入社区微信群
与行业大咖零距离交流学习
PMO实践白皮书
白皮书上线
白皮书上线