NeurIPS 2025 | 硬刚可灵1.5!阿里通义&清华等开源Wan-Move:指哪动哪的“神笔马良”
版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
AI生成未来
扫码关注公众号
扫码阅读
手机扫码阅读
文章主旨:
Wan-Move框架实现了无需架构修改的精确运动控制视频生成,并通过点轨迹引导和隐空间映射改进了现有技术,支持广泛应用场景。
关键要点:
- Wan-Move通过隐空间特征复制实现运动控制,无需额外模块,适合大规模微调。
- 创建了MoveBench基准,用于评估运动控制质量,标注精确且多样性高。
- 实验表明,Wan-Move在视频质量和运动控制精度上优于现有方法,媲美商业产品。
- 支持多物体、复杂动态场景及长持续时间视频生成,具有强泛化能力。
- 局限性包括对遮挡或轨迹丢失的敏感性,且存在双重用途风险。
内容结构:
1. 背景与问题
- 现有视频生成模型在运动控制方面存在粒度粗糙、难以扩展的问题。
2. 提出的方案
- Wan-Move框架通过点轨迹隐空间映射实现细粒度运动控制,无需修改基础模型。
- 用空间映射和特征复制注入运动引导,避免额外模块带来的复杂性。
3. 关键技术
- 利用密集点轨迹表示运动。
- 隐空间特征投影与传播技术。
- 即插即用式运动条件注入方式。
4. 实验与结果
- 实验显示Wan-Move在运动控制精度和视频质量上显著优于现有方法。
- 支持单物体、多物体、复杂动态场景及高幅度运动控制应用。
5. MoveBench基准
- 提供高质量标注的评估基准,覆盖多样内容类别和长时动态场景。
6. 局限性与影响
- 轨迹遮挡可能导致运动控制丧失,需进一步优化。
- 模型具有双重用途潜力,需注意误用风险。
文章总结:
Wan-Move框架为运动可控视频生成提供了高效开源解决方案,赋能创意产业,同时需关注技术滥用风险。
AI生成未来
AI生成未来
扫码关注公众号
还在用多套工具管项目?
一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。
查看方案
AI生成未来的其他文章
能训出SOTA模型的优质数据集发布!复旦最新VidGen-1M: 文生视频还得靠好数据
点击下方卡片,关注“AI生成未来”>>后台回复“
ACM MM24 | Hi3D: 3D生成领域再突破!新视角生成和高分辨率生成双SOTA(复旦&智象等)
点击下方卡片,关注“AI生成未来”
作者:Haibo Yang ??
突破空间限制!从2D到3D:北大等开源Lift3D,助力精准具身智能操作!
点击下方卡片,关注“AI生成未来”后台回复“GAI”??
给图像生成配“阅卷老师”!RubricRL拒绝黑盒瞎蒙,用细粒度量表驯服大模型,指哪改哪!
点击下方卡片,关注“AI生成未来”????扫码免费加入A
CVPR 2025 | AI眼镜颠覆生活!EgoLife黑科技:300小时真人实录打造你的全天候智能管家
点击下方卡片,关注“AI生成未来”如您有工作需要??
加入社区微信群
与行业大咖零距离交流学习
PMO实践白皮书
白皮书上线
白皮书上线