CVPR 2025 | AI视频定制进入多角色狂想时代!英伟达等发布VideoMage巧用"时空组合拳"
版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
AI生成未来
扫码关注公众号
扫码阅读
手机扫码阅读
文章主旨:
提出了一个统一框架 VideoMage,实现用户定义的多主体身份和交互运动的视频定制,解决现有方法在多主体和运动模式控制上的局限性。
关键要点:
- VideoMage 结合主体和运动 LoRA,从输入图像和视频中学习个性化信息。
- 提出外观无关的运动学习方法,通过负分类器自由引导,实现运动模式与主体外观的解耦。
- 开发了时空协作组合方案,以整合多个主体和运动属性,生成连贯的视频。
- 实验结果显示 VideoMage 在主体身份保真度、运动模式对齐及视频质量上优于现有方法。
- 用户研究表明,在文本对齐、主体保真度、运动保真度和视频质量四个方面,VideoMage均受到更高的用户偏好。
内容结构:
- 解决的问题:现有文本到视频生成方法在处理多主体和运动模式时存在局限,主要集中于单一概念的定制。
- 提出的方案:VideoMage框架结合主体和运动 LoRA,通过外观无关的运动学习和时空协作组合,实现多主体及其交互运动的定制。
- 方法与实现:
- 采用视频扩散模型结合主体 LoRA和运动 LoRA学习视觉和运动信息。
- 通过负分类器自由引导,隔离运动模式与外观信息,确保运动 LoRA专注于动态学习。
- 提出空间-时间协作采样(SCS)对主体和运动组件进行对齐,生成连贯视频。
- 实验与结果:
- 定性结果显示 VideoMage有效解决外观泄漏和属性混合问题,生成更精确的主体互动视频。
- 定量评估表明 VideoMage在主体身份保持、文本对齐和时间一致性方面优于竞争方法。
- 用户研究显示 VideoMage在多项指标上被参与者更偏好。
- 消融研究:验证了各模块(运动目标、注意力正则化、空间-时间协作采样)的有效性和贡献,进一步支持框架设计的合理性。
- 结论:VideoMage成功实现文本到视频生成的多主体和运动模式定制,显著提升视频生成的可控性和质量。
文章总结:
VideoMage通过技术创新解决了文本到视频生成的多主体和运动定制难题,提供了更高质量的解决方案,适用于个性化内容生成领域。
AI生成未来
AI生成未来
扫码关注公众号
还在用多套工具管项目?
一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。
查看方案
AI生成未来的其他文章
实例级图像生成最新SOTA!InstanceDiffusion:文本到实例图像生成控制方法
关注【AI生成未来】公众号,回复“GAI”,免费获取??
你的文生图模型可以秘密接收多模态提示了!南洋理工&腾讯最新提出EMMA
点击下方卡片,关注“AI生成未来”>>后台回复“
CVPR 2024 Highlight | 让SD乖乖学会文本生360°全景!PanFusion 强势来袭!
点击下方卡片,关注“AI生成未来”>>后台回复“
极佳、中科院等9机构联合首发 | 3万字长文全面解析世界模型(内容生成/自动驾驶等)
击下方卡片,关注“AI生成未来”>>后台回复“GAI
生动灵活,MegActor重磅升级!旷视科技发布MegActor-Σ:首个基于DiT的人像动画方法!
点击下方卡片,关注“AI生成未来”作者:Shurong Yang??
加入社区微信群
与行业大咖零距离交流学习
PMO实践白皮书
白皮书上线
白皮书上线