CVPR 2025 | AI视频定制进入多角色狂想时代!英伟达等发布VideoMage巧用"时空组合拳"

主体 运动 本文 视频 LoRA
发布于 2025-07-31
864

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读

文章主旨:

提出了一个统一框架 VideoMage,实现用户定义的多主体身份和交互运动的视频定制,解决现有方法在多主体和运动模式控制上的局限性。

关键要点:

  • VideoMage 结合主体和运动 LoRA,从输入图像和视频中学习个性化信息。
  • 提出外观无关的运动学习方法,通过负分类器自由引导,实现运动模式与主体外观的解耦。
  • 开发了时空协作组合方案,以整合多个主体和运动属性,生成连贯的视频。
  • 实验结果显示 VideoMage 在主体身份保真度、运动模式对齐及视频质量上优于现有方法。
  • 用户研究表明,在文本对齐、主体保真度、运动保真度和视频质量四个方面,VideoMage均受到更高的用户偏好。

内容结构:

  • 解决的问题:现有文本到视频生成方法在处理多主体和运动模式时存在局限,主要集中于单一概念的定制。
  • 提出的方案:VideoMage框架结合主体和运动 LoRA,通过外观无关的运动学习和时空协作组合,实现多主体及其交互运动的定制。
  • 方法与实现:
    • 采用视频扩散模型结合主体 LoRA和运动 LoRA学习视觉和运动信息。
    • 通过负分类器自由引导,隔离运动模式与外观信息,确保运动 LoRA专注于动态学习。
    • 提出空间-时间协作采样(SCS)对主体和运动组件进行对齐,生成连贯视频。
  • 实验与结果:
    • 定性结果显示 VideoMage有效解决外观泄漏和属性混合问题,生成更精确的主体互动视频。
    • 定量评估表明 VideoMage在主体身份保持、文本对齐和时间一致性方面优于竞争方法。
    • 用户研究显示 VideoMage在多项指标上被参与者更偏好。
  • 消融研究:验证了各模块(运动目标、注意力正则化、空间-时间协作采样)的有效性和贡献,进一步支持框架设计的合理性。
  • 结论:VideoMage成功实现文本到视频生成的多主体和运动模式定制,显著提升视频生成的可控性和质量。

文章总结:

VideoMage通过技术创新解决了文本到视频生成的多主体和运动定制难题,提供了更高质量的解决方案,适用于个性化内容生成领域。

AI生成未来