CVPR 2025 | AI视频定制进入多角色狂想时代!英伟达等发布VideoMage巧用"时空组合拳"

主体运动本文视频 LoRA

发布于 2025-07-31

1554

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：CVPR 2025 | AI视频定制进入多角色狂想时代!英伟达等发布VideoMage巧用"时空组合拳"

文章来源：

AI生成未来

扫码关注公众号

扫码阅读

手机扫码阅读

文章主旨：

提出了一个统一框架 VideoMage，实现用户定义的多主体身份和交互运动的视频定制，解决现有方法在多主体和运动模式控制上的局限性。

关键要点：

VideoMage 结合主体和运动 LoRA，从输入图像和视频中学习个性化信息。
提出外观无关的运动学习方法，通过负分类器自由引导，实现运动模式与主体外观的解耦。
开发了时空协作组合方案，以整合多个主体和运动属性，生成连贯的视频。
实验结果显示 VideoMage 在主体身份保真度、运动模式对齐及视频质量上优于现有方法。
用户研究表明，在文本对齐、主体保真度、运动保真度和视频质量四个方面，VideoMage均受到更高的用户偏好。

内容结构：

解决的问题：现有文本到视频生成方法在处理多主体和运动模式时存在局限，主要集中于单一概念的定制。
提出的方案：VideoMage框架结合主体和运动 LoRA，通过外观无关的运动学习和时空协作组合，实现多主体及其交互运动的定制。
方法与实现：
- 采用视频扩散模型结合主体 LoRA和运动 LoRA学习视觉和运动信息。
- 通过负分类器自由引导，隔离运动模式与外观信息，确保运动 LoRA专注于动态学习。
- 提出空间-时间协作采样（SCS）对主体和运动组件进行对齐，生成连贯视频。
实验与结果：
- 定性结果显示 VideoMage有效解决外观泄漏和属性混合问题，生成更精确的主体互动视频。
- 定量评估表明 VideoMage在主体身份保持、文本对齐和时间一致性方面优于竞争方法。
- 用户研究显示 VideoMage在多项指标上被参与者更偏好。
消融研究：验证了各模块（运动目标、注意力正则化、空间-时间协作采样）的有效性和贡献，进一步支持框架设计的合理性。
结论：VideoMage成功实现文本到视频生成的多主体和运动模式定制，显著提升视频生成的可控性和质量。

文章总结：

VideoMage通过技术创新解决了文本到视频生成的多主体和运动定制难题，提供了更高质量的解决方案，适用于个性化内容生成领域。

AI生成未来

查看原文：CVPR 2025 | AI视频定制进入多角色狂想时代!英伟达等发布VideoMage巧用"时空组合拳"

文章来源：

AI生成未来

扫码关注公众号

相关推荐

拒绝复制粘贴！Snap&卡内基梅隆提出多主体开集个性化视频生成新范式Video Alchemist！

920

主体图像视频模型

点击下方卡片，关注“AI生成未来” 后台回复“GAI”?

面向对象中的主体客体思维

1475

主体客体业务模型

面向对象是应用软件设计比较好的方式，可以指导用计算机解决现实中的业务问题，因此是软件开发中的一种主流方式。主体、客体思维可以帮助我们理解面向对象。

惊艳！单模型统一多图个性化生成！字节重磅开源UNO, FLUX版训练、推理、权重全开源！

906

生成图像主体模型

点击下方卡片，关注“AI生成未来”如您有工作需要??

主客体建模法

1362

客体软件模型主体

主体（Subject）是行为的实施者，客体是行为的承受者（Object）。主体和客体这两个概念正是哲学的精华，而面向对象刚好是一个在计算机编程中对现实世界恰当的比喻。

详细！完成备案需要多久时间？国内网站备案流程与步骤

2047

备案网站信息主体

详细！网站备案流程大讲解

基于主客体的权限设计

1182

鉴权权限用户客体

领域服务间的权限设计思考和方法。

AIGC最新技术及资讯

334 篇文章

浏览 465.6K

还在用多套工具管项目？

一个平台搞定产品、项目、质量与效能，告别整合之苦，实现全流程闭环。

AI生成未来的其他文章

“世界模型”到底是个啥？OpenWorldLib一锤定音：感知+交互+记忆，这才叫理解世界的AI！

点击下方卡片，关注“AI生成未来”????扫码免费加入A

8款AI写作神器，轻松创作高质量内容

随着AI技术的不断发展，AI生成文案平台也逐渐成为一

兼顾身份保护和文本对齐！中山大学等提出CoRe：任意提示的文本到图像个性化生成！

点击下方卡片，关注“AI生成未来”作者：Feize Wu、Xud

寥寥数笔，动画自成！阿里Tora: 首个轨迹引导的DiT创新实现精确运动控制视频生成

点击下方卡片，关注“AI生成未来”>>后台回复“

CVPR 2024 | CAMixerSR：2K/8K/轻量级/全景图像超分又快又强！（字节&南开）

原点击下方卡片，关注“AI生成未来”>>后台回复

随机阅读

咨询案例：再谈企业内的乙方（科技部），如何和平演变，翻身做主人

极简主义，小即是美--UNIX的哲学，以及斯多葛哲学

质量度量之全局优化

引入精益管理方式，需要提前做到这九点

衡量数字化能力，从这四个领域入手！

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线

联系我们
电话：4006 8899 23 邮箱：beining@chandao.com
融实践库
关于我们加入我们
微信号：rongpmcom
立即学习
微信公众号
微信视频号
社区微信群

友情链接：禅道项目管理软件云禅道敏捷开发喧喧IM ZDOO协同办公 ZTF自动化测试框架 ZenData测试数据生成器 ZenDAS数据分析渠成企业软件百宝箱 ZenShot开源截图工具 ZenPanel服务控制面板敏捷咨询