如何高效定制视频扩散模型?卡内基梅隆提出VADER:通过奖励梯度进行视频扩散对齐
发布于 2024-10-25
1189
版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
AI生成未来
扫码关注公众号
扫码阅读
手机扫码阅读
亮点摘要
- 引入奖励模型梯度对齐方法,通过奖励模型的梯度对视频扩散模型进行调整和对齐。
- 广泛使用预训练视觉模型,提高任务适应能力和性能。
- 内存使用的优化技巧,允许在单个16GB VRAM的GPU上训练。
- 显著改进模型生成质量,优于传统对齐方法。
研究背景
建立视频扩散模型方面取得了进展,但下游任务的调整至关重要。监督微调复杂且繁琐,本文提出利用预训练奖励模型来适应视频扩散模型,学习顶尖视觉辨别模型的偏好。
VADER框架
本文提出VADER,通过奖励函数R(.)指定的特定任务来调整视频扩散模型θ。利用奖励函数相对于模型权重θ的梯度进行高效学习。
奖励模型
使用多种奖励函数来对齐视频扩散模型,包括图像-文本相似度奖励、视频-文本相似度奖励、图像生成目标和视频生成目标。
内存开销优化
VADER提出了减少内存使用的技巧,包括LoRA、混合精度、梯度检查点、截断反向传播和帧子采样。
实验结果
VADER专注于通过图像和视频定制的奖励模型对条件视频扩散模型进行微调,表现出高样本效率和计算效率,并在多种奖励模型上表现良好。
结论
VADER是一个样本和计算高效的框架,通过奖励梯度对预训练视频扩散模型进行微调。它对条件无关,并且适用于文本到视频和图像到视频的扩散模型。
AI生成未来
AI生成未来
扫码关注公众号
还在用多套工具管项目?
一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。
查看方案
AI生成未来的其他文章
LucidFlux-14B | 最新通用图形修复大模型:效果超越闭源付费商业模型!
点击下方卡片,关注“AI生成未来”如您有工作需要
五大在线AI扩图平台,畅玩图片扩展神奇功能
你是否在网上见过许多有趣的图片扩图恶搞?例如AIGC
ICLR 2025 | 被AI“洗图”也能识别版权!水印技术重大突破:VINE模型全面碾压旧方法!
点击下方卡片,关注“AI生成未来”如您有工作需要??
王者归来!Stability-AI又放大招 | Stable Cascade:更快更强的图像生成模型!
关注【AI生成未来】公众号,回复“GAI”,免费获取??
自回归和Rectified Flow完美融合统一多模态理解和生成!DeepSeek&北大等开源JanusFlow
点击下方卡片,关注“AI生成未来”后台回复“
加入社区微信群
与行业大咖零距离交流学习
PMO实践白皮书
白皮书上线
白皮书上线