扩散模型中进行条件插值?AID:无需训练,保证一致、平滑和保真度(新加坡国立&南洋理工)
发布于 2024-10-22
1182
版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
AI生成未来
扫码关注公众号
扫码阅读
手机扫码阅读
摘要: 通过扩散进行注意力插值(AID)和其变体PAID
介绍
条件扩散模型可用于图像插值,但在特定条件下的插值尚不完全了解。传统的线性插值方法在图像一致性、平滑性和保真度方面存在问题。新技术“通过扩散进行注意力插值(AID)”无需训练即可实现高质量的条件插值。
主要贡献
- 提出了内/外插值注意力层。
- 结合插值注意力与自注意力,提高图像质量。
- 应用Beta分布进行选择,以增加插值的平滑度。
- 引入变体PAID,通过提示引导的注意力插值,实现更精细的插值路径控制。
相关工作
扩散模型和注意力操纵已在文本到图像合成中提升图像质量。注意力机制的控制增强了对象生成的一致性。而生成模型的潜在空间插值,如GANs和VAEs已被广泛研究,但条件插值的研究仍相对有限。
方法论
AID的方法包括内/外插值注意力机制,融合自注意力和使用Beta先验选择插值点。PAID则允许用户通过引导提示选择插值路径。通过这些方法,AID在处理不同条件插值时表现出色。
实验
实验表明,AID在插值序列的平滑性、一致性和保真度方面显著超过基线方法,并可通过引导提示进一步定制插值路径,无需额外训练过程。
结论
本研究提出了条件插值的新任务,并通过AID和PAID方法在扩散模型中实现了插值,超越了现有基线,为图像编辑、数据增强和视频插值等应用开辟了新途径。
参考文献
[1] AID: Attention Interpolation of Text-to-Image Diffusion
AI生成未来
AI生成未来
扫码关注公众号
还在用多套工具管项目?
一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。
查看方案
AI生成未来的其他文章
VLM版o1超越一众开源和闭源模型!LLaVA-o1:多阶段自主推理(北大&清华&阿里等)
点击下方卡片,关注“AI生成未来”后台回复“
一张照片,开口说话!阿里等最新音视频对齐技术FantasyTalking:打造超写实可控数字人!
点击下方卡片,关注“AI生成未来”如您有工作需要??
Video Depth Anything引领超长视频深度估计最新SOTA!字节跳动开源
点击下方卡片,关注“AI生成未来”
后台回复“GAI”?
MSRA古纾旸:2024年,视觉生成领域最重要的问题有哪些?
点击下方卡片,关注“AI生成未来”>>后台回复“
CVPR 2024 | 稳定提升!CAN和Diffusion Transformer才是最佳拍档(MIT&清华&英伟达)
点击下方卡片,关注“AI生成未来”>>后台回复“
加入社区微信群
与行业大咖零距离交流学习
PMO实践白皮书
白皮书上线
白皮书上线