效果超越ControlNet+IP-Adapter和FreeControl!Ctrl-X:可控文生图新框架(加州大学&英伟达)
发布于 2024-10-26
1039
版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
AI生成未来
扫码关注公众号
扫码阅读
手机扫码阅读
文章摘要
本文介绍了Ctrl-X,这是一个新的无需训练或引导的文本到图像(T2I)扩散模型控制框架。该框架允许通过前馈结构控制和语义外观迁移对结构和外观进行解耦和零次控制,从而实现高质量的图像生成。
主要贡献
- 提出了Ctrl-X,一个简单的即插即用方法,允许基于预训练的T2I扩散模型进行结构和外观控制,无需额外训练或指导。
- Ctrl-X是第一个支持多条件信号和多模型架构的通用无需引导解决方案。
- 在结构对齐、文本图像对齐和图像质量方面,与现有方法相比,Ctrl-X展现出更好的性能。
方法概述
Ctrl-X操作预训练的T2I扩散模型,通过前馈结构控制和空间外观迁移,实现结构与外观的控制。方法包括直接从扩散模型提取特征,执行特征和自注意力注入,以及利用自注意力对应关系进行外观迁移。
实验结果
定量和定性实验表明,Ctrl-X在保留结构和对齐外观方面表现优异,且推理效率高于多个现有方法。此外,Ctrl-X也适用于文本到视频(T2V)模型,能够实现结构紧密对齐和时间一致的外观传递。
局限性和影响
Ctrl-X的主要局限性在于可能无法捕捉目标外观,尤其是在实例很小时。它易于使用的特性,也可能导致预训练模型被用于恶意目的,如深度伪造,引发伦理关切。
结论
Ctrl-X是一个灵活的无需训练和无需引导的结构和外观控制框架,适用于任何T2I和T2V扩散模型,具有竞争性的结构保留和外观迁移性能。
AI生成未来
AI生成未来
扫码关注公众号
还在用多套工具管项目?
一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。
查看方案
AI生成未来的其他文章
IJCAI2024 | 拒绝偏见!Graph Transformers 公平性最新研究
击下方卡片,关注“AI生成未来”>>后台回复“GAI
AI论文润色平台一览,让你的论文更加流畅易懂!
关注【AI生成未来】公众号,回复“GAI”,免费获取??
PhotoMaker:高效个性化的文本生成逼真人物照片方法
作者:Zhen Li等
解读:AIGCer近期在文本到图像生成领??
VLM训练成本降4.5倍!8B参数媲美GPT-4o mini | 英伟达&MIT等发布NVILA:前沿高效
点击下方卡片,关注“AI生成未来”后台回复“GAI”??
大语言模型高效推理知多少?三万字长文带你揭开神秘面纱(数据级、模型级和系统级)
击下方卡片,关注“AI生成未来”>>后台回复“GAI
加入社区微信群
与行业大咖零距离交流学习
PMO实践白皮书
白皮书上线
白皮书上线