惊艳!单模型统一多图个性化生成!字节重磅开源UNO, FLUX版训练、推理、权重全开源!
版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
AI生成未来
扫码关注公众号
扫码阅读
手机扫码阅读
文章主旨:
UNO模型通过模型-数据协同进化范式,突破图像生成中的数据瓶颈,能够实现高质量的单主体和多主体定制化图像生成,具有广泛的应用潜力。
关键要点:
- 提出模型-数据协同进化范式,解决图像生成中的数据瓶颈问题。
- 开发UNO模型与渐进式数据生成框架,实现从单主体到多主体的高质量图像生成。
- 引入渐进式跨模态对齐与通用旋转位置嵌入(UnoPE),提升模型性能与文本可控性。
- 在DreamBench基准测试中,UNO在一致性与文本遵循度方面达成最佳性能。
- UNO模型展示了强大的泛化能力,可应用于身份保持、换装和风格化场景。
内容结构:
1. 解决的问题:
- 数据瓶颈:难以获取高质量、多视角主体一致的配对数据,限制模型扩展性。
- 主体扩展性:现有方法难以处理复杂的多主体场景。
2. 提出的方案:
- 模型-数据协同进化范式:利用Text-to-Image(T2I)模型生成单主体定制化数据,训练Subject-to-Image(S2I)模型生成多主体数据。
- 渐进式数据生成框架:从单主体到多主体的高质量图像生成。
3. 应用的技术:
- 改进T2I模型FLUX,使其支持多条件生成的S2I模型。
- 渐进式跨模态对齐:逐步训练处理多图像条件。
- 通用旋转位置嵌入(UnoPE):解决属性混淆问题,提升文本特征关注度。
4. 方法与训练策略:
- 单主体数据生成:利用LLM和分类树生成文本模板,通过DiT生成主题一致图像对,采用层级数据过滤器筛选。
- 多主体数据生成:基于单主体数据训练S2I模型,用开集检测生成新主体数据,避免“复制-粘贴”问题。
- 渐进式训练策略:
- 单主题训练阶段:模型学习单图像条件输入,生成与参考图一致的结果。
- 多主题训练阶段:模型进一步学习多图像条件输入,生成与所有参考图一致的结果。
- UnoPE:调整位置索引,解决多图像条件下的空间结构依赖与属性混淆问题。
5. 实验结果:
- 实验设置:生成230k单主体数据对与15k多主体数据对;使用FLUX预训练模型,评估指标包括DINO、CLIP-I、CLIP-T分数。
- 定性指标:UNO在单主体和多主体生成中均保持主体细节与文本指令一致性,显著优于其他方法。
- 定量指标:UNO在DreamBench数据集上取得最高的DINO和CLIP-I分数,成为一致性生成的SOTA。
- 消融实验:验证渐进式跨模态对齐与UnoPE的重要性,移除模块后性能显著下降。
6. 应用与未来方向:
- UNO泛化能力强,可应用于虚拟试穿、身份保持、风格化生成等场景。
- 未来工作将扩展数据类型,解锁更多潜力。
文章总结:
UNO模型是一项突破性的研究,通过协同进化范式和创新技术解决了图像生成中的关键问题,展现了卓越的性能与广泛的应用潜力。
AI生成未来
AI生成未来
扫码关注公众号
还在用多套工具管项目?
一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。
查看方案
AI生成未来的其他文章
图像修复和编辑大一统 | 腾讯&北大等联合提出BrushEdit:BrushNet进阶版来了
点击下方卡片,关注“AI生成未来”后台回复“GAI”??
史诗级突破!一个模型让你秒变PS大神,字节最新InstructX仅用“看图”就学会了剪视频
AI生成未来知识星球免费开放!
文本引导I2I迈向统一!北大王选所提出FCDiffusion:端到端适用于各种图像转换任务
点击下方卡片,关注“AI生成未来”>>后台回复“
你的文生图模型可以秘密接收多模态提示了!南洋理工&腾讯最新提出EMMA
点击下方卡片,关注“AI生成未来”>>后台回复“
一文详解AutoEncoder在图像生成和多模态大模型中的应用
点击下方卡片,关注“AI生成未来”>>关注【AI生
加入社区微信群
与行业大咖零距离交流学习
PMO实践白皮书
白皮书上线
白皮书上线