惊艳!单模型统一多图个性化生成!字节重磅开源UNO, FLUX版训练、推理、权重全开源!

生成 图像 主体 模型 UNO
发布于 2025-07-31
504

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读

文章主旨:

UNO模型通过模型-数据协同进化范式,突破图像生成中的数据瓶颈,能够实现高质量的单主体和多主体定制化图像生成,具有广泛的应用潜力。

关键要点:

  • 提出模型-数据协同进化范式,解决图像生成中的数据瓶颈问题。
  • 开发UNO模型与渐进式数据生成框架,实现从单主体到多主体的高质量图像生成。
  • 引入渐进式跨模态对齐与通用旋转位置嵌入(UnoPE),提升模型性能与文本可控性。
  • 在DreamBench基准测试中,UNO在一致性与文本遵循度方面达成最佳性能。
  • UNO模型展示了强大的泛化能力,可应用于身份保持、换装和风格化场景。

内容结构:

1. 解决的问题:

  • 数据瓶颈:难以获取高质量、多视角主体一致的配对数据,限制模型扩展性。
  • 主体扩展性:现有方法难以处理复杂的多主体场景。

2. 提出的方案:

  • 模型-数据协同进化范式:利用Text-to-Image(T2I)模型生成单主体定制化数据,训练Subject-to-Image(S2I)模型生成多主体数据。
  • 渐进式数据生成框架:从单主体到多主体的高质量图像生成。

3. 应用的技术:

  • 改进T2I模型FLUX,使其支持多条件生成的S2I模型。
  • 渐进式跨模态对齐:逐步训练处理多图像条件。
  • 通用旋转位置嵌入(UnoPE):解决属性混淆问题,提升文本特征关注度。

4. 方法与训练策略:

  • 单主体数据生成:利用LLM和分类树生成文本模板,通过DiT生成主题一致图像对,采用层级数据过滤器筛选。
  • 多主体数据生成:基于单主体数据训练S2I模型,用开集检测生成新主体数据,避免“复制-粘贴”问题。
  • 渐进式训练策略:
    • 单主题训练阶段:模型学习单图像条件输入,生成与参考图一致的结果。
    • 多主题训练阶段:模型进一步学习多图像条件输入,生成与所有参考图一致的结果。
  • UnoPE:调整位置索引,解决多图像条件下的空间结构依赖与属性混淆问题。

5. 实验结果:

  • 实验设置:生成230k单主体数据对与15k多主体数据对;使用FLUX预训练模型,评估指标包括DINO、CLIP-I、CLIP-T分数。
  • 定性指标:UNO在单主体和多主体生成中均保持主体细节与文本指令一致性,显著优于其他方法。
  • 定量指标:UNO在DreamBench数据集上取得最高的DINO和CLIP-I分数,成为一致性生成的SOTA。
  • 消融实验:验证渐进式跨模态对齐与UnoPE的重要性,移除模块后性能显著下降。

6. 应用与未来方向:

  • UNO泛化能力强,可应用于虚拟试穿、身份保持、风格化生成等场景。
  • 未来工作将扩展数据类型,解锁更多潜力。

文章总结:

UNO模型是一项突破性的研究,通过协同进化范式和创新技术解决了图像生成中的关键问题,展现了卓越的性能与广泛的应用潜力。

AI生成未来