CVPR 2024 | DEADiff:稳定可控的文本到图像风格化扩散模型(中科大&字节)

图像 风格 文本 参考 语义
发布于 2025-05-17
963

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读

文章主旨:

DEADiff通过双重解耦表示提取机制和解耦条件机制,解决了扩散模型在风格迁移中文本控制能力下降的问题,实现了风格化能力与文本控制的最佳平衡。

关键要点:

  • 提出双重解耦表示提取机制,通过Q-Former分别提取参考图像的风格和语义特征,缓解语义冲突问题。
  • 设计解耦条件机制,将不同分辨率层用于注入风格和语义特征,以减少语义干扰。
  • 采用非重构训练范式,分别针对风格和内容任务构建配对数据集,提升模型的解耦能力。
  • 实验表明,DEADiff在风格化能力、文本忠实度和图像质量之间实现了显著优势。
  • 支持多种应用场景,包括参考语义风格化、风格混合以及与ControlNet的结合。

内容结构:

  1. 介绍

    扩散模型在文本到图像生成中的性能强大,但当前基于编码器的方法存在风格与文本语义耦合问题,导致文本控制能力下降。DEADiff旨在解决这一问题,通过解耦风格和语义表示,提升文本可控性。

  2. 方法

    • 双重解耦表示提取:使用Q-Former分别提取风格和语义特征,避免二者的耦合。
    • 解耦条件机制:利用U-Net不同分辨率层的特性,将风格特征注入细层,语义特征注入粗层。
    • 非重构训练范式:通过配对数据集训练模型,进一步提升风格和语义解耦效果。
  3. 实验

    比较DEADiff与其他最先进方法的性能,结果显示DEADiff在风格相似性、文本对齐和图像质量方面表现优异。此外,消融研究验证了各组件的关键作用。

  4. 应用

    展示DEADiff的应用场景,包括参考语义风格化、风格混合,以及与ControlNet的结合,证明其广泛适用性。

  5. 结论

    DEADiff有效解决了风格迁移中文本控制能力下降的问题,在风格化能力与文本忠实度之间实现了平衡,为模型优化提供了新思路。

文章总结:

DEADiff是一种高效且创新的风格化扩散模型,在文本控制与风格迁移领域具有重要参考价值,未来工作可进一步优化风格相似度和语义解耦能力。

AI生成未来