ECCV`24 | 高保真目标修复新SOTA!复旦&智象开源CAT-Diffusion,语义视觉双一致

修复 语义 Diffusion CAT 修复器
发布于 2025-05-17
1038

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读

文章主旨:

提出了一种新型的级联Transformer-扩散模型(CAT-Diffusion)框架,通过语义预修复和高保真对象生成,优化文本引导的目标修复任务的视觉-语义对齐与生成质量。

关键要点:

  • 单一U-Net难以满足文本提示与视觉对象的高质量对齐,且扩散模型采样空间复杂,难以控制对象生成。
  • 提出语义修复器与目标修复扩散模型相结合的级联流程,分为语义预修复和对象生成两个阶段。
  • 语义修复器通过CLIP特征空间进行目标语义预测,提升视觉-语义对齐;参考Adapter层进一步整合预测特征以实现可控生成。
  • 实验表明,CAT-Diffusion在OpenImages-V6和MSCOCO数据集上的性能优于现有方法,生成对象语义一致性与视觉融合效果更优。
  • 用户研究与定量评估展现CAT-Diffusion在视觉一致性和文本-对象对齐方面的显著优势,同时保持推理复杂度较低。

内容结构:

  • 解决的问题:

    现有扩散模型在文本引导的目标修复任务中存在视觉-语义对齐不足及高保真度生成的可控性问题。

  • 提出的方案:

    通过语义修复器进行目标语义特征的预修复,并结合参考Adapter层指导扩散模型生成,形成级联Transformer-扩散(CAT-Diffusion)框架。

  • 技术实现:

    • 利用CLIP特征空间进行目标语义预修复,搭建基于Transformer的语义修复器。
    • 参考Adapter层通过交叉注意力机制整合修复特征至目标修复扩散模型。
    • 采用分割mask与边界框mask进行训练,优化视觉一致性与文本提示对齐。
  • 实验与评估:

    • 在OpenImages-V6和MSCOCO数据集上进行定量评估与定性比较,表现优于现有方法。
    • 用户研究验证了CAT-Diffusion的视觉一致性与文本-对象对齐的优越性。
    • 消融实验分析语义修复器和参考Adapter层对模型性能的贡献。
  • 结论与影响:

    CAT-Diffusion通过级联流程实现了高保真对象生成与视觉-语义对齐,具有潜在的广泛应用,但需警惕生成内容滥用的风险。

文章总结:

CAT-Diffusion框架通过创新性的级联设计提升了目标修复任务的质量与可控性,为文本引导的图像生成领域提供了技术突破,同时呼吁关注生成内容的伦理问题。

AI生成未来