只需一张图,万物皆可插!Insert Anything开源啦!开创AI图像插入新时代|浙大&哈佛等

图像 插入 提示 掩码 参考
发布于 2025-07-30
782

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读

文章主旨:

本文介绍了一个名为“Insert Anything”的统一框架及其配套数据集AnyInsertion,用于多样化图像插入任务,通过创新的上下文编辑机制和Diffusion Transformer技术实现高质量插入效果。

关键要点:

  1. 开发了包含120K提示-图像对的AnyInsertion数据集,支持多种插入任务和控制模式。
  2. 提出Insert Anything框架,通过双联画和三联画提示策略实现灵活的上下文编辑。
  3. 首次利用Diffusion Transformer(DiT)实现图像插入,结合多模态注意力机制提升生成质量。
  4. 在人物、物体和服装插入任务中,性能全面超越现有技术,保留细节特征并与场景自然融合。
  5. 适用于创意内容生成、虚拟试衣和场景合成等多个实际场景。

内容结构:

1. 问题背景

  • 现有方法缺乏通用性,仅针对特定任务(如人物或服装插入)。
  • 控制模式单一,灵活性不足;插入内容与目标场景风格不协调。

2. 解决方案

  • AnyInsertion数据集:提供高分辨率图像和多样化提示,支持掩码和文本双控制模式。
  • Insert Anything框架:通过双联画和三联画结构,实现参考图像与插入目标的上下文关系融合。
  • 技术创新:基于DiT的多模态注意力机制,结合上下文编辑策略确保插入内容的视觉协调性。

3. 数据集构建

  • 数据收集:通过图像匹配技术,从不同来源提取参考-目标图像对。
  • 数据生成:支持掩码提示编辑和文本提示编辑,利用Grounded-DINO和Segment Anything生成掩码。

4. 模型设计

  • 采用多联画上下文格式(双联画/三联画),整合参考图像、源图像和控制提示。
  • 利用多模态注意力机制实现文本和图像特征的联合建模。

5. 实验与结果

  • 在AnyInsertion、DreamBooth和VTON-HD基准测试中表现优异,显著提升SSIM、PSNR等指标。
  • 消融实验验证上下文编辑和语义引导模块的关键作用。

6. 结论

  • Insert Anything为基于参考的图像编辑树立新标杆,能够支持多任务且灵活控制。
  • 广泛应用于创意内容生成和实际场景,为相关领域提供通用解决方案。

文章总结:

本研究通过创新性框架和数据集,突破现有图像插入技术的局限,为多任务图像编辑提供高效、灵活的解决方案,并展现了其在实际应用中的广泛潜力。

AI生成未来