只需一张图，万物皆可插！Insert Anything开源啦！开创AI图像插入新时代｜浙大&哈佛等

图像插入提示掩码参考

发布于 2025-07-30

906

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：只需一张图，万物皆可插！Insert Anything开源啦！开创AI图像插入新时代｜浙大&哈佛等

文章来源：

AI生成未来

扫码关注公众号

扫码阅读

手机扫码阅读

文章主旨：

本文介绍了一个名为“Insert Anything”的统一框架及其配套数据集AnyInsertion，用于多样化图像插入任务，通过创新的上下文编辑机制和Diffusion Transformer技术实现高质量插入效果。

关键要点：

开发了包含120K提示-图像对的AnyInsertion数据集，支持多种插入任务和控制模式。
提出Insert Anything框架，通过双联画和三联画提示策略实现灵活的上下文编辑。
首次利用Diffusion Transformer（DiT）实现图像插入，结合多模态注意力机制提升生成质量。
在人物、物体和服装插入任务中，性能全面超越现有技术，保留细节特征并与场景自然融合。
适用于创意内容生成、虚拟试衣和场景合成等多个实际场景。

内容结构：

1. 问题背景

现有方法缺乏通用性，仅针对特定任务（如人物或服装插入）。
控制模式单一，灵活性不足；插入内容与目标场景风格不协调。

2. 解决方案

AnyInsertion数据集：提供高分辨率图像和多样化提示，支持掩码和文本双控制模式。
Insert Anything框架：通过双联画和三联画结构，实现参考图像与插入目标的上下文关系融合。
技术创新：基于DiT的多模态注意力机制，结合上下文编辑策略确保插入内容的视觉协调性。

3. 数据集构建

数据收集：通过图像匹配技术，从不同来源提取参考-目标图像对。
数据生成：支持掩码提示编辑和文本提示编辑，利用Grounded-DINO和Segment Anything生成掩码。

4. 模型设计

采用多联画上下文格式（双联画/三联画），整合参考图像、源图像和控制提示。
利用多模态注意力机制实现文本和图像特征的联合建模。

5. 实验与结果

在AnyInsertion、DreamBooth和VTON-HD基准测试中表现优异，显著提升SSIM、PSNR等指标。
消融实验验证上下文编辑和语义引导模块的关键作用。

6. 结论

Insert Anything为基于参考的图像编辑树立新标杆，能够支持多任务且灵活控制。
广泛应用于创意内容生成和实际场景，为相关领域提供通用解决方案。

文章总结：

本研究通过创新性框架和数据集，突破现有图像插入技术的局限，为多任务图像编辑提供高效、灵活的解决方案，并展现了其在实际应用中的广泛潜力。

AI生成未来

查看原文：只需一张图，万物皆可插！Insert Anything开源啦！开创AI图像插入新时代｜浙大&哈佛等

文章来源：

AI生成未来

扫码关注公众号

相关推荐

文本引导I2I迈向统一！北大王选所提出FCDiffusion：端到端适用于各种图像转换任务

865

图像控制文本 DCT

点击下方卡片，关注“AI生成未来”>>后台回复“

CVPR 2024 | DEADiff：稳定可控的文本到图像风格化扩散模型（中科大&字节）

1163

图像风格文本参考

点击下方卡片，关注“AI生成未来”>>后台回复“

生成一个好故事！StoryDiffusion:一致自注意力和语义运动预测器必不可少（南开&字节）

1003

图像生成视频模型

击下方卡片，关注“AI生成未来”>>后台回复“GAI

ICLR 2025 | 被AI“洗图”也能识别版权！水印技术重大突破：VINE模型全面碾压旧方法!

781

图像水印编辑模型

点击下方卡片，关注“AI生成未来”如您有工作需要??

ACM MM24 | Hi3D: 3D生成领域再突破！新视角生成和高分辨率生成双SOTA(复旦&智象等)

956

3D 图像视图生成

点击下方卡片，关注“AI生成未来” 作者：Haibo Yang ??

CVPR`24 | 真假难辨！CosmicMan：超实用的人物生成基础模型来了！(上海AI Lab）

970

图像人物模型文本

点击下方卡片，关注“AI生成未来”>>后台回复“

AI生成未来

AIGC最新技术及资讯

323 篇文章

浏览 338.3K

还在用多套工具管项目？

一个平台搞定产品、项目、质量与效能，告别整合之苦，实现全流程闭环。

查看方案

AI生成未来的其他文章

个性化图像生成新王炸！无需微调，Meta重磅发布Imagine yourself:三大核心全面SOTA！

点击下方卡片，关注“AI生成未来”作者：Zecheng He等?

超越α！PixArt家族新秀PixArt-Σ: 由弱到强训练的文本生成4K图像DiT（华为诺亚）

点击下方卡片，关注“AI生成未来”>>后台回复“

首次实现8K图像生成！FreeScale让扩散模型解锁更高分辨率！| 南洋理工&阿里&复旦

点击下方卡片，关注“AI生成未来”后台回复“GAI”??

如何从文本生成图像和视频？9个常用生成器一览！

完美提升Stable Diffusion生成质量和效率！UniFL:统一反馈学习框架（字节&中山）

点击下方卡片，关注“AI生成未来”>>后台回复“

随机阅读

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线

去下载

联系我们
电话：4006 8899 23 邮箱：beining@chandao.com
融实践库
关于我们加入我们
微信号：rongpmcom
立即学习
微信公众号
微信视频号
社区微信群

友情链接：禅道项目管理软件云禅道敏捷开发喧喧IM ZDOO协同办公 ZTF自动化测试框架 ZenData测试数据生成器 ZenDAS数据分析渠成企业软件百宝箱 ZenShot开源截图工具 ZenPanel服务控制面板敏捷咨询

只需一张图，万物皆可插！Insert Anything开源啦！开创AI图像插入新时代｜浙大&哈佛等

版权声明

文章主旨：

关键要点：

内容结构：

1. 问题背景

2. 解决方案

3. 数据集构建

4. 模型设计

5. 实验与结果

6. 结论

文章总结：

当今社会最可怕的现象：傻子共振

还在用多套工具管项目？

联系我们

融实践库

微信公众号

微信视频号

社区微信群