ICLR 2025 | One Prompt One Story!基于单个prompt实现免训练身份一致图像生成

生成 身份 一致性 图像 1Prompt1Story
发布于 2025-07-31
832

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读

文章主旨:

提出了一种无需训练的新方法“One-Prompt-One-Story”,通过单一提示实现文本到图像生成中的身份一致性,优化了生成质量。

关键要点:

  • 解决了现有文本到图像生成模型在长篇叙述中身份一致性不足的问题。
  • 提出了单提示单故事(1Prompt1Story)方法,结合奇异值重加权(SVR)和身份保持交叉注意力(IPCA)技术。
  • 无需额外训练或复杂设计,即可实现身份一致性和文本-图像对齐的优化。
  • 在扩展基准测试中表现优越,适用于动画、互动叙事及视频生成等场景。
  • 与现有方法对比,在身份保持和场景多样性方面表现更佳。

内容结构:

背景与问题:

现有文本到图像生成模型难以在长篇叙述中保持身份一致性,且大多依赖复杂的训练过程或模型架构修改,限制了适用性。

提出的方法:

  • 单提示单故事(1Prompt1Story):通过将所有提示整合为一个长句子,利用自然语言中的上下文一致性特性实现身份一致性。
  • 奇异值重加权(SVR):增强关键提示语义信息并弱化无关提示影响,优化身份一致性。
  • 身份保持交叉注意力(IPCA):通过在注意力层引入提示的身份信息,提升生成图像的主体一致性。

实验与效果:

  • 在定性和定量评估中,1Prompt1Story在身份一致性和文本-图像对齐方面优于现有方法。
  • 扩展基准测试(ConsiStory+)显示其在长篇叙述中的身份一致性效果显著。
  • 与基于训练的方法结合,可进一步提升真实参考图像的身份一致性。

应用与展望:

该方法在动画、互动叙事、视频生成等场景中具有广泛应用潜力,强调了理解上下文的重要性,为文本到图像生成技术开辟了新路径。

文章总结:

One-Prompt-One-Story方法提供了一种无需训练的高效解决方案,通过自然语言的上下文一致性实现身份一致性,展现了在视觉生成领域的广阔应用前景。

AI生成未来

AIGC最新技术及资讯

323 篇文章
浏览 276.8K

还在用多套工具管项目?

一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。

加入社区微信群
与行业大咖零距离交流学习
PMO实践白皮书
白皮书上线