ICLR 2025 | One Prompt One Story!基于单个prompt实现免训练身份一致图像生成
版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
AI生成未来
扫码关注公众号
扫码阅读
手机扫码阅读
文章主旨:
提出了一种无需训练的新方法“One-Prompt-One-Story”,通过单一提示实现文本到图像生成中的身份一致性,优化了生成质量。
关键要点:
- 解决了现有文本到图像生成模型在长篇叙述中身份一致性不足的问题。
- 提出了单提示单故事(1Prompt1Story)方法,结合奇异值重加权(SVR)和身份保持交叉注意力(IPCA)技术。
- 无需额外训练或复杂设计,即可实现身份一致性和文本-图像对齐的优化。
- 在扩展基准测试中表现优越,适用于动画、互动叙事及视频生成等场景。
- 与现有方法对比,在身份保持和场景多样性方面表现更佳。
内容结构:
背景与问题:
现有文本到图像生成模型难以在长篇叙述中保持身份一致性,且大多依赖复杂的训练过程或模型架构修改,限制了适用性。
提出的方法:
- 单提示单故事(1Prompt1Story):通过将所有提示整合为一个长句子,利用自然语言中的上下文一致性特性实现身份一致性。
- 奇异值重加权(SVR):增强关键提示语义信息并弱化无关提示影响,优化身份一致性。
- 身份保持交叉注意力(IPCA):通过在注意力层引入提示的身份信息,提升生成图像的主体一致性。
实验与效果:
- 在定性和定量评估中,1Prompt1Story在身份一致性和文本-图像对齐方面优于现有方法。
- 扩展基准测试(ConsiStory+)显示其在长篇叙述中的身份一致性效果显著。
- 与基于训练的方法结合,可进一步提升真实参考图像的身份一致性。
应用与展望:
该方法在动画、互动叙事、视频生成等场景中具有广泛应用潜力,强调了理解上下文的重要性,为文本到图像生成技术开辟了新路径。
文章总结:
One-Prompt-One-Story方法提供了一种无需训练的高效解决方案,通过自然语言的上下文一致性实现身份一致性,展现了在视觉生成领域的广阔应用前景。
AI生成未来
AI生成未来
扫码关注公众号
还在用多套工具管项目?
一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。
查看方案
AI生成未来的其他文章
勇夺三项SOTA!北航&爱诗科技联合发布灵活高效可控视频生成方法TrackGo!
点击下方卡片,关注“AI生成未来”>>后台回复“
效果超越ControlNet+IP-Adapter和FreeControl!Ctrl-X:可控文生图新框架(加州大学&英伟达)
点击下方卡片,关注“AI生成未来”>>后台回复“
YYDS!数字人终于实现穿、脱衣自由!上大、腾讯等提出3D服装合成新方法:ClotheDreamer
.点击下方卡片,关注“AI生成未来”>>后台回复??
图像修复和编辑大一统 | 腾讯&北大等联合提出BrushEdit:BrushNet进阶版来了
点击下方卡片,关注“AI生成未来”后台回复“GAI”??
完整复现Sora,Open-Sora最新技术报告发布,提供完整训练代码、权重及数据处理工具
点击下方卡片,关注“AI生成未来”后台回复“GAI”??
加入社区微信群
与行业大咖零距离交流学习
PMO实践白皮书
白皮书上线
白皮书上线