ICLR 2025 | One Prompt One Story!基于单个prompt实现免训练身份一致图像生成
版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
AI生成未来
扫码关注公众号
扫码阅读
手机扫码阅读
文章主旨:
提出了一种无需训练的新方法“One-Prompt-One-Story”,通过单一提示实现文本到图像生成中的身份一致性,优化了生成质量。
关键要点:
- 解决了现有文本到图像生成模型在长篇叙述中身份一致性不足的问题。
- 提出了单提示单故事(1Prompt1Story)方法,结合奇异值重加权(SVR)和身份保持交叉注意力(IPCA)技术。
- 无需额外训练或复杂设计,即可实现身份一致性和文本-图像对齐的优化。
- 在扩展基准测试中表现优越,适用于动画、互动叙事及视频生成等场景。
- 与现有方法对比,在身份保持和场景多样性方面表现更佳。
内容结构:
背景与问题:
现有文本到图像生成模型难以在长篇叙述中保持身份一致性,且大多依赖复杂的训练过程或模型架构修改,限制了适用性。
提出的方法:
- 单提示单故事(1Prompt1Story):通过将所有提示整合为一个长句子,利用自然语言中的上下文一致性特性实现身份一致性。
- 奇异值重加权(SVR):增强关键提示语义信息并弱化无关提示影响,优化身份一致性。
- 身份保持交叉注意力(IPCA):通过在注意力层引入提示的身份信息,提升生成图像的主体一致性。
实验与效果:
- 在定性和定量评估中,1Prompt1Story在身份一致性和文本-图像对齐方面优于现有方法。
- 扩展基准测试(ConsiStory+)显示其在长篇叙述中的身份一致性效果显著。
- 与基于训练的方法结合,可进一步提升真实参考图像的身份一致性。
应用与展望:
该方法在动画、互动叙事、视频生成等场景中具有广泛应用潜力,强调了理解上下文的重要性,为文本到图像生成技术开辟了新路径。
文章总结:
One-Prompt-One-Story方法提供了一种无需训练的高效解决方案,通过自然语言的上下文一致性实现身份一致性,展现了在视觉生成领域的广阔应用前景。
AI生成未来
AI生成未来
扫码关注公众号
还在用多套工具管项目?
一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。
查看方案
AI生成未来的其他文章
1步顶100步!TwinFlow:无需教师模型,仅单步推理,Qwen-Image-20B生成速度涨100倍!
点击下方卡片,关注“AI生成未来”????扫码免费加入A
长视频生成又有重大突破!DreamFactory:一致、连贯且引人入胜的长视频生成框架
点击下方卡片,关注“AI生成未来”>>后台回复“
只需一步!One-Step图像转换来了!亲测效果惊艳!(卡内基梅隆&Adobe)
点击下方卡片,关注“AI生成未来”>>后台回复“
人形机器人全能运动新突破:HUGWBC实现多模态步态精细调控与实时操控(上交&上海AI lab)
点击下方卡片,关注“AI生成未来”
后台回复“GAI”?
大语言模型高效推理知多少?三万字长文带你揭开神秘面纱(数据级、模型级和系统级)
击下方卡片,关注“AI生成未来”>>后台回复“GAI
加入社区微信群
与行业大咖零距离交流学习
PMO实践白皮书
白皮书上线
白皮书上线