兼顾身份保护和文本对齐!中山大学等提出CoRe:任意提示的文本到图像个性化生成!

提示语 文本 生成 embedding token
发布于 2025-05-18
606

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读

文章主旨:

本文提出了上下文正则化(CoRe)方法,以增强文本到图像个性化生成中新概念文本嵌入的学习能力,解决身份保留与文本对齐的挑战。

关键要点:

  • CoRe通过对提示语中上下文token进行正则化,增强新概念文本嵌入的学习。
  • 实验显示CoRe在身份保留和文本对齐方面优于其他基线方法。
  • 提出两阶段训练策略,先学习文本嵌入,再微调生成模型以精确捕捉概念身份。
  • 测试时优化可进一步增强生成效果,使生成结果更好地与复杂提示语对齐。
  • 消融实验表明上下文嵌入正则化和注意力正则化对生成质量至关重要。

内容结构:

1. 引言

文本到图像个性化生成技术近年来取得进展,但仍面临在身份保留与文本对齐间平衡的挑战。本文提出上下文正则化(CoRe),通过正则化上下文token来提升文本嵌入学习。

2. 方法

  • 上下文嵌入正则化:通过替换新概念token与超类token,施加相似性约束以增强文本嵌入学习。
  • 上下文注意力正则化:利用注意力图的相似性约束,优化上下文token的注意力输出。
  • 嵌入重缩放:防止文本嵌入过大导致文本对齐能力下降,优化过程中动态调整嵌入范数。
  • 两阶段训练策略:第一阶段学习文本嵌入,第二阶段微调生成网络以捕捉概念身份。

3. 实验

  • 数据集与评估设置:使用24个概念和20个提示语进行评估,涉及身份保留和文本对齐指标。
  • 定性与定量评估:CoRe在复杂场景中生成了更好文本对齐且保留身份的图像,比基线方法表现更优。
  • 用户研究:参与者更偏好CoRe生成的图像,表明其在身份保留与文本对齐方面的优势。
  • 消融实验:验证了上下文正则化和嵌入重缩放策略对生成质量的贡献。

4. 结论与局限性

CoRe通过正则化上下文token优化文本嵌入学习,在身份保留与文本对齐方面表现优异。然而,仍面临学习复杂组合时的挑战,未来研究可进一步探索优化方法。

文章总结:

本文以清晰的方法论和全面的实验验证,展示了CoRe在文本到图像个性化生成中的优势,适用于需要高视觉可变性和身份保留的场景,未来可进一步优化复杂组合生成效果。

AI生成未来

AIGC最新技术及资讯

323 篇文章
浏览 309.6K

还在用多套工具管项目?

一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。

加入社区微信群
与行业大咖零距离交流学习
PMO实践白皮书
白皮书上线