NeurIPS 2024 | 全面提升文生图SOTA方法!ToMe:基于token合并的免训练文生图语义绑定

token 语义 生成 绑定 ToMe
发布于 2025-07-31
427

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读

文章主旨:

提出了一种无需训练的新方法——Token Merging (ToMe),用于解决文本生成图像模型中的语义绑定问题,显著提升生成图像的准确性与效率。

关键要点:

  • 语义绑定问题是T2I模型在生成多对象图像时难以正确将对象与其属性进行关联。
  • 发现了文本嵌入的语义耦合性和可加性,并利用这些特性提出了Token Merging方法。
  • Token Merging通过对象token合并与结束token替换技术,统一交叉注意力图以增强语义绑定。
  • 引入熵损失和语义绑定损失,通过迭代更新复合token进一步优化生成图像的语义一致性。
  • 实验表明ToMe在多个基准测试与定量指标上显著领先于现有方法,并在复杂场景中表现出色。

内容结构:

  • 研究背景:分析了T2I模型在生成图像时的语义绑定问题,包括语义错位与属性丢失的挑战,以及现有解决方法的局限性。
  • 研究动机:提出利用文本嵌入的语义耦合性与可加性,在生成过程中解决对象与属性的混淆问题。
  • 研究方法:
    • Token合并与结束token替换:通过对象token合并生成复合token,并替换结束token以减轻语义信息干扰。
    • 复合token迭代更新:引入熵损失与语义绑定损失,以优化生成图像的语义一致性与布局。
  • 实验:通过定量与定性比较验证ToMe方法的有效性,分析了技术组合对性能的贡献,并展示了消融实验结果。
  • 结论与展望:总结ToMe在解决语义绑定问题上的创新性与效果,并讨论其在其他领域的潜在应用价值。

文章总结:

本文提出的ToMe方法以技术创新与实验验证为基础,提供了一种高效、稳健的解决方案,对文本生成图像领域的研究与实际应用均具有重要意义。

AI生成未来

AIGC最新技术及资讯

323 篇文章
浏览 276.8K

还在用多套工具管项目?

一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。

加入社区微信群
与行业大咖零距离交流学习
PMO实践白皮书
白皮书上线