NeurIPS 2024 | 全面提升文生图SOTA方法！ToMe:基于token合并的免训练文生图语义绑定

token 语义生成绑定 ToMe

发布于 2025-07-31

897

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：NeurIPS 2024 | 全面提升文生图SOTA方法！ToMe:基于token合并的免训练文生图语义绑定

文章来源：

AI生成未来

扫码关注公众号

扫码阅读

手机扫码阅读

文章主旨：

提出了一种无需训练的新方法——Token Merging (ToMe)，用于解决文本生成图像模型中的语义绑定问题，显著提升生成图像的准确性与效率。

关键要点：

语义绑定问题是T2I模型在生成多对象图像时难以正确将对象与其属性进行关联。
发现了文本嵌入的语义耦合性和可加性，并利用这些特性提出了Token Merging方法。
Token Merging通过对象token合并与结束token替换技术，统一交叉注意力图以增强语义绑定。
引入熵损失和语义绑定损失，通过迭代更新复合token进一步优化生成图像的语义一致性。
实验表明ToMe在多个基准测试与定量指标上显著领先于现有方法，并在复杂场景中表现出色。

内容结构：

研究背景：分析了T2I模型在生成图像时的语义绑定问题，包括语义错位与属性丢失的挑战，以及现有解决方法的局限性。
研究动机：提出利用文本嵌入的语义耦合性与可加性，在生成过程中解决对象与属性的混淆问题。
研究方法：
- Token合并与结束token替换：通过对象token合并生成复合token，并替换结束token以减轻语义信息干扰。
- 复合token迭代更新：引入熵损失与语义绑定损失，以优化生成图像的语义一致性与布局。
实验：通过定量与定性比较验证ToMe方法的有效性，分析了技术组合对性能的贡献，并展示了消融实验结果。
结论与展望：总结ToMe在解决语义绑定问题上的创新性与效果，并讨论其在其他领域的潜在应用价值。

文章总结：

本文提出的ToMe方法以技术创新与实验验证为基础，提供了一种高效、稳健的解决方案，对文本生成图像领域的研究与实际应用均具有重要意义。

AI生成未来

查看原文：NeurIPS 2024 | 全面提升文生图SOTA方法！ToMe:基于token合并的免训练文生图语义绑定

文章来源：

AI生成未来

扫码关注公众号

相关推荐

计算效率和性能双赢！南大联合中移动发布高效多模态大模型新范式—— p-MoD

933

token MoD 模型 tokens

点击下方卡片，关注“AI生成未来” 后台回复“GAI”?

超越SDEdit等七大SOTA，免训练多模态图像编辑里程碑：HeadRouter带来精准语义调整

887

图像 token 文本注意力

点击下方卡片，关注“AI生成未来”后台回复“GAI”??

视觉AR逆袭！177M效果媲美675M最新SOTA扩散模型，仅需一个“即插即用”的正则化reAR

128

AR 模型嵌入 token

点击下方卡片，关注“AI生成未来”????扫码免费加入A

首个多模态Masked扩散模型诞生！Adobe研究院Lavida-O：生成、编辑和定位登顶SOTA!

700

图像生成模型 token

点击下方卡片，关注“AI生成未来”如您有工作需要

VLM训练成本降4.5倍！8B参数媲美GPT-4o mini | 英伟达&MIT等发布NVILA：前沿高效

997

模型 NVILA 训练 token

点击下方卡片，关注“AI生成未来”后台回复“GAI”??

测试开发面试题：用户认证token的机制和详细原理

678

Token token 服务器）。

Token 是一种用于身份认证的机制。它通常是一个字符串，包含用户的认证信息（可能是加密的），在用户登录后由服务器生成并返回给客户端。

AIGC最新技术及资讯

334 篇文章

浏览 465.6K

还在用多套工具管项目？

一个平台搞定产品、项目、质量与效能，告别整合之苦，实现全流程闭环。

AI生成未来的其他文章

图像生成地表最强！Playground v2.5技术报告解读重磅来袭！超越SD、DALL·E 3和 Midjourney

点击上方蓝字，关注 AI 生成未来，干货不停后台??

2024年了,Diffusion模型还有什么可做的？

点击下方卡片，关注“AI生成未来”>>后台回复“

让SDXL实现50倍加速！中山&字节最新对抗训练+双空间判别，单步生成新标杆！性能狂飙

点击下方卡片，关注“AI生成未来”如您有工作需要??

3D人体重建新SOTA！清华&腾讯等重磅发布MagicMan：单一图像生成高质量人体新突破

点击下方卡片，关注“AI生成未来”作者：Xu He等 ?

别再被你家的AI骗了！D⁴ Lab社区最新方法TraceLift揭穿‘假推理’,模型思考过程真正靠谱

点击下方卡片，关注“AI生成未来”????扫码免费加入A

随机阅读

一次基于业务规则的用户故事拆分

再聊2B与2C，差异背后的统一性

混沌工程杂谈

《刘澜极简管理学》，书如其名，值得多读

敏捷框架介绍：DSDM（动态系统开发模型）

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线

联系我们
电话：4006 8899 23 邮箱：beining@chandao.com
融实践库
关于我们加入我们
微信号：rongpmcom
立即学习
微信公众号
微信视频号
社区微信群

友情链接：禅道项目管理软件云禅道敏捷开发喧喧IM ZDOO协同办公 ZTF自动化测试框架 ZenData测试数据生成器 ZenDAS数据分析渠成企业软件百宝箱 ZenShot开源截图工具 ZenPanel服务控制面板敏捷咨询