让SD系列和FLUX.1无痛升级!浙大&vivo提出CoMPaSS:文生图空间理解能力暴涨!
版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
AI生成未来
扫码关注公众号
扫码阅读
手机扫码阅读
文章主旨:
CoMPaSS框架通过SCOP数据引擎和TENOR模块显著增强了文本到图像扩散模型的空间理解能力。
关键要点:
- 文本到图像扩散模型在空间关系生成上存在数据模糊性和编码器解析不足两大问题。
- CoMPaSS框架包含两个核心模块:SCOP数据引擎和TENOR无参数模块,分别解决数据质量和空间语义解析问题。
- SCOP引擎通过空间约束识别和验证对象对的关系,生成高质量空间训练数据。
- TENOR模块优化了扩散模型对空间语义的保留,无需额外的计算开销。
- 框架在多个基准测试中显著提升空间生成表现,刷新行业标准。
内容结构:
1. 解决的问题
当前文本到图像扩散模型无法准确生成文本描述的空间关系,主要由于数据模糊性和文本编码器解析能力不足。
2. 提出的方案
- 引入CoMPaSS框架,包括SCOP数据引擎和TENOR模块:
- SCOP数据引擎:通过约束性原则生成空间准确的训练数据。
- TENOR模块:增强文本编码器对空间关系的解析能力。
3. SCOP数据引擎
SCOP通过三个阶段处理图像:关系推理、空间约束执行和关系解码。这些步骤确保生成的训练数据具有清晰的空间关系和准确的描述。
4. TENOR模块
TENOR通过注入token顺序信息解决文本编码器空间语义缺陷问题,并在扩散模型的每次注意力操作中增强空间理解能力。
5. 实验与验证
- 在四种开源扩散模型上验证,涵盖基于UNet和MMDiT架构。
- 基准测试结果显示显著增益,包括VISOR(+98%)、T2I-CompBench Spatial(+67%)和GenEval Position(+131%)。
- 消融研究表明SCOP和TENOR各自贡献显著,结合后更具效果。
文章总结:
CoMPaSS为文本到图像扩散模型提供了可靠的空间精确控制能力,推动了空间理解和图像生成技术的发展。
AI生成未来
AI生成未来
扫码关注公众号
还在用多套工具管项目?
一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。
查看方案
AI生成未来的其他文章
通向AGI的未来之路!首篇2D/视频/3D/4D统一生成框架全景综述(港科大&中山等)
点击下方卡片,关注“AI生成未来”如您有工作需要??
告别低质生成!可扩展DiT实现全可控角色!腾讯混元&InstantX重磅开源InstantCharacter
点击下方卡片,关注“AI生成未来”如您有工作需要??
即插即用!CVD:第一个生成具有相机控制的多视图一致视频方案!(斯坦福&港中文)
点击下方卡片,关注“AI生成未来”>>后台回复“
华佗来了,首个具备复杂推理能力的医学大语言模型!港中文等发布HuatuoGPT-o1
点击下方卡片,关注“AI生成未来”后台回复“GAI”??
NeurIPS 2025 Spotlight! 当内部地图发生扭曲时: 为什么可识别的表征对负责任的人工智能至关重要?
点击下方卡片,关注“AI生成未来”如您有工作需要
加入社区微信群
与行业大咖零距离交流学习
PMO实践白皮书
白皮书上线
白皮书上线