让SD系列和FLUX.1无痛升级!浙大&vivo提出CoMPaSS:文生图空间理解能力暴涨!

空间 模型 图像 文本 SCOP
发布于 2025-07-31
403

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读

文章主旨:

CoMPaSS框架通过SCOP数据引擎和TENOR模块显著增强了文本到图像扩散模型的空间理解能力。

关键要点:

  • 文本到图像扩散模型在空间关系生成上存在数据模糊性和编码器解析不足两大问题。
  • CoMPaSS框架包含两个核心模块:SCOP数据引擎和TENOR无参数模块,分别解决数据质量和空间语义解析问题。
  • SCOP引擎通过空间约束识别和验证对象对的关系,生成高质量空间训练数据。
  • TENOR模块优化了扩散模型对空间语义的保留,无需额外的计算开销。
  • 框架在多个基准测试中显著提升空间生成表现,刷新行业标准。

内容结构:

1. 解决的问题

当前文本到图像扩散模型无法准确生成文本描述的空间关系,主要由于数据模糊性和文本编码器解析能力不足。

2. 提出的方案

  • 引入CoMPaSS框架,包括SCOP数据引擎和TENOR模块:
    • SCOP数据引擎:通过约束性原则生成空间准确的训练数据。
    • TENOR模块:增强文本编码器对空间关系的解析能力。

3. SCOP数据引擎

SCOP通过三个阶段处理图像:关系推理、空间约束执行和关系解码。这些步骤确保生成的训练数据具有清晰的空间关系和准确的描述。

4. TENOR模块

TENOR通过注入token顺序信息解决文本编码器空间语义缺陷问题,并在扩散模型的每次注意力操作中增强空间理解能力。

5. 实验与验证

  • 在四种开源扩散模型上验证,涵盖基于UNet和MMDiT架构。
  • 基准测试结果显示显著增益,包括VISOR(+98%)、T2I-CompBench Spatial(+67%)和GenEval Position(+131%)。
  • 消融研究表明SCOP和TENOR各自贡献显著,结合后更具效果。

文章总结:

CoMPaSS为文本到图像扩散模型提供了可靠的空间精确控制能力,推动了空间理解和图像生成技术的发展。

AI生成未来

AIGC最新技术及资讯

323 篇文章
浏览 276.8K

还在用多套工具管项目?

一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。

加入社区微信群
与行业大咖零距离交流学习
PMO实践白皮书
白皮书上线