让SD系列和FLUX.1无痛升级！浙大&vivo提出CoMPaSS：文生图空间理解能力暴涨！

空间模型图像文本 SCOP

发布于 2025-07-31

890

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：让SD系列和FLUX.1无痛升级！浙大&vivo提出CoMPaSS：文生图空间理解能力暴涨！

文章来源：

AI生成未来

扫码关注公众号

扫码阅读

手机扫码阅读

文章主旨：

CoMPaSS框架通过SCOP数据引擎和TENOR模块显著增强了文本到图像扩散模型的空间理解能力。

关键要点：

文本到图像扩散模型在空间关系生成上存在数据模糊性和编码器解析不足两大问题。
CoMPaSS框架包含两个核心模块：SCOP数据引擎和TENOR无参数模块，分别解决数据质量和空间语义解析问题。
SCOP引擎通过空间约束识别和验证对象对的关系，生成高质量空间训练数据。
TENOR模块优化了扩散模型对空间语义的保留，无需额外的计算开销。
框架在多个基准测试中显著提升空间生成表现，刷新行业标准。

内容结构：

1. 解决的问题

当前文本到图像扩散模型无法准确生成文本描述的空间关系，主要由于数据模糊性和文本编码器解析能力不足。

2. 提出的方案

引入CoMPaSS框架，包括SCOP数据引擎和TENOR模块：

SCOP数据引擎：通过约束性原则生成空间准确的训练数据。
TENOR模块：增强文本编码器对空间关系的解析能力。

3. SCOP数据引擎

SCOP通过三个阶段处理图像：关系推理、空间约束执行和关系解码。这些步骤确保生成的训练数据具有清晰的空间关系和准确的描述。

4. TENOR模块

TENOR通过注入token顺序信息解决文本编码器空间语义缺陷问题，并在扩散模型的每次注意力操作中增强空间理解能力。

5. 实验与验证

在四种开源扩散模型上验证，涵盖基于UNet和MMDiT架构。
基准测试结果显示显著增益，包括VISOR（+98%）、T2I-CompBench Spatial（+67%）和GenEval Position（+131%）。
消融研究表明SCOP和TENOR各自贡献显著，结合后更具效果。

文章总结：

CoMPaSS为文本到图像扩散模型提供了可靠的空间精确控制能力，推动了空间理解和图像生成技术的发展。

AI生成未来

查看原文：让SD系列和FLUX.1无痛升级！浙大&vivo提出CoMPaSS：文生图空间理解能力暴涨！

文章来源：

AI生成未来

扫码关注公众号

相关推荐

32页PDF | 可信数据空间科普问答：解锁数据流通新纪元的钥匙（第一册附下载）

789

数据空间可信下载

可信数据空间的运营机制设计需建立接入审核、互联互通、共享利用和收益分配等环节的规范规则。

可信数据空间怎么突然不香了？

数据空间可信技术

可信数据空间的本质，从来不是建一个系统，而是建一种信任。

DDD 中的多对多关系建模

1772

空间关系用户模型

多对多关系是软件建模中比较的麻烦的场景，如果梳理不清楚对软件架构伤害很大。在不久前的一个项目中，十足的体验了一次多对多关系带来的痛苦。

可信数据空间+逆向思维：解锁数据价值的双引擎

640

数据空间可信思维

可信数据空间解决了数据“能不能用”的问题，逆向思维回答了数据“如何用好”的问题。

可信数据空间是“数据监狱”吗？

553

数据空间可信监狱

可信数据空间应是流通广场，而非数据监狱。

Linux 内存管理 pt.1

1330

内存物理空间进程

揭开 Linux 内存神秘面纱

AI生成未来

AIGC最新技术及资讯

334 篇文章

浏览 465.6K

还在用多套工具管项目？

一个平台搞定产品、项目、质量与效能，告别整合之苦，实现全流程闭环。

查看方案

AI生成未来的其他文章

运动应用（生成&克隆&迁移&编辑）全搞定！阿里通义提出动画框架Perception-as-Control

点击下方卡片，关注“AI生成未来” 后台回复“GAI”?

CVPR 2024 | DEADiff：稳定可控的文本到图像风格化扩散模型（中科大&字节）

点击下方卡片，关注“AI生成未来”>>后台回复“

值得细读的8个视觉大模型生成式预训练方法

点击下方卡片，关注“AI生成未来”>>关注【AI生

点击下方卡片，关注“AI生成未来” 后台回复“GAI”?

大语言模型都有哪些特质？区分度达97%！DeepSeek&ChatGPT&Claude&Grok&Gemini

点击下方卡片，关注“AI生成未来” 后台回复“GAI”?

随机阅读

关于敏捷的慢思考（1）

07-12

Martin Fowler | 敏捷的忠实拥护者

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线

去下载

联系我们
电话：4006 8899 23 邮箱：beining@chandao.com
融实践库
关于我们加入我们
微信号：rongpmcom
立即学习
微信公众号
微信视频号
社区微信群

友情链接：禅道项目管理软件云禅道敏捷开发喧喧IM ZDOO协同办公 ZTF自动化测试框架 ZenData测试数据生成器 ZenDAS数据分析渠成企业软件百宝箱 ZenShot开源截图工具 ZenPanel服务控制面板敏捷咨询

让SD系列和FLUX.1无痛升级！浙大&vivo提出CoMPaSS：文生图空间理解能力暴涨！

版权声明

文章主旨：

关键要点：

内容结构：

1. 解决的问题

2. 提出的方案

3. SCOP数据引擎

4. TENOR模块

5. 实验与验证

文章总结：

每周五都在拼周报？这个禅道新版报告功能，让数据自己动起来

还在用多套工具管项目？

联系我们

融实践库

微信公众号

微信视频号

社区微信群