仅128个token达到ImageNet生成SOTA性能!MAETok:有效的扩散模型的关键是什么?(卡内基梅隆&港大等)

生成 训练 解码器 MAETok 编码器
发布于 2025-07-31
383

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读

文章主旨:

通过提出基于Mask建模的MAETok,解决现有扩散模型中的隐空间结构问题,显著提升生成质量和训练效率。

关键要点:

  • MAETok利用Mask建模,学习更具语义信息的隐空间,从而增强扩散模型性能。
  • 相比传统使用VAE的扩散模型,MAETok显著提升训练速度和推理吞吐量。
  • 实验表明,高质量隐空间比变分约束更关键,MAETok在ImageNet基准上实现SOTA生成质量。
  • 通过冻结编码器并微调像素解码器,恢复重建质量同时保留优质隐空间。
  • 研究强调隐空间的区分性与生成性能之间的直接联系,指出潜在空间分布优化的重要性。

内容结构:

  • 解决的问题:

    现有扩散模型依赖VAE作为tokenizer,其变分约束限制了重建质量,而普通AE隐空间过于混乱,影响训练和采样效果。如何构建既高重建质量又结构化良好的tokenizer是一个未解决难题。

  • 提出的方案:

    本文提出MAETok,通过随机屏蔽图像token并重建缺失部分,以学习更加语义丰富、结构清晰的隐空间。关键设计包括Mask建模、辅助浅层解码器、编码器冻结策略。

  • 应用的技术:

    采用扩散模型、Mask自编码器、Transformer架构、高效训练策略和隐空间分析优化扩散模型学习。

  • 达到的效果:

    MAETok显著提升隐空间区分性、训练速度和生成质量,突破VAE限制,验证高质量隐空间对扩散模型的关键作用。

  • 实验与分析:

    通过消融研究和潜在空间分析,验证Mask建模与辅助解码器的设计选择,并展示良好潜在空间分布对生成性能的促进作用。实验结果表明,MAETok在计算效率和生成质量上均超越现有方法。

  • 主要结果:

    MAETok在ImageNet基准上以128个token实现最先进的生成质量,并显著提高训练与推理效率,同时在潜在空间分布中展示更少的模式。

  • 讨论与结论:

    具有区分性的隐空间是扩散模型有效学习的关键,MAETok通过Mask建模实现了无需变分约束的高效性能,为大规模生成建模提供了新方向。

文章总结:

本文通过理论与实证分析,为扩散模型的高效生成提供了重要启发,MAETok展现了显著的性能提升,建议未来关注隐空间优化与生成建模的新方法。

AI生成未来