揭秘神秘的种子:Adobe联合宾夕法尼亚大学发布文本到图像扩散模型大规模种子分析
606
版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
摘要
最新研究表明,文本到图像(T2I)扩散模型在图像合成领域取得了显著进展,但其训练对计算资源的需求限制了这些研究的进行。本文通过大规模科学研究探讨了随机种子在扩散推理过程中的影响,并发现特定的“黄金”种子能显著提高生成图像的质量。
好坏种子的对比
本研究通过实验发现,最佳的“黄金”种子的FID(Fréchet Inception Distance)得分为21.60,而最差的“劣质”种子的FID得分为31.97。证实了种子对生成图像的质量有显著影响。
介绍
本文介绍了一种推理技术,通过探索随机种子在逆扩散过程中的作用来增强图像生成。在1,024个种子上实验后,发现种子对生成图像的质量有显著影响。
相关工作
以往研究主要聚焦于随机性对深度学习模型性能的影响。扩散模型输入的影响部分关注了文本提示和初始噪声的选择对生成图像的影响。
了解扩散种子
研究围绕扩散种子在生成过程中的作用,发现初始噪声潜变量显著控制着生成的内容。
数据生成
为大规模种子分析构建了一个数据集,包含超过4600万张图像,通过22,000个多样化的文本提示和两种T2I模型生成。
种子根据生成的图像有多具有辨别力?
通过训练分类器来预测种子编号,发现种子根据生成的图像是高度可区分的,分类器在短时间内达到了超过99.9%的准确率。
种子对可解释视觉维度的影响
种子对图像质量、风格、布局以及文本修补模型的“文本伪影”生成有显著影响,影响对象的位置、大小和深度。
实际应用
基于种子分析中的发现,提出了增强图像生成的几种下游应用,包括高保真推理、风格和构图中的可控多样性,以及改进的基于文本的修复。
结论、限制和更广泛的影响
本研究对理解T2I扩散模型的工作原理和改进图像生成有重要意义,但由于预算限制,研究主要聚焦于1024个种子的影响。
AI生成未来
白皮书上线