你的文生图模型可以秘密接收多模态提示了!南洋理工&腾讯最新提出EMMA

发布于 2024-10-26
1135

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读

摘要

背景:与传统的文本到图像(T2I)扩散模型相比,EMMA模型能够接受多模态提示,如文本和参考外观,并通过特殊的注意机制有效整合这些信息以引导图像生成。它基于ELLA构建,通过模块化的多模态特征连接器改善了生成的灵活性和实用性。

主要贡献:EMMA引入了一个多模态特征连接器,提高了图像生成的适应性。模型的模块化设计简化了训练过程,其通用性使它能够适应不同的框架和任务。在生成图像时,EMMA保证了高保真度和丰富的细节。

方法: EMMA采用文本编码器(T5),图像生成器以及多模态特征连接器。连接器使用Perceiver Resampler和Assemblable Gated Perceiver Resampler模块,通过注意力机制整合文本和附加条件。此外,研究者提出的策略无需额外训练即可合成多条件图像。

实验: 定量评估显示,EMMA在风格和肖像生成任务上超越了现有方法。分离门控机制提供了对不同token embeddings更细粒度的控制,增强了模型性能。可视化结果展示了EMMA在多条件图像生成中的效果。

结论: EMMA为从多种条件生成图像提供了一个高效而灵活的解决方案,为平衡多种输入模态设定了新的标准。尽管目前仅支持英文提示,但研究者们计划进一步扩展其语言支持。

AI生成未来

AIGC最新技术及资讯

323 篇文章
浏览 346.7K

还在用多套工具管项目?

一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。

加入社区微信群
与行业大咖零距离交流学习
PMO实践白皮书
白皮书上线