CVPR`24 | 真假难辨!CosmicMan:超实用的人物生成基础模型来了!(上海AI Lab)
版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
CosmicMan: 专注于人物图像生成的文本到图像基础模型
简介
CosmicMan是一个专门用于生成高保真人物图像的文本到图像基础模型。它克服了当前模型在人物图像质量和文本-图像匹配上的不足,能够生成结构合理且与详细描述精确对齐的逼真的人物图像。本文提出了新数据生产范式"Annotate Anyone"和训练框架"Daring",通过高质量数据和模型设计推动了CosmicMan的发展。
核心贡献
1. 数据生产范式
"Annotate Anyone"是一个结合人工智能和人工标注的人机协作数据生产范式。它通过动态数据采集和迭代标注机制,构建了一个高质量的大规模人物数据集CosmicMan-HQ 1.0,包含600万张高分辨率图像和1.15亿个细粒度标注。
2. 专用训练框架
Daring训练框架以Stable Diffusion为基础,通过分解注意力特征图和引入新损失函数(HOLA),优化了文本和图像的对齐性,同时保持了架构的简洁性和计算效率。
实验与评估
通过与最新文本到图像模型(如DALLE、SDXL、MidJourney等)的比较,CosmicMan在图像质量(FID)、文本-图像对齐(Accall)和用户偏好评估中表现优异。消融研究进一步验证了高质量数据和训练策略的有效性。
应用与未来工作
CosmicMan在2D人物编辑和3D人物重建任务中表现出色,证明了其作为基础模型的实用性。未来工作将继续动态更新数据集和模型,以支持以人物为中心的内容生成领域的长期研究。
结论
CosmicMan通过创新的数据生产和训练策略,提供了一个全面、可持续的解决方案,为以人物为中心的内容生成领域奠定了坚实的基础。
AI生成未来
还在用多套工具管项目?
一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。
白皮书上线