CVPR`24 | 真假难辨!CosmicMan:超实用的人物生成基础模型来了!(上海AI Lab)

图像 人物 模型 文本 标注
发布于 2025-05-17
774

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读
CosmicMan文章摘要

CosmicMan: 专注于人物图像生成的文本到图像基础模型

简介

CosmicMan是一个专门用于生成高保真人物图像的文本到图像基础模型。它克服了当前模型在人物图像质量和文本-图像匹配上的不足,能够生成结构合理且与详细描述精确对齐的逼真的人物图像。本文提出了新数据生产范式"Annotate Anyone"和训练框架"Daring",通过高质量数据和模型设计推动了CosmicMan的发展。

核心贡献

1. 数据生产范式

"Annotate Anyone"是一个结合人工智能和人工标注的人机协作数据生产范式。它通过动态数据采集和迭代标注机制,构建了一个高质量的大规模人物数据集CosmicMan-HQ 1.0,包含600万张高分辨率图像和1.15亿个细粒度标注。

2. 专用训练框架

Daring训练框架以Stable Diffusion为基础,通过分解注意力特征图和引入新损失函数(HOLA),优化了文本和图像的对齐性,同时保持了架构的简洁性和计算效率。

实验与评估

通过与最新文本到图像模型(如DALLE、SDXL、MidJourney等)的比较,CosmicMan在图像质量(FID)、文本-图像对齐(Accall)和用户偏好评估中表现优异。消融研究进一步验证了高质量数据和训练策略的有效性。

应用与未来工作

CosmicMan在2D人物编辑和3D人物重建任务中表现出色,证明了其作为基础模型的实用性。未来工作将继续动态更新数据集和模型,以支持以人物为中心的内容生成领域的长期研究。

结论

CosmicMan通过创新的数据生产和训练策略,提供了一个全面、可持续的解决方案,为以人物为中心的内容生成领域奠定了坚实的基础。

AI生成未来