UBCFashion和TikTok新SOTA!复旦和腾讯优图发布端到端人像动画生成器VividPose!
1357
版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
人像动画创新工作:VividPose
VividPose是一种基于Stable Video Diffusion (SVD)的端到端pipeline,用于从静态图像生成具有优越时间稳定性的人像动画视频。这项工作提出了一个身份感知外观控制器,整合了面部信息来提高在不同姿势下的人类身份保真度,同时不牺牲服装纹理和背景等细节。此外,通过引入几何感知姿势控制器,采用SMPL-X模型的密集渲染图和稀疏骨架图,确保了视频中的准确体型对齐和广泛的姿势适应能力。在UBCFashion和TikTok数据集上进行的测试证实了VividPose的先进性能。
技术概述
预备知识包括SVD和SMPL-X。SVD是一种视频生成模型,它引入了3D卷积和时间注意力层,并采用EDM调度器来提高采样效率。SMPL-X是一种3D参数化人体模型,能够通过形状、姿势和表情参数生成2D渲染图。VividPose结合这些技术,通过从参考图像提取形状和表情参数,以及从驱动视频提取姿势参数,生成准确对齐的人像动画。
关键模块
身份感知外观控制
本文提出的身份感知外观控制器通过引入面部特征强化了面部身份的保留,同时保持了服装纹理和背景细节。这通过使用ArcFace提取的面部特征,并通过交叉注意力层将其融入UNet实现。
几何感知姿势控制
几何感知姿势控制器采用SMPL-X模型的渲染图并将其与骨架图相结合,使用编码器对这些图进行编码,从而提供精确的姿势和形状控制。这确保了生成视频中的人体形状与参考图像对齐并遵循驱动视频的姿势。
实验结果
在UBC-Fashion和TikTok数据集上的实验结果显示,VividPose在图像质量、视频保真度和泛化能力方面均实现了最先进的结果。此外,它还在一个精心筛选的数据集上展示了出色的适用性和稳健性。
结论
VividPose通过结合身份感知外观控制和几何感知姿势控制,提供了一个强大的人像动画解决方案,具有突出的时间一致性和视觉保真度。这些特点使其在现实场景中的应用前景广阔。
AI生成未来
还在用多套工具管项目?
一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。
白皮书上线