一张照片,开口说话!阿里等最新音视频对齐技术FantasyTalking:打造超写实可控数字人!
版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
AI生成未来
扫码关注公众号
扫码阅读
手机扫码阅读
文章主旨:
FantasyTalking通过双阶段视听对齐策略、身份保持优化和运动强度调制,解决静态肖像动画化中的真实性、动态性及身份保持问题,显著提升生成视频质量和动态自然性。
关键要点:
- 采用双阶段视听对齐训练策略,在片段级建立全局动态,帧级细化唇部运动,与音频信号高度同步。
- 提出面部聚焦的交叉注意力模块,优化身份保持,减少动态性与一致性之间的冲突。
- 开发运动强度调制模块,显式控制面部表情和身体动作强度,实现更自然的动态肖像生成。
- 实验表明该技术在视频质量、时间一致性、运动多样性及身份保持方面超越现有方法。
- 指出扩散模型推理速度偏慢的局限性,并提出未来加速优化方向。
内容结构:
解决的问题:
- 静态肖像动画化的挑战,包括难以捕捉细微表情、全身动作及动态背景的真实性。
- 现有方法依赖3D中间表示或扩散模型,难以实现自然协调的动态效果。
- 身份保持与动态灵活性之间存在冲突,限制生成视频的表现力。
提出的方案:
- 双阶段音频-视觉对齐策略:片段级建立全局动态关联,帧级优化唇部运动与音频同步。
- 交叉注意力模块:专注面部区域建模,提升身份一致性与视觉效果。
- 运动强度调制:通过显式控制动态幅度,生成自然且多样的肖像动画。
应用的技术:
- 基于视频扩散Transformer(DiT)的高保真动态生成模型。
- 多模态对齐框架实现音频驱动动态建模与唇部掩码引导的局部细化。
- 运动强度调制网络,结合面部和身体运动系数,实现动态幅度控制。
实验与结果:
- 拘束数据集评估:生成面部表情自然度和唇动同步性优于现有方法。
- 自然数据集评估:在复杂背景和动态场景下表现出更高质量的视频生成能力。
- 运动强度调制与竞争方法对比:在剧烈运动场景中展现全身动态控制优势。
- 消融实验验证:双阶段视听对齐、身份保持模块和运动强度调制的关键作用。
局限性与未来工作:
- 扩散模型推理速度较慢,需探索加速方案以支持实时交互应用。
- 未来可扩展至交互式肖像对话等应用场景。
文章总结:
FantasyTalking在静态肖像动画化领域实现了技术突破,显著提升视频生成的真实性、动态性及身份一致性,未来可进一步优化速度以拓展应用场景。
AI生成未来
AI生成未来
扫码关注公众号
还在用多套工具管项目?
一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。
查看方案
AI生成未来的其他文章
Gen4Gen:数据驱动多概念个性化图像生成新方法(马毅教授团队新作)
点击上方 蓝字,关注 AI 生成未来,干货不停后台??
无性能损失!让SAM加速近50倍!EfficientViT-SAM来了!
关注【AI生成未来】公众号,回复“GAI”,免费获取??
与 ChatGPT 的对话:技术、应用和局限性
摘要人工智能聊天机器人的出现引起了全世界的注意,它可以生成类似人类的句子并写出连贯的文章。
CVPR`24 | 真假难辨!CosmicMan:超实用的人物生成基础模型来了!(上海AI Lab)
点击下方卡片,关注“AI生成未来”>>后台回复“
小模型大能力!苹果发布统一多模态小钢炮Manzano:单模型搞定识图、生图,效果炸裂!
点击下方卡片,关注“AI生成未来”如您有工作需要
加入社区微信群
与行业大咖零距离交流学习
PMO实践白皮书
白皮书上线
白皮书上线