一张照片,开口说话!阿里等最新音视频对齐技术FantasyTalking:打造超写实可控数字人!

运动 身份 音频 面部 唇部
发布于 2025-07-31
428

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读

文章主旨:

FantasyTalking通过双阶段视听对齐策略、身份保持优化和运动强度调制,解决静态肖像动画化中的真实性、动态性及身份保持问题,显著提升生成视频质量和动态自然性。

关键要点:

  • 采用双阶段视听对齐训练策略,在片段级建立全局动态,帧级细化唇部运动,与音频信号高度同步。
  • 提出面部聚焦的交叉注意力模块,优化身份保持,减少动态性与一致性之间的冲突。
  • 开发运动强度调制模块,显式控制面部表情和身体动作强度,实现更自然的动态肖像生成。
  • 实验表明该技术在视频质量、时间一致性、运动多样性及身份保持方面超越现有方法。
  • 指出扩散模型推理速度偏慢的局限性,并提出未来加速优化方向。

内容结构:

解决的问题:

  • 静态肖像动画化的挑战,包括难以捕捉细微表情、全身动作及动态背景的真实性。
  • 现有方法依赖3D中间表示或扩散模型,难以实现自然协调的动态效果。
  • 身份保持与动态灵活性之间存在冲突,限制生成视频的表现力。

提出的方案:

  • 双阶段音频-视觉对齐策略:片段级建立全局动态关联,帧级优化唇部运动与音频同步。
  • 交叉注意力模块:专注面部区域建模,提升身份一致性与视觉效果。
  • 运动强度调制:通过显式控制动态幅度,生成自然且多样的肖像动画。

应用的技术:

  • 基于视频扩散Transformer(DiT)的高保真动态生成模型。
  • 多模态对齐框架实现音频驱动动态建模与唇部掩码引导的局部细化。
  • 运动强度调制网络,结合面部和身体运动系数,实现动态幅度控制。

实验与结果:

  • 拘束数据集评估:生成面部表情自然度和唇动同步性优于现有方法。
  • 自然数据集评估:在复杂背景和动态场景下表现出更高质量的视频生成能力。
  • 运动强度调制与竞争方法对比:在剧烈运动场景中展现全身动态控制优势。
  • 消融实验验证:双阶段视听对齐、身份保持模块和运动强度调制的关键作用。

局限性与未来工作:

  • 扩散模型推理速度较慢,需探索加速方案以支持实时交互应用。
  • 未来可扩展至交互式肖像对话等应用场景。

文章总结:

FantasyTalking在静态肖像动画化领域实现了技术突破,显著提升视频生成的真实性、动态性及身份一致性,未来可进一步优化速度以拓展应用场景。

AI生成未来