港科大等提出音频驱动多人视频生成新范式 AnyTalker,解锁任意数量角色间的自然互动!

视频 生成 音频 AnyTalker 交互性
发布于 2025-12-19
11

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读

文章主旨:

AnyTalker 是一种可扩展的音频驱动多人说话视频生成框架,能够实现自然交互、真实表情和高效唇同步。

关键要点:

  • 提出可扩展的多流处理结构 Audio-Face Cross Attention Layer,用于驱动任意数量的角色并实现自然交互。
  • 采用两阶段训练策略:第一阶段利用单人数据模拟多人互动;第二阶段通过少量真实多人数据优化互动性。
  • 首创交互性评价指标,通过眼部关键点运动幅度量化评估生成视频的交互强度。
  • 证明了 AnyTalker 在唇形同步、身份扩展和交互性之间的平衡性能超越现有方法。
  • 构建了专门的多人交互数据集 InteractiveEyes,用于验证模型生成结果的真实性和自然性。

内容结构:

  • 解决的问题:现有方法难以扩展到多人场景、高训练成本且缺乏交互性评估方法。
  • 技术与方案:
    • 开发 Audio-Face Cross Attention Layer,以循环方式处理音频与面部输入,实现多角色自然互动。
    • 采用单人数据预训练与多人数据微调结合的低成本训练流程。
    • 提出新指标 eye-focused Interactivity,用于衡量沉默阶段的交互强度。
  • 方法与流程:
    • 提出两阶段训练策略:第一阶段合成双人数据,第二阶段使用真实多人数据优化交互性。
    • 利用标准单人视频数据与少量高质量双人数据构建训练集。
    • 通过严谨的质量控制流程确保多人数据的准确性。
  • 实验与评估:
    • 定量评估:在单人和多人基准上验证模型性能,提出新指标测量交互性。
    • 定性评估:对比现有方法,展示 AnyTalker 在生成自然交互视频方面的优势。
  • 结论:AnyTalker 在唇形同步、身份扩展和交互性方面表现优异,是生成高质量多人互动视频的创新解决方案。

文章总结:

AnyTalker 为多人说话视频生成领域提供了突破性技术,展现出高度自然的交互与真实的表现,可广泛应用于视频生成和交互场景。

AI生成未来