港科大等提出音频驱动多人视频生成新范式 AnyTalker,解锁任意数量角色间的自然互动!
版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
AI生成未来
扫码关注公众号
扫码阅读
手机扫码阅读
文章主旨:
AnyTalker 是一种可扩展的音频驱动多人说话视频生成框架,能够实现自然交互、真实表情和高效唇同步。
关键要点:
- 提出可扩展的多流处理结构 Audio-Face Cross Attention Layer,用于驱动任意数量的角色并实现自然交互。
- 采用两阶段训练策略:第一阶段利用单人数据模拟多人互动;第二阶段通过少量真实多人数据优化互动性。
- 首创交互性评价指标,通过眼部关键点运动幅度量化评估生成视频的交互强度。
- 证明了 AnyTalker 在唇形同步、身份扩展和交互性之间的平衡性能超越现有方法。
- 构建了专门的多人交互数据集 InteractiveEyes,用于验证模型生成结果的真实性和自然性。
内容结构:
- 解决的问题:现有方法难以扩展到多人场景、高训练成本且缺乏交互性评估方法。
- 技术与方案:
- 开发 Audio-Face Cross Attention Layer,以循环方式处理音频与面部输入,实现多角色自然互动。
- 采用单人数据预训练与多人数据微调结合的低成本训练流程。
- 提出新指标 eye-focused Interactivity,用于衡量沉默阶段的交互强度。
- 方法与流程:
- 提出两阶段训练策略:第一阶段合成双人数据,第二阶段使用真实多人数据优化交互性。
- 利用标准单人视频数据与少量高质量双人数据构建训练集。
- 通过严谨的质量控制流程确保多人数据的准确性。
- 实验与评估:
- 定量评估:在单人和多人基准上验证模型性能,提出新指标测量交互性。
- 定性评估:对比现有方法,展示 AnyTalker 在生成自然交互视频方面的优势。
- 结论:AnyTalker 在唇形同步、身份扩展和交互性方面表现优异,是生成高质量多人互动视频的创新解决方案。
文章总结:
AnyTalker 为多人说话视频生成领域提供了突破性技术,展现出高度自然的交互与真实的表现,可广泛应用于视频生成和交互场景。
AI生成未来
AI生成未来
扫码关注公众号
还在用多套工具管项目?
一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。
查看方案
AI生成未来的其他文章
具身智能又进一步!卡内基梅隆&Meta&苏黎世联邦实现虚拟人超灵活抓取
点击下方卡片,关注“AI生成未来”>>后台回复“
一张照片,秒变专属电影!字节最新Lynx黑魔法护航高保真个性化视频生成
点击下方卡片,关注“AI生成未来”如您有工作需要
从PixArt α 到 Σ: 关于高效Diffusion Models你想知道的一切
点击下方卡片,关注“AI生成未来”>>关注【AI生?
最高加速超4倍!不依赖特定模型的统一模型压缩框架CPD发布(卡尔斯鲁厄理工学院)
点击下方卡片,关注“AI生成未来”>>后台回复“
如何从文本生成图像和视频?9个常用生成器一览!
如何从文本生成图像和视频?9个常用生成器一览!
加入社区微信群
与行业大咖零距离交流学习
PMO实践白皮书
白皮书上线
白皮书上线