港科大等提出音频驱动多人视频生成新范式 AnyTalker,解锁任意数量角色间的自然互动!
版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
AI生成未来
扫码关注公众号
扫码阅读
手机扫码阅读
文章主旨:
AnyTalker 是一种可扩展的音频驱动多人说话视频生成框架,能够实现自然交互、真实表情和高效唇同步。
关键要点:
- 提出可扩展的多流处理结构 Audio-Face Cross Attention Layer,用于驱动任意数量的角色并实现自然交互。
- 采用两阶段训练策略:第一阶段利用单人数据模拟多人互动;第二阶段通过少量真实多人数据优化互动性。
- 首创交互性评价指标,通过眼部关键点运动幅度量化评估生成视频的交互强度。
- 证明了 AnyTalker 在唇形同步、身份扩展和交互性之间的平衡性能超越现有方法。
- 构建了专门的多人交互数据集 InteractiveEyes,用于验证模型生成结果的真实性和自然性。
内容结构:
- 解决的问题:现有方法难以扩展到多人场景、高训练成本且缺乏交互性评估方法。
- 技术与方案:
- 开发 Audio-Face Cross Attention Layer,以循环方式处理音频与面部输入,实现多角色自然互动。
- 采用单人数据预训练与多人数据微调结合的低成本训练流程。
- 提出新指标 eye-focused Interactivity,用于衡量沉默阶段的交互强度。
- 方法与流程:
- 提出两阶段训练策略:第一阶段合成双人数据,第二阶段使用真实多人数据优化交互性。
- 利用标准单人视频数据与少量高质量双人数据构建训练集。
- 通过严谨的质量控制流程确保多人数据的准确性。
- 实验与评估:
- 定量评估:在单人和多人基准上验证模型性能,提出新指标测量交互性。
- 定性评估:对比现有方法,展示 AnyTalker 在生成自然交互视频方面的优势。
- 结论:AnyTalker 在唇形同步、身份扩展和交互性方面表现优异,是生成高质量多人互动视频的创新解决方案。
文章总结:
AnyTalker 为多人说话视频生成领域提供了突破性技术,展现出高度自然的交互与真实的表现,可广泛应用于视频生成和交互场景。
AI生成未来
AI生成未来
扫码关注公众号
还在用多套工具管项目?
一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。
查看方案
AI生成未来的其他文章
精细化图像编辑!LocInv:优化交叉注意力泄漏问题(国科大&巴塞罗那自治大学)
击下方卡片,关注“AI生成未来”>>后台回复“GAI
颠覆虚拟试衣行业标准!阿里发布OutfitAnyone:任意服装+任意人!
点击下方卡片,关注“AI生成未来”>>后台回复??
自回归扳回一城!阿里等提出MARS:超越PixArt-α、SD-XL等的文本到图像生成框架
点击下方卡片,关注“AI生成未来”>>后台回复“
ECCV2024|LightenDiffusion 超越现有无监督方法,引领低光图像增强新纪元!
点击下方卡片,关注“AI生成未来”>>后台回复??
图像生成地表最强!Playground v2.5技术报告解读重磅来袭!超越SD、DALL·E 3和 Midjourney
点击上方 蓝字,关注 AI 生成未来,干货不停后台??
加入社区微信群
与行业大咖零距离交流学习
PMO实践白皮书
白皮书上线
白皮书上线