港科大等提出音频驱动多人视频生成新范式 AnyTalker,解锁任意数量角色间的自然互动!
版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
AI生成未来
扫码关注公众号
扫码阅读
手机扫码阅读
文章主旨:
AnyTalker 是一种可扩展的音频驱动多人说话视频生成框架,能够实现自然交互、真实表情和高效唇同步。
关键要点:
- 提出可扩展的多流处理结构 Audio-Face Cross Attention Layer,用于驱动任意数量的角色并实现自然交互。
- 采用两阶段训练策略:第一阶段利用单人数据模拟多人互动;第二阶段通过少量真实多人数据优化互动性。
- 首创交互性评价指标,通过眼部关键点运动幅度量化评估生成视频的交互强度。
- 证明了 AnyTalker 在唇形同步、身份扩展和交互性之间的平衡性能超越现有方法。
- 构建了专门的多人交互数据集 InteractiveEyes,用于验证模型生成结果的真实性和自然性。
内容结构:
- 解决的问题:现有方法难以扩展到多人场景、高训练成本且缺乏交互性评估方法。
- 技术与方案:
- 开发 Audio-Face Cross Attention Layer,以循环方式处理音频与面部输入,实现多角色自然互动。
- 采用单人数据预训练与多人数据微调结合的低成本训练流程。
- 提出新指标 eye-focused Interactivity,用于衡量沉默阶段的交互强度。
- 方法与流程:
- 提出两阶段训练策略:第一阶段合成双人数据,第二阶段使用真实多人数据优化交互性。
- 利用标准单人视频数据与少量高质量双人数据构建训练集。
- 通过严谨的质量控制流程确保多人数据的准确性。
- 实验与评估:
- 定量评估:在单人和多人基准上验证模型性能,提出新指标测量交互性。
- 定性评估:对比现有方法,展示 AnyTalker 在生成自然交互视频方面的优势。
- 结论:AnyTalker 在唇形同步、身份扩展和交互性方面表现优异,是生成高质量多人互动视频的创新解决方案。
文章总结:
AnyTalker 为多人说话视频生成领域提供了突破性技术,展现出高度自然的交互与真实的表现,可广泛应用于视频生成和交互场景。
AI生成未来
AI生成未来
扫码关注公众号
还在用多套工具管项目?
一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。
查看方案
AI生成未来的其他文章
图像生成地表最强!Playground v2.5技术报告解读重磅来袭!超越SD、DALL·E 3和 Midjourney
点击上方 蓝字,关注 AI 生成未来,干货不停后台??
我常用的几款免费文本转语音在线平台推荐!
在当今的数字化时代,文本转语音的应用需求越来越?
高保真+通用!视频扩散模型加持,稀疏视图重建任意场景!清华&港科大发布ReconX
点击下方卡片,关注“AI生成未来”作者:Fangfu Liu等?
19款模型大PK!李飞飞团队发布首个世界生成基准WorldScore:曝出世界生成三大致命伤
点击下方卡片,关注“AI生成未来”如您有工作需要??
兼顾身份保护和文本对齐!中山大学等提出CoRe:任意提示的文本到图像个性化生成!
点击下方卡片,关注“AI生成未来”作者:Feize Wu、Xud
加入社区微信群
与行业大咖零距离交流学习
PMO实践白皮书
白皮书上线
白皮书上线