港科大等提出音频驱动多人视频生成新范式 AnyTalker，解锁任意数量角色间的自然互动！

视频生成音频 AnyTalker 交互性

发布于 2025-12-19

181

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：港科大等提出音频驱动多人视频生成新范式 AnyTalker，解锁任意数量角色间的自然互动！

文章来源：

AI生成未来

扫码关注公众号

扫码阅读

手机扫码阅读

文章主旨：

AnyTalker 是一种可扩展的音频驱动多人说话视频生成框架，能够实现自然交互、真实表情和高效唇同步。

关键要点：

提出可扩展的多流处理结构 Audio-Face Cross Attention Layer，用于驱动任意数量的角色并实现自然交互。
采用两阶段训练策略：第一阶段利用单人数据模拟多人互动；第二阶段通过少量真实多人数据优化互动性。
首创交互性评价指标，通过眼部关键点运动幅度量化评估生成视频的交互强度。
证明了 AnyTalker 在唇形同步、身份扩展和交互性之间的平衡性能超越现有方法。
构建了专门的多人交互数据集 InteractiveEyes，用于验证模型生成结果的真实性和自然性。

内容结构：

解决的问题：现有方法难以扩展到多人场景、高训练成本且缺乏交互性评估方法。
技术与方案：
- 开发 Audio-Face Cross Attention Layer，以循环方式处理音频与面部输入，实现多角色自然互动。
- 采用单人数据预训练与多人数据微调结合的低成本训练流程。
- 提出新指标 eye-focused Interactivity，用于衡量沉默阶段的交互强度。
方法与流程：
- 提出两阶段训练策略：第一阶段合成双人数据，第二阶段使用真实多人数据优化交互性。
- 利用标准单人视频数据与少量高质量双人数据构建训练集。
- 通过严谨的质量控制流程确保多人数据的准确性。
实验与评估：
- 定量评估：在单人和多人基准上验证模型性能，提出新指标测量交互性。
- 定性评估：对比现有方法，展示 AnyTalker 在生成自然交互视频方面的优势。
结论：AnyTalker 在唇形同步、身份扩展和交互性方面表现优异，是生成高质量多人互动视频的创新解决方案。

文章总结：

AnyTalker 为多人说话视频生成领域提供了突破性技术，展现出高度自然的交互与真实的表现，可广泛应用于视频生成和交互场景。

AI生成未来

查看原文：港科大等提出音频驱动多人视频生成新范式 AnyTalker，解锁任意数量角色间的自然互动！

文章来源：

AI生成未来

扫码关注公众号

相关推荐

极佳、中科院等9机构联合首发 | 3万字长文全面解析世界模型(内容生成/自动驾驶等)

1023

模型世界生成视频

击下方卡片，关注“AI生成未来”>>后台回复“GAI

只需一张图片！实现任意3D/4D场景生成！港科大&清华&生数发布DimensionX

587

视频生成场景 Director

点击下方卡片，关注“AI生成未来”后台回复“

又见神仙打架，全面超越快手可灵？智谱AI联合清华发布CogVideoX | 技术报告解析

909

视频训练生成模型

点击下方卡片，关注“AI生成未来”>>后台回复“

Wan2.1背后的技术：阿里发布全能框架VACE，一统视频生成与编辑，效果惊艳！

555

视频生成模型 mask

点击下方卡片，关注“AI生成未来”如您有工作需要??

完整复现Sora，Open-Sora最新技术报告发布，提供完整训练代码、权重及数据处理工具

1080

视频训练生成模型

点击下方卡片，关注“AI生成未来”后台回复“GAI”??

超越CogVideoX-5B、Pika、Kling 和 Gen-3！苹果再发新作，视频生成大模型全面报告

933

模型视频生成图像

点击下方卡片，关注“AI生成未来”后台回复“GAI”??

AIGC最新技术及资讯

323 篇文章

浏览 297.5K

还在用多套工具管项目？

一个平台搞定产品、项目、质量与效能，告别整合之苦，实现全流程闭环。

AI生成未来的其他文章

具身智能又进一步！卡内基梅隆&Meta&苏黎世联邦实现虚拟人超灵活抓取

点击下方卡片，关注“AI生成未来”>>后台回复“

一张照片，秒变专属电影！字节最新Lynx黑魔法护航高保真个性化视频生成

点击下方卡片，关注“AI生成未来”如您有工作需要

从PixArt α 到 Σ: 关于高效Diffusion Models你想知道的一切

点击下方卡片，关注“AI生成未来”>>关注【AI生?

最高加速超4倍！不依赖特定模型的统一模型压缩框架CPD发布（卡尔斯鲁厄理工学院）

点击下方卡片，关注“AI生成未来”>>后台回复“

如何从文本生成图像和视频？9个常用生成器一览！

如何从文本生成图像和视频？9个常用生成器一览！

随机阅读

企业级持续测试实施指南（上）

神奇的角色训练（心理剧）

03-敏捷的适用范围

AI伦理箴言：防止AI杀死比赛

写了个监控 ElasticSearch 进程异常的脚本！

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线

联系我们
电话：4006 8899 23 邮箱：beining@chandao.com
融实践库
关于我们加入我们
微信号：rongpmcom
立即学习
微信公众号
微信视频号
社区微信群

友情链接：禅道项目管理软件云禅道敏捷开发喧喧IM ZDOO协同办公 ZTF自动化测试框架 ZenData测试数据生成器 ZenDAS数据分析渠成企业软件百宝箱 ZenShot开源截图工具 ZenPanel服务控制面板敏捷咨询