多任务多模态全统一!港科大&快手可灵等最新UnityVideo:生成、理解、控制多项SOTA!

模态 生成 视频 训练 UnityVideo
发布于 2025-12-22
2

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读

文章主旨:

UnityVideo 是一个统一的多模态、多任务视频生成与理解框架,通过联合训练和模态自适应学习,实现了各任务间协同优化,并显著提升了视频生成与理解能力。

关键要点:

  • 提出 UnityVideo 框架,整合视频生成与视觉模态估计,实现任务与模态的统一学习。
  • 通过联合训练与动态任务路由加速模型收敛,增强对物理世界的理解能力。
  • 引入上下文学习器与模态切换器,提高模型对异构模态信号的处理能力。
  • 贡献了大规模统一数据集 OpenUni 和高质量评测基准 UniBench,支持多模态学习与验证。
  • 在零样本泛化、物理一致性与生成质量上超越多个现有 SOTA 方法。

内容结构:

  • 解决的问题:

    现有视频生成模型局限于单一模态,缺乏对复杂物理动态的理解,且训练范式割裂,未能实现任务协同优化。

  • 提出的方案:

    通过全能型 DiT 架构、动态噪声调度、模态自适应学习,统一处理视频生成与模态估计任务,优化学习效率与性能。

  • 应用的技术:

    • 动态任务路由:根据任务难度分配采样概率与噪声调度。
    • 上下文学习器:基于模态类型提示,提高模型语义级模态感知能力。
    • 模态切换器:在架构中引入模态嵌入列表,实现模态级调制。
    • 课程学习:分阶段训练像素对齐与非像素对齐模态,确保稳定收敛。
  • 达到的效果:

    • 性能优越:在视频生成与模态估计任务上超越现有 SOTA 方法。
    • 收敛速度提升:联合多模态训练显著降低训练损失。
    • 物理一致性增强:生成的视频更符合真实物理逻辑。
  • 实验与结果:

    • 数据集与指标:使用 OpenUni 数据集与多个基准评估视频生成、深度估计、视频分割任务。
    • 定量与定性比较:模型在多项指标上优于现有方法,展现更好的物理逻辑与内容一致性。
    • 消融实验:验证多模态联合训练与架构设计对性能提升的关键作用。
    • 用户研究与泛化能力:证明模型能泛化至未见模态,并获得用户偏好。

文章总结:

UnityVideo 框架为多模态视频生成与理解提供了统一解决方案,通过创新的架构设计与训练策略,实现了性能与泛化能力的双重突破,是下一代世界模型发展的重要里程碑。

AI生成未来