国产之光!快手可灵发布统一理解/生成/编辑视频框架UniVideo:让AI视频创作“大一统”

视频 UniVideo 生成 MLLM 模态
发布于 2025-12-03
174

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读

文章主旨:

UniVideo是一种统一多模态生成模型,通过结合多模态推理与细粒度视觉生成能力,扩展视频理解、生成及编辑领域,实现任务泛化能力及性能超越。

关键要点:

  • UniVideo提出了一种双流架构,将多模态大语言模型(MLLM)与多模态扩散Transformer(MMDiT)结合,统一处理视频理解、生成与编辑任务。
  • 模型采用单一多模态指令范式,通过联合训练实现任务组合,并展示出强大的泛化能力。
  • UniVideo在文本/图像到视频生成、上下文视频生成及编辑任务中达到或超越当前SOTA性能,并支持复杂的视觉提示理解。
  • 通过多阶段训练策略(连接器对齐、微调及多任务训练),模型在视频生成与编辑任务中表现出稳健性能及任务扩展能力。
  • 实验结果表明UniVideo不仅在专用基准测试中表现优异,还具备零样本泛化能力,可处理未见过的任务及任务组合。

内容结构:

1. 亮点直击

UniVideo通过双流架构实现多模态指令解析与视频生成任务的统一处理,相较于单一任务模型在性能和任务广泛性上具有显著优势。

2. 模型架构

UniVideo由MLLM和MMDiT两部分组成:

  • MLLM负责视觉-文本理解,生成文本响应并提供高层语义信息。
  • MMDiT专注视觉生成,结合MLLM语义特征与VAE细粒度视觉信号,确保高保真生成效果。

3. 训练策略

分为三阶段:

  1. 连接器对齐:训练MLP连接器以对齐MLLM与MMDiT输入空间。
  2. 微调:在高质量样本上微调MM-DiT以增强生成能力。
  3. 多任务训练:扩展至上下文生成与编辑任务,统一处理多模态指令。

4. 实验与结果

在广泛基准测试中,UniVideo表现出强大的统一能力:

  • 在文本/图像到视频生成任务中达到与专用基线性能相当或更高。
  • 上下文视频生成与编辑任务中,UniVideo展示了优于基线模型的指标性能及稳定性。
  • 零样本泛化能力使其能处理未见过的视觉提示及复杂任务组合。
  • 消融研究验证多任务训练与架构设计的有效性。

5. 结论

UniVideo通过统一架构实现了多模态任务的高效处理与泛化能力,展现出在视频生成与编辑领域的巨大潜力。未来可进一步优化任务特定性能。

文章总结:

UniVideo推动了多模态研究的进展,为视频理解、生成与编辑任务提供了一种创新性统一解决方案,展现了其在泛化能力及性能上的显著优势。

AI生成未来