Vidu官方论文来了!媲美Sora的国产视频生成器背后技术探秘

视频 生成 Vidu 所示 Sora
发布于 2025-05-17
1359

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读

文章主旨:

Vidu是一种高性能文本到视频生成扩散模型,能够生成高清长视频并展现出强大的连贯性和动态性。

关键要点:

  • Vidu是一种以U-ViT为骨干的扩散模型,能够生成长达16秒的1080p视频,并支持长序列建模。
  • 模型在连贯性、动态性以及理解专业摄影技术方面表现出色,与当前最强文本到视频生成器Sora性能相当。
  • Vidu支持多种可控视频生成技术,包括边缘检测到视频生成、视频预测和主体驱动生成,展示了有希望的结果。
  • Vidu初步具有表现情感、生成过渡效果、展现摄像机运动以及光影效果的能力。
  • 模型未来仍有改进空间,如细节优化和主体交互的物理规律性改进。

内容结构:

1. 模型介绍

Vidu是一种新型的文本到视频生成器,采用U-ViT骨干,通过扩散模型突破现有生成视频时长限制,生成连贯、动态且逼真的视频。模型可通过transformer处理长序列且能够理解专业摄影技术。

2. 技术细节

  • 采用视频自编码器减少空间和时间维度以提升效率。
  • U-ViT对压缩视频进行建模,通过3D patch分割和长跳越连接处理视频片段。
  • 训练数据通过高性能视频标题生成器自动标注,以应对大规模数据需求。

3. 功能展示

  • 生成不同长度的视频:支持最长16秒视频及单帧图像。
  • 3D一致性:生成视频展示对象在不同角度的自然投影。
  • 过渡效果与摄像机运动:生成带有切换和运动效果的视频。
  • 光影效果与情感刻画:增强整体氛围并表达复杂情感。
  • 丰富想象力:生成现实中不存在的场景。

4. 与Sora对比

Vidu在生成性能上与Sora相当,尽管Sora不是公开可访问的,但通过示例提示进行的比较表明两者性能接近。

5. 可控视频生成实验

  • 边缘检测到视频生成:利用类似ControlNet技术添加控制。
  • 视频预测:根据输入图像或帧生成后续帧。
  • 主体驱动生成:通过DreamBooth技术进行微调以实现主体驱动生成。

6. 未来改进方向

模型细节优化和主体交互的物理规律性仍需进一步提升,未来扩展可能解决这些问题。

文章总结:

Vidu展示了其在文本到视频生成领域的强大潜力,但仍有优化空间,未来发展值得期待。

AI生成未来