Vidu官方论文来了！媲美Sora的国产视频生成器背后技术探秘

视频生成 Vidu 所示 Sora

发布于 2025-05-17

1774

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：Vidu官方论文来了！媲美Sora的国产视频生成器背后技术探秘

文章来源：

AI生成未来

扫码关注公众号

扫码阅读

手机扫码阅读

文章主旨：

Vidu是一种高性能文本到视频生成扩散模型，能够生成高清长视频并展现出强大的连贯性和动态性。

关键要点：

Vidu是一种以U-ViT为骨干的扩散模型，能够生成长达16秒的1080p视频，并支持长序列建模。
模型在连贯性、动态性以及理解专业摄影技术方面表现出色，与当前最强文本到视频生成器Sora性能相当。
Vidu支持多种可控视频生成技术，包括边缘检测到视频生成、视频预测和主体驱动生成，展示了有希望的结果。
Vidu初步具有表现情感、生成过渡效果、展现摄像机运动以及光影效果的能力。
模型未来仍有改进空间，如细节优化和主体交互的物理规律性改进。

内容结构：

1. 模型介绍

Vidu是一种新型的文本到视频生成器，采用U-ViT骨干，通过扩散模型突破现有生成视频时长限制，生成连贯、动态且逼真的视频。模型可通过transformer处理长序列且能够理解专业摄影技术。

2. 技术细节

采用视频自编码器减少空间和时间维度以提升效率。
U-ViT对压缩视频进行建模，通过3D patch分割和长跳越连接处理视频片段。
训练数据通过高性能视频标题生成器自动标注，以应对大规模数据需求。

3. 功能展示

生成不同长度的视频：支持最长16秒视频及单帧图像。
3D一致性：生成视频展示对象在不同角度的自然投影。
过渡效果与摄像机运动：生成带有切换和运动效果的视频。
光影效果与情感刻画：增强整体氛围并表达复杂情感。
丰富想象力：生成现实中不存在的场景。

4. 与Sora对比

Vidu在生成性能上与Sora相当，尽管Sora不是公开可访问的，但通过示例提示进行的比较表明两者性能接近。

5. 可控视频生成实验

边缘检测到视频生成：利用类似ControlNet技术添加控制。
视频预测：根据输入图像或帧生成后续帧。
主体驱动生成：通过DreamBooth技术进行微调以实现主体驱动生成。

6. 未来改进方向

模型细节优化和主体交互的物理规律性仍需进一步提升，未来扩展可能解决这些问题。

文章总结：

Vidu展示了其在文本到视频生成领域的强大潜力，但仍有优化空间，未来发展值得期待。

AI生成未来

查看原文：Vidu官方论文来了！媲美Sora的国产视频生成器背后技术探秘

文章来源：

AI生成未来

扫码关注公众号

相关推荐

极佳、中科院等9机构联合首发 | 3万字长文全面解析世界模型(内容生成/自动驾驶等)

1880

模型世界生成视频

击下方卡片，关注“AI生成未来”>>后台回复“GAI

只需一张图片！实现任意3D/4D场景生成！港科大&清华&生数发布DimensionX

1188

视频生成场景 Director

点击下方卡片，关注“AI生成未来”后台回复“

又见神仙打架，全面超越快手可灵？智谱AI联合清华发布CogVideoX | 技术报告解析

1552

视频训练生成模型

点击下方卡片，关注“AI生成未来”>>后台回复“

Wan2.1背后的技术：阿里发布全能框架VACE，一统视频生成与编辑，效果惊艳！

1071

视频生成模型 mask

点击下方卡片，关注“AI生成未来”如您有工作需要??

完整复现Sora，Open-Sora最新技术报告发布，提供完整训练代码、权重及数据处理工具

1670

视频训练生成模型

点击下方卡片，关注“AI生成未来”后台回复“GAI”??

超越CogVideoX-5B、Pika、Kling 和 Gen-3！苹果再发新作，视频生成大模型全面报告

1738

模型视频生成图像

点击下方卡片，关注“AI生成未来”后台回复“GAI”??

AI生成未来

AIGC最新技术及资讯

334 篇文章

浏览 471.9K

还在用多套工具管项目？

一个平台搞定产品、项目、质量与效能，告别整合之苦，实现全流程闭环。

查看方案

AI生成未来的其他文章

视频模型降维打击？浙大&哈佛提出 IF-Edit：无需训练，用“生成视频”的思路修图！

点击下方卡片，关注“AI生成未来”????扫码免费加入A

Gen4Gen：数据驱动多概念个性化图像生成新方法（马毅教授团队新作）

点击上方蓝字，关注 AI 生成未来，干货不停后台??

国内首个中文原生DiT架构SOTA大模型全面开源！———Hunyuan-DiT技术报告详解

击下方卡片，关注“AI生成未来”>>后台回复“GAI

GPT-4o图像生成能力全揭秘：背后竟藏自回归+扩散架构？北大&中山等开源GPT-ImgEval

点击下方卡片，关注“AI生成未来”如您有工作需要??

只需一张图片！实现任意3D/4D场景生成！港科大&清华&生数发布DimensionX

点击下方卡片，关注“AI生成未来”后台回复“

随机阅读

创造过程中的思考和总结，iPod之父的《创造》

08-17

《如何成为专家》，高手之上的更好选择

08-17

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线

去下载

联系我们
电话：4006 8899 23 邮箱：beining@chandao.com
融实践库
关于我们加入我们
微信号：rongpmcom
立即学习
微信公众号
微信视频号
社区微信群

友情链接：禅道项目管理软件云禅道敏捷开发喧喧IM ZDOO协同办公 ZTF自动化测试框架 ZenData测试数据生成器 ZenDAS数据分析渠成企业软件百宝箱 ZenShot开源截图工具 ZenPanel服务控制面板敏捷咨询

Vidu官方论文来了！媲美Sora的国产视频生成器背后技术探秘

版权声明

文章主旨：

关键要点：

内容结构：

1. 模型介绍

2. 技术细节

3. 功能展示

4. 与Sora对比

5. 可控视频生成实验

6. 未来改进方向

文章总结：

掌握这些思维技巧，解救996的打工人！

还在用多套工具管项目？

联系我们

融实践库

微信公众号

微信视频号

社区微信群