Sora技术详解及影响分析！

发布于 2024-09-29

1301

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：Sora技术详解及影响分析！

文章来源：

Datawhale

扫码关注公众号

扫码阅读

手机扫码阅读

Datawhale干货

作者：李孝杰，清华大学，Datawhale成员

OpenAI的Sora项目展现出了通过视频数据学习世界模型的野心，旨在创建一个世界模拟器。

1-数据工程

1-1 采用patches统一训练数据格式，借鉴ViT，通过encoder将视频压缩成低维隐式空间的序列形式，利用decoder生成视频，带来数据统一和模型可扩展性的优势。

1-2 在原始图片尺寸上训练，增加视频生成时的灵活性，无需数据增强，保留视频的合理角度和构图先验。

1-3 使用re-captioning获得text-videos对，利用DALLE3和GPT4在训练和推理阶段生成对应的描述文本。

2-网络结构

2-1 DiT，结合transformer和ddpm，替换stable diffusion中的unet结构，提高模型表现。

2-2 整体结构，参考ZOMI酱绘制的Sora结构图，可能包括ViViT的时空编码方式和对Decoder输入去噪后的patches序列。

3-影响

3-1 世界模型，Sora展示了3D一致性、长程一致性和物体永久性、与世界互动、模拟数字世界等能力，引发关于其是否具备世界模型特征的讨论。

3-2 CV大一统，Sora的视频生成能力可能扩展至2D和3D领域，影响感知、理解等任务，有可能实现计算机视觉的大一统，消灭计算机图形学。

Datawhale

查看原文：Sora技术详解及影响分析！

文章来源：

Datawhale

扫码关注公众号

相关推荐

新闻不打烊！AIGC为你打破新闻圈的神奇秘密

1179

AIGC 技术数据

嗨，各位亲爱的读者和职场达人们！新??

我测了12个小时的RunwayGen3，发现这就是AI视频的No.1。

1287

镜头风格氛围。。。

你永远可以相信Runway。

推荐7个VS Code大模型AI插件，编程如虎添翼

5007

代码编程 AI 编码

介绍7个 VS Code AI 插件，提升编码效率和质量。

詹姆斯 · 卡梅隆官宣加入Stability AI，好莱坞要向AI投降了。

824

AI 好莱坞罢工卡梅隆

闸门已经打开，洪水只会更加凶猛。

【全网独家】无限白嫖AI积分的黑科技来了！

2789

AI 注册邮箱积分

太牛了

GPT4o生成的烂自拍，反而比我们更真实。

697

照片一张自拍构图

真实是未经表演的存在。

Datawhale

一个专注于AI领域的开源组织，汇聚了众多优秀学习者，使命-for the learner，和学习者一起成长。

115 篇文章

浏览 131.2K

还在用多套工具管项目？

一个平台搞定产品、项目、质量与效能，告别整合之苦，实现全流程闭环。

查看方案

Datawhale的其他文章

关于Agent Harness，我整理了一个最小版！

Datawhale干货作者：陈思州，Datawhale成员前面讲 A

再也不担心论文！Nano-Banana Pro 论文绘图最全教程发布

发论文必备。

那一年，为了进阿里背过的SQL题

纯手工的8291字的SQL面试题总结分享给初学者。

手把手带你用DeepSeek-R1和Ollama搭建本地应用，一文搞定！

Datawhale干货作者：昊然，Datawhale成员昨天文章《De

喂饭级教程！AI一键试衣，不用PS也能学会

Datawhale干货作者：leaf，Datawhale成员????本文目录：

随机阅读

发现同构：Gartner曲线、达克效应与跨越鸿沟

08-19

疫情一年总结：你在疫情的样子，就是你未来的样子

敏捷史话（十三）：我被 Facebook 解雇了—— Kent Beck

08-21

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线

去下载

联系我们
电话：4006 8899 23 邮箱：beining@chandao.com
融实践库
关于我们加入我们
微信号：rongpmcom
立即学习
微信公众号
微信视频号
社区微信群

友情链接：禅道项目管理软件云禅道敏捷开发喧喧IM ZDOO协同办公 ZTF自动化测试框架 ZenData测试数据生成器 ZenDAS数据分析渠成企业软件百宝箱 ZenShot开源截图工具 ZenPanel服务控制面板敏捷咨询

Sora技术详解及影响分析！

版权声明

Datawhale干货

1-数据工程

2-网络结构

3-影响

一个容易被忽视的发布痛点，禅道用它解决了

还在用多套工具管项目？

联系我们

融实践库

微信公众号

微信视频号

社区微信群