Sora技术详解及影响分析!
发布于 2024-09-29
1300
版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
Datawhale
扫码关注公众号
扫码阅读
手机扫码阅读
Datawhale干货
作者:李孝杰,清华大学,Datawhale成员
OpenAI的Sora项目展现出了通过视频数据学习世界模型的野心,旨在创建一个世界模拟器。
1-数据工程
1-1 采用patches统一训练数据格式,借鉴ViT,通过encoder将视频压缩成低维隐式空间的序列形式,利用decoder生成视频,带来数据统一和模型可扩展性的优势。
1-2 在原始图片尺寸上训练,增加视频生成时的灵活性,无需数据增强,保留视频的合理角度和构图先验。
1-3 使用re-captioning获得text-videos对,利用DALLE3和GPT4在训练和推理阶段生成对应的描述文本。
2-网络结构
2-1 DiT,结合transformer和ddpm,替换stable diffusion中的unet结构,提高模型表现。
2-2 整体结构,参考ZOMI酱绘制的Sora结构图,可能包括ViViT的时空编码方式和对Decoder输入去噪后的patches序列。
3-影响
3-1 世界模型,Sora展示了3D一致性、长程一致性和物体永久性、与世界互动、模拟数字世界等能力,引发关于其是否具备世界模型特征的讨论。
3-2 CV大一统,Sora的视频生成能力可能扩展至2D和3D领域,影响感知、理解等任务,有可能实现计算机视觉的大一统,消灭计算机图形学。
Datawhale
Datawhale
扫码关注公众号
还在用多套工具管项目?
一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。
查看方案
Datawhale的其他文章
GLM-4最新开源版本硬核测评!Datawhale成员万字测评(一)
GLM-4最新开源版本硬核测评。
我用 Codex 做研究后,总结出 6 条有用经验!
Datawhale干货
作者:陈思州,Datawhale成员
我现在
AI本科毕业前的年度总结!从FPS游戏到AI大模型
Datawhale干货
作者:Nagi-ovo,Datawhale开源贡献者2024 ?
动手做一个最小Agent——TinyAgent!
Datawhale干货
作者:宋志学,Datawhale成员
前 言
?
为什么电脑配置高,玩《黑神话:悟空》需要等待这么久
Datawhale干货
作者:Eternity,Datawhale成员不少玩家在
加入社区微信群
与行业大咖零距离交流学习
PMO实践白皮书
白皮书上线
白皮书上线