扫码阅读
手机扫码阅读
Sora技术详解及影响分析!
39 2024-09-29
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
查看原文:Sora技术详解及影响分析!
文章来源:
Datawhale
扫码关注公众号
Datawhale干货
作者:李孝杰,清华大学,Datawhale成员
OpenAI的Sora项目展现出了通过视频数据学习世界模型的野心,旨在创建一个世界模拟器。
1-数据工程
1-1 采用patches统一训练数据格式,借鉴ViT,通过encoder将视频压缩成低维隐式空间的序列形式,利用decoder生成视频,带来数据统一和模型可扩展性的优势。
1-2 在原始图片尺寸上训练,增加视频生成时的灵活性,无需数据增强,保留视频的合理角度和构图先验。
1-3 使用re-captioning获得text-videos对,利用DALLE3和GPT4在训练和推理阶段生成对应的描述文本。
2-网络结构
2-1 DiT,结合transformer和ddpm,替换stable diffusion中的unet结构,提高模型表现。
2-2 整体结构,参考ZOMI酱绘制的Sora结构图,可能包括ViViT的时空编码方式和对Decoder输入去噪后的patches序列。
3-影响
3-1 世界模型,Sora展示了3D一致性、长程一致性和物体永久性、与世界互动、模拟数字世界等能力,引发关于其是否具备世界模型特征的讨论。
3-2 CV大一统,Sora的视频生成能力可能扩展至2D和3D领域,影响感知、理解等任务,有可能实现计算机视觉的大一统,消灭计算机图形学。
想要了解更多内容?
查看原文:Sora技术详解及影响分析!
文章来源:
Datawhale
扫码关注公众号
Datawhale的其他文章
FaceChain高保真人像风格生成挑战赛:一等奖方案
Datawhale分享
作者:马琦钧,Datawhale成员
简 介
大
Datawhale优秀助教团队
Datawhale团队
团队:Datawhale优秀助教「运营助教」
?
Datawhale团队发起了读论文项目,交大计算机博士分享医学影像
WhalePaper第一期\x0d\x0a分享方向:医学影像\x0d\x0a分享时间:本周六晚9点
AI顶会 ICLR 最新演讲:“The ChatGLM's Road to AGI”,首个中国大模型团队!
国产大模型的全球影响力!
深度好文:How to get started in C++!
Datawhale干货
作者:zclll,推荐:卢雨畋,Datawhale成
加入社区微信群
与行业大咖零距离交流学习
软件研发质量管理体系建设
白皮书上线