扫码阅读
手机扫码阅读

谷歌发布视频生成大语言模型 VideoPoet

43 2024-07-04

作者: Anthony Alford

译者: 马可薇

策划: 丁晓昀

谷歌研究院推出了视频生成大语言模型VideoPoet,它在两万亿的文本、音频、图像和视频数据中接受了训练。与其他模型相比,其性能在人类评估中表现更好。

VideoPoet采用的是经过训练的Transformer架构,能够处理多种输入和输出模式。该模型在执行零次学习生成任务方面表现出色,包括文本生成视频、图像生成视频、视频补全和视频风格转换。谷歌表示,VideoPoet在视频生成领域显示出强大潜力,并可能支持更多类型的生成任务。

尽管OpenAI的DALL-E模型是使用Transformer生成图像的先锋,但扩散模型例如Imagen和Stable Diffusion已成为图像生成的主流。Meta的Emu和Stability AI的Stable Video Diffusion等模型也开始生成短视频。然而,谷歌通过VideoPoet重回Transformer架构,强调了大语言模型在基础设施复用和优化开发方面的优势,认为扩散模型在执行不同任务时需要进行架构性变化。

VideoPoet支持多模式的核心是一套tokenizer,分别为视频、音频和文本提供不同的tokenizers。模型使用自回归Transformer模型生成token序列,再由tokenizer转换为音频和视频。VideoPoet经过两万亿token的训练,能够执行八类不同的视频生成任务,并且可以通过连锁操作衍生出额外功能,如制作动画和应用视觉效果。

关于VideoPoet的讨论中,一些用户对其效果表达了赞叹,但也有人对使用特定prompt实现逼真效果表示不满。VideoPoet的演示网站提供了模型输出的示例视频。

想要了解更多,点击 查看原文

为一线互联网公司核心技术人员提供优质内容。科技圈的观察者,前沿技术的传播者。

71 篇文章
浏览 3722
加入社区微信群
与行业大咖零距离交流学习
软件研发质量管理体系建设 白皮书上线