谷歌发布视频生成大语言模型 VideoPoet
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
作者: Anthony Alford
译者: 马可薇
策划: 丁晓昀
谷歌研究院推出了视频生成大语言模型VideoPoet,它在两万亿的文本、音频、图像和视频数据中接受了训练。与其他模型相比,其性能在人类评估中表现更好。
VideoPoet采用的是经过训练的Transformer架构,能够处理多种输入和输出模式。该模型在执行零次学习生成任务方面表现出色,包括文本生成视频、图像生成视频、视频补全和视频风格转换。谷歌表示,VideoPoet在视频生成领域显示出强大潜力,并可能支持更多类型的生成任务。
尽管OpenAI的DALL-E模型是使用Transformer生成图像的先锋,但扩散模型例如Imagen和Stable Diffusion已成为图像生成的主流。Meta的Emu和Stability AI的Stable Video Diffusion等模型也开始生成短视频。然而,谷歌通过VideoPoet重回Transformer架构,强调了大语言模型在基础设施复用和优化开发方面的优势,认为扩散模型在执行不同任务时需要进行架构性变化。
VideoPoet支持多模式的核心是一套tokenizer,分别为视频、音频和文本提供不同的tokenizers。模型使用自回归Transformer模型生成token序列,再由tokenizer转换为音频和视频。VideoPoet经过两万亿token的训练,能够执行八类不同的视频生成任务,并且可以通过连锁操作衍生出额外功能,如制作动画和应用视觉效果。
关于VideoPoet的讨论中,一些用户对其效果表达了赞叹,但也有人对使用特定prompt实现逼真效果表示不满。VideoPoet的演示网站提供了模型输出的示例视频。
想要了解更多内容?