扫码阅读

手机扫码阅读

谷歌发布视频生成大语言模型 VideoPoet

168 2024-07-04

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：谷歌发布视频生成大语言模型 VideoPoet

文章来源：

InfoQ

扫码关注公众号

作者: Anthony Alford

译者: 马可薇

策划: 丁晓昀

谷歌研究院推出了视频生成大语言模型VideoPoet，它在两万亿的文本、音频、图像和视频数据中接受了训练。与其他模型相比，其性能在人类评估中表现更好。

VideoPoet采用的是经过训练的Transformer架构，能够处理多种输入和输出模式。该模型在执行零次学习生成任务方面表现出色，包括文本生成视频、图像生成视频、视频补全和视频风格转换。谷歌表示，VideoPoet在视频生成领域显示出强大潜力，并可能支持更多类型的生成任务。

尽管OpenAI的DALL-E模型是使用Transformer生成图像的先锋，但扩散模型例如Imagen和Stable Diffusion已成为图像生成的主流。Meta的Emu和Stability AI的Stable Video Diffusion等模型也开始生成短视频。然而，谷歌通过VideoPoet重回Transformer架构，强调了大语言模型在基础设施复用和优化开发方面的优势，认为扩散模型在执行不同任务时需要进行架构性变化。

VideoPoet支持多模式的核心是一套tokenizer，分别为视频、音频和文本提供不同的tokenizers。模型使用自回归Transformer模型生成token序列，再由tokenizer转换为音频和视频。VideoPoet经过两万亿token的训练，能够执行八类不同的视频生成任务，并且可以通过连锁操作衍生出额外功能，如制作动画和应用视觉效果。

关于VideoPoet的讨论中，一些用户对其效果表达了赞叹，但也有人对使用特定prompt实现逼真效果表示不满。VideoPoet的演示网站提供了模型输出的示例视频。

想要了解更多内容？

查看原文：谷歌发布视频生成大语言模型 VideoPoet

文章来源：

InfoQ

扫码关注公众号

相关推荐

聊聊CMM/CMMI认证的反敏捷

421

CMMI 敏捷

对于传统软件行业的QA（过程改进）人员，CMM/CMMI知识是基本要求，但是在推行敏捷的组织中，CMM/CMMI并不被接受，甚至和敏捷转型理念背道而驰。这篇短文就聊CMM/CMMI认证的反敏捷之处，QA人员可以对比思考

浅谈技术架构

373

技术架构产品

技术架构是统筹考虑如何实现各种功能，含基础设施和系统设计。基础设施指选择什么语言、什么框架、什么数据库及消息队列、搜索引擎、部署方案等，系统设计含是否采用微服务、事件驱动、CQRS模式、模块间如何通信，数据统计分析按模块分别实现还是统一实现

Spring Boot与HttpClient：轻松实现GET和POST请求

165

**HttpClient** 是Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议

实际案例分析-互动数据优化方案

190

tinyint 队列 bigint varchar

一个app从零到一的时候，刚开始活跃的用户不是很多，这个时候当用户上传视频之后，谁来负责给他们进行评论与回复呢？这个时候就可以依靠强大的运营团队来执行，那应该如何设计整个系统实现需求呢？这个就是本案例分享的互动数据优化方案。

【一分钟聊嵌入式】如何设计外设控制接口实现软件分层

144

扫描关注一起学嵌入式，一起学习，一起成长【??

Python | 校准曲线绘制calibration curve

71

干货！内含代码，建议收藏！

InfoQ

为一线互联网公司核心技术人员提供优质内容。科技圈的观察者，前沿技术的传播者。

98 篇文章

浏览 20.6K

InfoQ的其他文章

10 天吸粉 1900 万，“幻兽帕鲁”将无数技术小白逼成了服务器大佬

相信很多游戏玩家都听说过“私服”。

解锁大语言模型潜力：4种提示工程技术解析，带你玩转 AI

在本文中，我们介绍了一些学术论文中提到的一些最新的提示工程技术。

微服务穷途末路？新招式能否开启“黄金演进期”？

本文 InfoQ 采访了字节跳动服务框架团队架构师、CloudWeGo 开源负责人罗广明，探讨了微服务发展十几年来的进展和关键技术演变。

Vue 3.4 发布，最小化响应性计算并加速了模板解析

Vue团队最近发布了Vue 3.4。这个新的版本采用了新的模板解析器，据称其速度提升了两倍，同时提供了更高效的响应性系统，减少了不必要的组件重渲染。

争议与热度并存，越来越多开发者正在抛弃他们的旧语言转向 Rust

“用 Rust 重写”的表情包广为流传，是 Rust 空前影响力的证明。

随机阅读

案例：每日站立会议落实情况的再跟踪

和任老师聊聊质量工作

杂谈推理逻辑的严密性

三个团队的站立会议旁观笔记

采用Minitab进行logistic回归分析

加入社区微信群

与行业大咖零距离交流学习

软件研发质量管理体系建设白皮书上线

联系我们
电话：4006 8899 23 邮箱：beining@chandao.com
融实践库
关于我们加入我们
微信号：xdwjack
立即学习
微信公众号
微信视频号
社区微信群

友情链接：禅道项目管理软件云禅道敏捷开发喧喧IM ZDOO协同办公 ZTF自动化测试框架 ZenData测试数据生成器 ZenDAS数据分析渠成企业软件百宝箱 ZenShot开源截图工具 ZenPanel服务控制面板敏捷咨询