像俄罗斯方块一样生成视频! 北大联合快手AI团队推出新框架VideoTetris实现跟随复杂指令的文生视频!
发布于 2024-10-22
957
版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
AI生成未来
扫码关注公众号
扫码阅读
手机扫码阅读
文章摘要
研究背景:扩散模型在文本到视频(T2V)生成领域取得显著成果,但面对复杂、细节丰富的指令时存在挑战。
研究成果:北京大学与快手AI团队提出了VideoTetris项目,一个新框架用于应对复杂视频生成任务,能增强现有模型的组合生成能力,支持多复杂指令和长视频生成。
框架方法:提出时空合成扩散方法来遵循复杂文本特征,并通过增强的视频数据预处理和参考帧注意力机制提高视频生成一致性。
技术实现:VideoTetris利用时空组合扩散方法,通过解构提示词和应用交叉注意力进行高效的组合指令生成,结合增强训练数据预处理和参考帧注意力机制优化长视频生成。
实验评测:引入新的评测指标VBLIP-VQA和VUnidet,显示VideoTetris在组合视频生成上优于开源及商用模型。
相关链接:项目主页及代码已公开,可供进一步了解和研究。
参考文献:详细研究可参考论文“VideoTetris: Towards Compositional Text-To-Video Generation”。
AI生成未来
AI生成未来
扫码关注公众号
还在用多套工具管项目?
一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。
查看方案
AI生成未来的其他文章
第一个包含百万图像文本对的时尚数据集
文本驱动的时尚合成和设计是AIGC中极为有价值的一部
如何"正确"使用Stable Diffusion?文本到图像扩散模型中记忆化实用分析(浙大)
击下方卡片,关注“AI生成未来”>>后台回复“GAI
CVPR 2024 | CAMixerSR:2K/8K/轻量级/全景图像超分又快又强!(字节&南开)
原点击下方卡片,关注“AI生成未来”>>后台回复
文本和单图如何生成无缝的360度全景图像?
与普通的2D图像不同,360度全景图像捕捉整个360°×180?
上海交大&阿里巴巴推出虚拟试衣新里程碑式工作——AnyFit:任意场景、任意组合!
点击下方卡片,关注“AI生成未来”>>后台回复“
加入社区微信群
与行业大咖零距离交流学习
PMO实践白皮书
白皮书上线
白皮书上线