连环画创作源泉!港科大、腾讯等开源SEED-Story:开创性多模态长故事生成!
发布于 2024-10-25
1401
版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
AI生成未来
扫码关注公众号
扫码阅读
手机扫码阅读
亮点直击
- SEED-Story:一个新方法,利用多模态大语言模型(MLLM)生成丰富叙述性文本和上下文相关图像的多模态故事。
- 提出了多模态注意力汇聚机制,可以高效生成超出训练序列长度的长故事。
- 引入了专为多模态故事生成而设计的大规模数据集StoryStream。
方法
SEED-Story建立在MLLM的基础上,结合视觉Tokenization和De-tokenization,以及故事指令调优和去分词器适应,提高了故事生成的质量和一致性。通过多模态注意力汇聚机制,能够在保持较低计算负担的同时生成高质量的长篇故事。
实验
通过故事可视化和多模态故事生成的实验,SEED-Story显示了在风格和角色一致性、故事吸引力以及图像-文本一致性方面相较于基准模型的优越性。长故事生成实验证明了多模态注意力汇聚在生成长序列时相对于其他方法的高效性和质量保持能力。
结论
SEED-Story是一种创新的多模态长故事生成方法,它利用了MLLM的强大能力,并通过多模态注意力汇聚机制,高效生成长序列故事。StoryStream数据集的引入,进一步促进了模型训练和基准测试的有效性。
参考文献
[1] SEED-Story: Multimodal Long Story Generation with Large Language Model
AI生成未来
AI生成未来
扫码关注公众号
还在用多套工具管项目?
一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。
查看方案
AI生成未来的其他文章
让数字人视频告别"恐怖谷"!字节团队最新DreamActor-M1实现人类表情动作像素级操控
点击下方卡片,关注“AI生成未来”如您有工作需要??
只需微调,大幅提升人脸生成质量!上交联合OPPO发布新标准和新方法
点击下方卡片,关注“AI生成未来”>>后台回复“
CVPR 2024 | 万物皆可移动!SceneDiffusion:可控场景生成新SOTA!(Meta AI&南洋理工)
点击下方卡片,关注“AI生成未来”>>后台回复“
系统回顾生成式AI的发展:GANs、GPT、自编码器、扩散模型和Transformer系列
点击下方卡片,关注“AI生成未来”
ChatGPT的推出引起
一文详解多模态智能体(LMAs)最新进展(核心组件/分类/评估/应用)
击下方卡片,关注“AI生成未来”>>后台回复“GAI
加入社区微信群
与行业大咖零距离交流学习
PMO实践白皮书
白皮书上线
白皮书上线