生成一个好故事!StoryDiffusion:一致自注意力和语义运动预测器必不可少(南开&字节)
版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
AI生成未来
扫码关注公众号
扫码阅读
手机扫码阅读
结构化摘要
文章主旨:
本文提出了一种名为StoryDiffusion的新框架,通过一致性自注意力和语义运动预测器,以无需训练的方式生成主题一致的图像和视频,显著提升文本到图像和视频生成的可控性与稳定性。
关键要点:
- 提出一致性自注意力模块,以无需训练的方式在图像序列中保持角色的主题一致性,提高叙事能力。
- 引入语义运动预测器,将图像编码到语义空间以生成平滑的视频过渡,优于现有条件视频生成方法。
- StoryDiffusion框架能够基于文本提示生成具有一致主题的长图像序列或视频,支持复杂叙事。
- 实验结果显示,本文方法在主题一致性图像生成和过渡视频生成方面超越了现有最先进方法。
- 通过用户研究和消融实验,进一步验证了方法的可扩展性和用户满意度。
内容结构:
- 介绍:剖析扩散模型的发展及其在生成图像和视频中的潜力,同时指出现有模型在保持多帧一致性方面的不足。
- 方法:
- 一致性自注意力模块:无需额外训练,通过从参考图像中采样tokens,增加图像之间的一致性。
- 语义运动预测器:在语义空间中预测图像之间的过渡,实现平滑的视频生成。
- 实验:
- 一致性图像生成:与IP-Adapter和PhotoMaker进行定性和定量比较,展现显著优势。
- 过渡视频生成:与SparseCtrl和SEINE进行比较,证明生成的过渡视频具有更高的连续性和物理合理性。
- 消融研究:测试采样率对一致性自注意力的影响,以及用户指定ID生成图像的性能。
- 用户研究:通过参与者评估,确认模型在图像和视频生成方面的卓越表现。
- 结论:总结StoryDiffusion框架在一致图像和视频生成领域的贡献,展望其对可控生成领域的未来激励作用。
文章总结:
StoryDiffusion提供了一种高效的图像和视频生成解决方案,通过创新模块实现叙事的主题一致性,适合进一步应用于视觉内容生成领域。
AI生成未来
AI生成未来
扫码关注公众号
还在用多套工具管项目?
一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。
查看方案
AI生成未来的其他文章
生成一个好故事!StoryDiffusion:一致自注意力和语义运动预测器必不可少(南开&字节)
击下方卡片,关注“AI生成未来”>>后台回复“GAI
第一个包含百万图像文本对的时尚数据集
文本驱动的时尚合成和设计是AIGC中极为有价值的一部
NeurIPS 2025 Spotlight! 当内部地图发生扭曲时: 为什么可识别的表征对负责任的人工智能至关重要?
点击下方卡片,关注“AI生成未来”如您有工作需要
长视频生成速度提升100倍!新加坡国立提出Video-Infinity:分布式长视频生成
点击下方卡片,关注“AI生成未来”>>后台回复“
AI论文润色平台一览,让你的论文更加流畅易懂!
关注【AI生成未来】公众号,回复“GAI”,免费获取??
加入社区微信群
与行业大咖零距离交流学习
PMO实践白皮书
白皮书上线
白皮书上线